学好线性代数,玩转推荐系统

作者 | 汪昊

审校 | 重楼

说到21 世纪互联网的技术,除了 Python / Rust / Go 等一系列新型编程语言的诞生,信息检索技术的蓬勃发展也是一大亮点。互联网上第一个纯技术商业模式就是以谷歌和百度为代表的搜索引擎技术。然而让大家臆想不到的是,推荐系统诞生的年代也很久远。早在1992 年,人类历史上第一个推荐系统就以论文的形式发表出来了,而在这个时候,谷歌和百度还没有诞生。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

学好线性代数,玩转推荐系统

不像搜索引擎那样被人们认为是刚需,很快就诞生了许多独角兽。以推荐系统为核心技术的科技公司要等到2010 年代今日头条和抖音崛起后才会出现。毫无疑问,今日头条和抖音成为了推荐系统最成功的代表性公司。如果说第一代信息检索技术搜索引擎是美国人先发制人,那么第二代信息检索技术推荐系统就被牢牢的控制在中国人手里。而我们现在遇到了第三代信息检索技术—— 基于大语言模型的信息检索。目前来看先发者是欧美国家,但目前中美正在齐头并进。

近几年来,推荐系统领域的权威会议 RecSys 频频将最佳论文奖颁给序列推荐(Sequential Recommendation)。这说明该领域目前越来越重视垂直应用。而有一个推荐系统的垂直应用是如此重要,但至今都没有掀起滔天巨浪,这个领域就是基于场景的推荐(Context-aware Recommendation),简称CARS。我们偶尔会见到有些 CARS 的Workshop,但是这些Workshop 的论文每年不超过10 篇,门可罗雀。

CARS 可以用来干什么?首先CARS 已经被汉堡王等快餐公司使用。它还可以在用户驾驶汽车的时候,根据场景给用户推荐音乐。另外,我们可以畅想一下,我们有没有可能根据天气状况给用户推荐出行计划?抑或是根据用户的身体状况给用户推荐餐饮?其实,只要我们充分的发挥自己的想象力,总是能给CARS 找出不同的落地应用。

然而问题来了,既然CARS 的用途这么广泛,为什么这么少的人发表论文?原因很简单,因为CARS 几乎没有公开的数据集可以使用。目前最好用的 CARS 的公开数据集是来自斯洛文尼亚的LDOS-CoMoDa 数据集。除此之外,我们很难找到别的数据集合。LDOS-CoMoDa 利用调研的形式提供了用户观影时的场景数据,使得广大研究人员从事 CARS 研究成为了可能。数据公开的时间点在2012 年到2013 年左右,但是目前知道这个数据集合的人很少。

言归正传,本文主要介绍MatMat / MovieMat 算法和PowerMat 算法。这些算法都是用来解决 CARS 问题的利器。我们先来看一下MatMat 是如何定义CARS 问题的:我们首先重新定义用户评分矩阵,我们把用户评分矩阵的每一个评分值替换成方阵。方阵的对角线元素是原始的评分值,非对角线元素都是场景信息。

学好线性代数,玩转推荐系统

我们下面定义 MatMat 算法的损失函数,该函数修改了经典的矩阵分解损失函数,形式如下:

学好线性代数,玩转推荐系统

其中 U 和V 都是矩阵。我们通过这种方式,改变了原始的矩阵分解中的向量点乘。将向量点乘变成了矩阵乘法。我们举下面一个例子来看:

学好线性代数,玩转推荐系统

我们在MovieLens Small Dataset 上做一下性能对比实验,得到如下结果:

学好线性代数,玩转推荐系统

可以看到,MatMat 算法的效果优于经典的矩阵分解算法。我们再来检查一下推荐系统的公平性:

学好线性代数,玩转推荐系统

可以看到,MatMat 在公平性指标上表现依然不遑多让。MatMat 的求解过程较为复杂,即便是发明算法的作者本人,也没有在论文中写出推导过程。但是俗话说的好,学好线性代数,走遍天下都不怕。相信聪明的读者自己一定能推导出相关的公式,并实现这个算法。MatMat 算法论文的原文地址可以在下面的链接找到:https://www.php.cn/link/9b8c60725a0193e78368bf8b84c37fb2 。这篇论文是国际学术会议IEEE ICISCAE 2021 最佳论文报告奖。

MatMat 算法被应用在了基于场景的电影推荐领域,该算法的电影实例被命名为MovieMat。MovieMat 的评分矩阵是按照如下方法定义的:

学好线性代数,玩转推荐系统

作者随后做了对比实验:

学好线性代数,玩转推荐系统

在LDOS-CoMoDa 数据集合上,MovieMat 取得了性能远高于经典矩阵分解的效果。下面我们来观察一下公平性的测评结果:

学好线性代数,玩转推荐系统

在公平性方面,经典矩阵分解取得了优于MovieMat 的结果。MovieMat 的原始论文可以在下面的链接找到:https://www.php.cn/link/f4ec6380c50a68a7c35d109bec48aebf

我们有的时候会遇到这样的问题。我们新到了一个地点,光有场景数据,而没有用户评分数据该怎么办?不要紧,Ratidar Technologies LLC (北京达评奇智网络科技有限责任公司) 发明了基于零样本学习的 CARS 算法—— PowerMat。PowerMat 的原始论文可以在下面的链接找到:https://www.php.cn/link/1514f187930072575629709336826443

PowerMat 的发明人借用了MAP 和DotMat,定义了如下的MAP 函数:

学好线性代数,玩转推荐系统

其中U 是用户特征向量、V 是物品特征向量、R 是用户评分值,而C 是场景变量。具体的,我们得到如下公式:

学好线性代数,玩转推荐系统

利用随机梯度下降对该问题进行求解,我们得到下述公式:

学好线性代数,玩转推荐系统

通过观察,我们发现在这组公式里没有出现任何输入数据相关的变量,因此 PowerMat 是仅与场景相关的零样本学习算法。该算法可以应用在如下场景:游客打算去某地旅游,但是从来没有去过当地,因此只有天气等场景数据,我们可以利用 PowerMat 给游客推荐打卡景点等等。

下面是PowerMat 和其他算法的对比数据:

学好线性代数,玩转推荐系统

通过这张图,我们发现PowerMat 和MovieMat 旗鼓相当,不分伯仲,并且效果都要优于经典的矩阵分解算法。而下面这张图显示,即使是在公平性指标方面,PowerMat 依旧表现强劲:

学好线性代数,玩转推荐系统

通过对比实验,我们发现PowerMat 是优秀的CARS 算法。

互联网的数据工程师经常说数据高于一切。并且在2010 年代左右互联网有一股强劲的看好数据看衰算法的风气。CARS 是个很好的例子。因为绝大多数人得不到相关数据,因此这个领域的发展一直受到了很大的限制。感谢斯洛文尼亚的研究人员公开了 LDOS-CoMoDa 数据集合,使得我们有机会发展这个领域。我们也希望有越来越多的人关注 CARS,落地 CARS,为 CARS 融资……

作者简介

汪昊,前Funplus 人工智能实验室负责人。曾在ThoughtWorks、豆瓣、百度、新浪等公司担任技术和技术高管职务。在互联网公司和金融科技、游戏等公司任职13 年,对于人工智能、计算机图形学和区块链等领域有着深刻的见解和丰富的经验。在国际学术会议和期刊发表论文42 篇,获得IEEE SMI 2008 最佳论文奖、ICBDT 2020 / IEEE ICISCAE 2021 / AIBT 2023 / ICSIM 2024 最佳论文报告奖。

以上就是学好线性代数,玩转推荐系统的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/425099.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月7日 11:04:38
下一篇 2025年11月7日 11:10:10

相关推荐

  • html中如何嵌入抖音_在HTML页面中嵌入抖音视频【视频】

    需通过抖音官方嵌入代码、开放平台API或合规第三方解析服务实现HTML视频展示,注意HTTPS协议、权限设置及用户授权,严禁商用或二次剪辑。 如果您希望在HTML页面中直接展示抖音平台上的视频内容,则需要借助抖音官方提供的嵌入代码或第三方API接口。以下是实现此目标的具体操作步骤: 一、使用抖音官方…

    2025年12月23日
    000
  • html搜索框如何跳转_实现HTML搜索框跳转搜索结果【结果】

    HTML搜索框跳转失败多因表单action或参数错误,可通过五种方法解决:一、百度用form提交至https://www.baidu.com/s?q=关键词;二、Google类似,action为https://www.google.com/search;三、JavaScript拼接必应URL并loc…

    2025年12月23日
    200
  • 从OpenAI API JSON响应中高效提取生成文本内容

    本教程详细指导开发者如何从openai api返回的json格式响应中准确提取生成的文本。通过利用`json.parse()`方法解析响应字符串,并访问`choices[0].text`属性,可以安全、高效地获取核心文本内容,从而避免直接字符串操作的潜在问题,确保api数据处理的健壮性。 OpenA…

    2025年12月23日
    000
  • HTML语义化未来趋势有哪些_HTML语义化在Web发展中的趋势与展望

    HTML语义化正朝着智能、高效、包容发展,深度融合结构化数据与ARIA属性,提升机器理解;2. 组件化趋势推动可复用语义结构普及,Web Components实现自定义语义标签;3. 语义化助力性能优化与可访问性,支持懒加载与内容优先级划分;4. AI工具将自动生成语义化代码并辅助检测,降低实践门槛…

    2025年12月23日
    000
  • 学会html如何赚钱_HTML技能(接单/就业)变现途径方法

    掌握HTML技能可通过接单、组合技能、教学等路径变现。先从闲鱼、猪八戒接企业官网单,报价199元起;再上程序员客栈做500-2000元项目;搭配CSS/JS提升报价50%以上;制作模板在ThemeForest售卖实现被动收入;提供800-3000元/月代运营服务;录9.9元微课、卖19.9元电子书、…

    2025年12月23日
    000
  • HTML数据如何实现数据智能 HTML数据智能分析的技术架构

    实现HTML数据智能分析需构建包含采集、解析、存储、分析与可视化的闭环系统,首先通过爬虫技术获取网页数据并进行清洗标准化,接着利用DOM树分析与NLP技术提取结构化信息,随后将数据存入合适数据库或数据仓库并建立元数据管理机制,进而应用AI模型开展分类、情感分析、趋势预测与知识图谱构建等智能分析,最终…

    2025年12月23日
    000
  • 如何在HTML中插入社交分享按钮_HTML第三方分享SDK集成方法

    答案:集成第三方SDK可实现网页社交分享。选用微信JS-SDK、微博Web SDK等或聚合工具,引入脚本并初始化,配置权限与分享内容,自定义按钮样式及事件,注意HTTPS、签名缓存与移动端适配,确保分享功能稳定流畅。 在网页中添加社交分享功能,能有效提升内容传播性。通过集成第三方社交平台的分享SDK…

    2025年12月23日
    000
  • html5文件如何实现区块链存证 html5文件哈希值上链的流程

    生成HTML5文件的SHA-256哈希值并记录;2. 选择支持数据上链的区块链平台并获取访问权限;3. 通过智能合约或交易附加字段将哈希值写入区块链;4. 保存交易ID、区块信息等作为存证凭证;5. 验证时重新计算文件哈希并与链上值比对,一致则未被篡改。 如果您需要将HTML5文件进行区块链存证,确…

    2025年12月23日
    000
  • HTML数据怎样进行数据合作 HTML数据合作模式的创新实践

    HTML数据合作正成为跨组织信息共享新范式,通过语义化标记、Web Component嵌入、边缘协同渲染及去中心化交易四大模式,实现高效、安全、智能的内容协作。 在数字化时代,HTML数据作为网页内容的核心载体,正逐渐成为跨组织、跨平台数据合作的重要形式。传统意义上的数据合作多集中在结构化数据库或A…

    2025年12月23日
    000
  • HTML5在线如何添加社交分享 HTML5在线传播功能的集成方案

    答案:HTML5页面可通过第三方SDK或自定义URL集成社交分享功能。使用微信JSSDK需配置权限并注册分享接口,微博可调用JS SDK或跳转分享链接,QQ系通过connect.qq.com实现;也可构造通用分享链接适配各平台,兼容性好但功能受限。配合Open Graph标签优化分享卡片显示,添加浮…

    2025年12月23日
    000
  • HTML5 section怎么用_HTML5内容分区标签应用场景说明

    在HTML5中,标签用于定义文档中具有明确主题的独立内容区块,需包含标题以体现其结构性与语义性,常用于文章章节、产品模块等场景,区别于无语义的和可独立分发的。 在HTML5中,section 标签用于定义文档中的一个独立内容区块。它不是简单的容器,而是有语义的结构化标签,表示文档中一个主题性的分区,…

    2025年12月23日
    000
  • htm算法 前景如何_分析HTM算法应用前景

    HTM算法在实时异常检测、预测性维护等时序数据场景中具备应用价值,其无需大量标注数据的特性适合工业监控、网络安防等领域;但受限于生态薄弱、性能不及主流模型及工程实现难度,短期内难以成为主流,更可能作为边缘计算或AI系统补充技术,在特定专业领域持续发展。 HTM(Hierarchical Tempor…

    2025年12月23日
    000
  • HTML结构化数据怎么添加_Schema标记添加教程

    Schema标记通过结构化数据帮助搜索引擎理解网页内容,提升搜索结果展示效果,如添加星级评分、价格等富文本信息。使用JSON-LD或Microdata格式将符合Schema.org标准的类型(如Article、Product)嵌入HTML中,可增强SEO,需通过Google Rich Results…

    2025年12月22日
    000
  • 如何实现自定义提示

    掌握自定义提示需构建迭代工作流,通过明确目标、设定角色、提供上下文、结构化输出、示例引导、迭代优化、负面提示和链式思考,实现AI输出的精准控制与高效协同。 实现自定义提示,核心在于理解与AI模型交互的本质,并将其从“提问”升级为“引导”。它不是简单的抛出问题,而是通过精心设计的语言结构、上下文信息、…

    2025年12月22日
    000
  • 表单中的不可否认性怎么实现?如何证明提交行为?

    不可否认性通过数字签名、时间戳和不可篡改日志确保提交者无法否认行为,区别于数据安全的保密性与完整性,其核心在于行为溯源与责任认定,技术挑战包括密钥管理、信任链建立、性能优化及法律合规,需结合MFA、区块链、第三方公证等手段增强证明力。 表单中的不可否认性,说白了,就是确保提交者无法事后否认自己的提交…

    2025年12月22日
    000
  • 表单中的审批流程怎么实现?如何添加多级审批?

    审批流程的核心是状态流转与权限控制,需通过清晰的数据模型(如current_status、approval_history表)、状态机驱动的后端逻辑、配置化的规则引擎实现多级审批;同时要避免权限粒度失衡、异常处理缺失、规则硬编码等陷阱,通过流程模板、动态审批人策略和可视化配置提升灵活性;数据安全则依…

    2025年12月22日
    000
  • 表单中的分布式存储怎么实现?如何保存数据到IPFS?

    表单数据通过后端代理上传至IPFS,生成唯一CID作为内容地址;2. 后端处理数据并封装为JSON与文件组合,调用IPFS API上传;3. CID需存储于数据库或区块链,并通过pinning服务确保数据持久性;4. 数据通过IPFS网关按CID检索,实现去中心化、不可篡改、抗审查的存储优势;5. …

    2025年12月22日
    000
  • 表单中的同态加密怎么应用?如何加密处理表单数据?

    同态加密不适用于直接在用户浏览器端对整个表单加密,核心思路是数据通过https安全传输至服务器后,仅对特定敏感字段在服务器端使用同态加密进行隐私保护计算,例如在不解密的情况下统计加密的年龄或收入数据,或在在线投票系统中对加密投票执行同态加法得出总票数,整个过程依赖密钥管理、数据选择和受控环境下的密文…

    2025年12月22日
    000
  • HTML表单如何实现区块链存证?怎样永久记录提交?

    html表单无法直接实现区块链存证,必须通过后端服务将表单数据的哈希值写入区块链,1. 首先前端收集数据并提交至后端,2. 后端进行数据校验、标准化后使用sha-256等算法生成哈希值,3. 再通过区块链sdk构造并签名交易,将哈希值上链,4. 最终利用区块链的密码学哈希链、分布式共识和时间戳机制确…

    2025年12月22日
    000
  • 表单中的智能合约怎么集成?如何自动执行表单条款?

    要实现表单数据与智能合约的精准匹配及条款的自动执行,核心在于通过后端服务进行数据类型转换、多层校验并严格遵循abi规范调用合约;智能合约通过内置条件逻辑或借助chainlink keepers等自动化服务实现触发执行;需应对gas成本、安全风险、异步体验和预言机依赖等挑战,采用layer 2、元交易…

    2025年12月22日
    000

发表回复

登录后才能评论
关注微信