CIKM2021 | 将对比学习用于解决推荐系统长尾问题

本文主要介绍了google在cikm 2021上发表的一篇文章,该文章探讨了如何通过对比学习解决推荐系统中的长尾问题。

CIKM2021 | 将对比学习用于解决推荐系统长尾问题

论文标题为《Self-supervised Learning for Large-scale Item Recommendations》,论文链接为:https://www.php.cn/link/f49a2479665b3bd13ec08d5d1a8bbe4c。

首先,让我们定义一下长尾效应:20%的热门商品占据了80%的曝光量,而剩下的80%的小众、长尾商品则很少获得曝光机会,因此在训练样本中显得稀少且弱势。

传统的推荐模型通常迎合大多数用户的需求,由于长尾商品曝光机会少,难以满足小众兴趣,这对成熟的生态系统不利,阻碍了用户增长。

举个例子:某些原本不受重视的销量小但种类多的商品,由于总量庞大,其累积收益可能超过主流商品。在这种情况下,算法挖掘小众兴趣的能力变得至关重要。

对于样本不均衡的问题,对比学习通常会想到数据增强(data augmentation)。对比学习的核心是通过数据增强构建正负样本变体,倾向于无监督学习,学习一个优秀的特征提取器。在推荐系统中引入对比学习用于去偏(debias),解决“少数人群+冷门物料,标注样本少”的问题,从逻辑上是可行的。

《Self-supervised Learning for Large-scale Item Recommendations》利用对比学习辅助训练双塔召回模型,旨在使item tower对冷门、小众商品也能学习出高质量的embedding,从而改善内容生态。从公式上看,可以理解为将对比学习的损失(loss)作为主任务损失的一个正则项。

CIKM2021 | 将对比学习用于解决推荐系统长尾问题

论文解读中,小Q认为论文中有两个核心技术点:一个是对比学习部分,另一个是联合训练部分。

3.1 在对比学习数据增强部分,论文提出了对于商品特征的数据增强分为两个步骤:Masking和Dropout。其中Masking是采用默认embedding随机掩盖一些输入特征,而Dropout则是简单地随机丢失一些输入特征。

3.2 论文定义了一个基准方法Random Feature Masking(RFM),采用互补masking模式,即将特征集拆分为两个互斥特征集,构建为两个扩展变体。具体来说,将特征集随机分成两个不相交的子集。大致结构如下:

CIKM2021 | 将对比学习用于解决推荐系统长尾问题

对于某个商品xi,随机抽取一半的特征h,得到变体yi,再经过Encoder H,得到向量zi;保留剩下的另一半特征g,得到变体yi’,再经过Encoder G,得到向量zi’。来自同一个商品xi的两种变体对应的embedding zi和zi’,两者之间的相似度应该越大越好。按照同样的方法,另一个商品xj,用一半特征h得到变体,再经过Encoder H得到yj;用另一半特征g,得到变体,再经过Encoder G得到yj’。来自不同商品的变体对应的embedding,两者之间的相似度应该越低越好。

3.3 论文基于信息论中的互信息,提出了Correlated Feature Masking(CFM)方法。这个方法在每个batch进行训练时,先会随机选取一个特征f_seed,然后选择topn(n为商品的特征总数的一半)构建一个特征集作为变体。

Calliper 文档对比神器 Calliper 文档对比神器

文档内容对比神器

Calliper 文档对比神器 28 查看详情 Calliper 文档对比神器

3.4 关于为什么采用互补masking模式构建对比学习的变体,以及为什么采用互信息高的特征集会比随机masking效果好,论文中有这样一段描述:

For instance, the SSL contrastive learning task may exploit the shortcut of highly correlated features between the two augmented examples, making the SSL task too easy.

从字面上看,随机masking可能会将一些高度相关的特征分到两个变体中,使得对比学习任务变得过于简单。为了增加难度,采用互补masking模式。进一步解释,随机masking可能使得模型在对比学习过程中,通过关联度较高的特征来“猜”出被mask的特征,使得任务训练变得简单。

举个例子,假设商品有品类、品牌、产品系列、价格等特征,如果“品牌”被拆分到变体h中,“产品系列”被拆分到变体g中,看上去两个变体不同,但两个特征包含的隐信息其实相差不大,最终两个变体的embedding太容易相似,达不到训练模型的目的。采用互补masking模式是为了保证变体的差异性。

3.5 完成对比学习后,下一步是联合训练。论文中的模型图如下:

CIKM2021 | 将对比学习用于解决推荐系统长尾问题

从图中可以看出,整个item tower是被user-item双塔召回的主任务、对比学习辅助任务中的encoder H和G所共享的。

论文的第二个重点是,“We sample items uniformly from the corpus for Lself”,论文中明确表示参与对比学习的样本和参与主任务的样本来自不同的样本空间。主任务需要拟合用户与商品之间的真实互动,仍以已经曝光过的user/item为主。对比学习部分是为了消除推荐长尾问题,主要关注曝光率低的商品。

参考资料:

[1] 石塔西:少数派报告:谈推荐场景下的对比学习:https://www.php.cn/link/9dd5b938ee55c873017b525aaf333882

[2] 推荐场景下的对比学习总结

[3] 基于对比学习的推荐算法总结

[4] self-supervised learning for large-scale item recommendations:https://www.php.cn/link/6e53ba571a5ed6223b77eeb7ca2c2e44

以上就是CIKM2021 | 将对比学习用于解决推荐系统长尾问题的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/462986.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
处理Linux命令”Command not found”的常见方法
上一篇 2025年11月8日 04:17:26
123云盘分享链接有效期怎么修改_123云盘分享链接有效期修改
下一篇 2025年11月8日 04:17:36

相关推荐

  • Go语言扩展标准库类型:以bufio.Reader为例

    本文将介绍如何在不修改标准库源码的情况下,扩展Go语言标准库类型的功能,以bufio.Reader为例,演示如何通过类型嵌入和方法重写或新增方法,实现自定义的读取字节功能,从而满足特定的需求。 在Go语言中,我们经常需要使用标准库提供的类型和方法。但有时,标准库提供的功能可能无法完全满足我们的特定需…

    2026年5月10日
    000
  • Go Web开发:静态文件服务404问题解析与StripPrefix解决方案

    本文详细解析了Go语言net/http包在处理静态文件服务时常见的404错误原因,特别是当http.FileServer与http.Handle结合使用时路径匹配的陷阱。通过引入http.StripPrefix函数,文章提供了简洁有效的解决方案,确保静态资源能够被正确访问,避免了路径重复导致的文件查…

    2026年5月10日
    000
  • 什么是 Kubernetes 的 Pod 开销概念?

    Pod开销指Kubernetes中除容器外Pod运行所需额外资源,由RuntimeClass定义并加入总资源请求,调度时一并计算,需v1.18+且启用PodOverhead特性门控。 Kubernetes 中的 Pod 开销(Pod Overhead)是指在运行 Pod 时,除了容器本身请求的资源外…

    2026年5月10日
    000
  • Node.js的maxListeners和事件循环有什么关系?

    Node.js的maxListeners和事件循环有什么关系?Node.js的maxListeners和事件循环有什么关系?Node.js的maxListeners和事件循环有什么关系?Node.js的maxListeners和事件循环有什么关系?

    maxlisteners警告不必然表示程序错误,需检查监听器是否合理且无性能影响;2. 默认值10是性能与问题发现的平衡点,可按需用setmaxlisteners调整;3. 大型应用应通过事件总线、weakmap存储、观察者模式和定期审查优化监听器管理,防止内存泄漏并提升性能。 Node.js的ma…

    2026年5月10日 用户投稿
    000
  • c++如何实现观察者设计模式_c++设计模式之观察者模式实现方法

    观察者模式通过抽象基类定义更新接口,被观察者维护观察者列表并通知其状态变化。使用指针管理依赖关系时需注意生命周期,避免悬空指针,推荐结合智能指针提升安全性。 观察者模式是一种行为设计模式,用于在对象之间定义一对多的依赖关系,当一个对象的状态发生改变时,所有依赖它的对象都会自动收到通知。在C++中,可…

    2026年5月10日
    000
  • 如何在Golang中实现购物车功能

    答案:通过定义用户、商品和购物项结构体,使用map管理购物车条目,实现添加、删除、计算总价功能,并结合HTTP接口与读写锁支持并发操作,适合扩展优惠券与库存校验。 在Golang中实现购物车功能,关键在于管理用户、商品和购物项之间的关系。通常使用结构体来表示数据模型,结合内存存储或数据库完成增删改查…

    2026年5月10日
    100
  • 如何使用Go语言将字符串分割后作为函数参数传递

    本文详细介绍了在Go语言中如何将一个由空格分隔的字符串(如命令行指令)解析成多个独立的参数,并传递给接受可变参数的函数,例如`exec.Command`。核心方法是利用`strings.Fields`函数进行字符串分割,并结合Go语言的可变参数(variadic arguments)语法,通过`&#…

    2026年5月10日
    000
  • 如何精确控制CSS文本元素底边框的起始与长度

    本教程旨在详细阐述如何在CSS中精确控制文本元素(如` `)的底边框起始位置和长度,避免其默认的延伸行为。文章将介绍两种主要方法:通过调整内边距和移除固定宽度使边框适应内容,以及利用CSS伪元素(`::after`)实现像素级的精细定位和宽度控制,从而满足多样化的设计需求。 在网页设计中,为标题或文…

    2026年5月10日
    000
  • 如何为Golang配置实时热加载开发环境 使用Air或CompileDaemon工具

    如何为Golang配置实时热加载开发环境 使用Air或CompileDaemon工具如何为Golang配置实时热加载开发环境 使用Air或CompileDaemon工具如何为Golang配置实时热加载开发环境 使用Air或CompileDaemon工具如何为Golang配置实时热加载开发环境 使用Air或CompileDaemon工具

    air的优势在于配置灵活,支持自定义监听目录、排除文件、构建命令等高级功能,适合结构复杂或需精细控制的项目;劣势是配置较复杂,需.air.toml文件。compiledaemon优势在于简单易用,无需配置文件,适合结构简单的项目;劣势是功能较少,无法精细配置。选择air适用于多包结构和静态资源管理的…

    2026年5月10日 用户投稿
    000
  • Go反射:使用binary.Read安全地将字节解组到结构体

    本教程深入探讨了在Go语言中使用反射将字节数组解组(Unmarshal)到结构体时的常见陷阱与解决方案。重点介绍了reflect.New创建指针类型reflect.Value后,如何通过Elem()方法获取其指向的实际可寻址结构体值,从而避免f.Addr()调用时遇到的“不可寻址”错误,并提供了一个…

    2026年5月10日
    100
  • CSS中块级元素水平居中布局指南

    本文详细介绍了在CSS中实现块级元素水平居中的核心方法,重点讲解了如何通过设置margin-left: auto;和margin-right: auto;来使具有固定宽度的块级元素在其父容器中居中显示。文章通过具体代码示例,阐明了这一常用技巧的原理与应用,并提供了相关注意事项,帮助开发者有效解决布局…

    2026年5月10日
    100
  • 如何测试C++异常处理逻辑 单元测试中模拟异常抛出

    如何测试C++异常处理逻辑 单元测试中模拟异常抛出如何测试C++异常处理逻辑 单元测试中模拟异常抛出如何测试C++异常处理逻辑 单元测试中模拟异常抛出如何测试C++异常处理逻辑 单元测试中模拟异常抛出

    在c++++单元测试中,可通过多种方式验证异常处理逻辑。1. 使用google test的断言宏如assert_throw和expect_throw检查函数是否抛出预期异常;2. 模拟不同异常场景,包括正常路径无异常、标准库异常及自定义异常;3. 利用mock框架控制依赖对象抛出异常以测试上层逻辑;…

    2026年5月10日 用户投稿
    000
  • 结构体与类的区别在哪里 C++中struct和class关键对比分析

    结构体与类的区别在哪里 C++中struct和class关键对比分析结构体与类的区别在哪里 C++中struct和class关键对比分析结构体与类的区别在哪里 C++中struct和class关键对比分析结构体与类的区别在哪里 C++中struct和class关键对比分析

    c++++中struct和class的核心区别在于默认的成员访问权限和继承方式。1. struct默认成员为public,class默认成员为private;2. struct默认继承方式为public,class默认继承方式为private。除此之外,两者在功能上完全等价,均可支持构造函数、析构函…

    2026年5月10日 用户投稿
    000
  • Golang测试用例结构与命名规范技巧

    Go语言测试强调简洁与可维护性,测试文件需与被测代码同包且以_test.go结尾,如calculator_test.go;测试函数以Test开头,后接驼峰式名称,格式为func TestXxx(t *testing.T);推荐使用t.Run创建子测试以隔离场景;对于多输入情况,采用表驱动测试,将用例…

    2026年5月10日
    000
  • pandas CSV 转 XLSX 后时间列变 NaN:如何读取正确的时间信息?

    pandas csv 转 xlsx 后读取时间列全变成 nan 问题描述: 使用 pandas 将 csv 文件转换为 xlsx 文件后,再次读取 xlsx 文件中的时间列,发现值全部变成了 nan。 代码片段: import pandas as pddf = pd.read_csv(‘input.…

    2026年5月10日
    000
  • HTMLrev 上的免费 HTML 网站模板

    HTMLrev 是唯一的人工策划的库专门专注于免费 HTML 模板,适用于由来自世界各地慷慨的模板创建者制作的网站、登陆页面、投资组合、博客、电子商务和管理仪表板世界。 这个人就是我自己 Devluc,我已经工作了 1 年多来构建、改进和更新这个很棒的免费资源。我自己就是一名模板制作者,所以我知道如…

    2026年5月10日
    300
  • c++怎么自定义一个模板类_c++模板编程与泛型设计基础

    答案:C++模板类通过template定义泛型类,如MyVector,支持类型无关的通用设计,成员函数需在头文件中实现,实例化时指定具体类型,并注意操作合法性与多参数、特化等特性。 在C++中,模板类是泛型编程的核心工具之一。它允许你编写与数据类型无关的通用类,从而提升代码复用性和灵活性。下面介绍如…

    2026年5月10日
    000
  • 在 FastAPI 中实现三层架构处理复杂 Endpoint:服务拆分策略

    在 FastAPI 中实现三层架构时,处理需要多个服务支持的复杂 Endpoint 的最佳实践。针对诸如“get_transaction”这类需要聚合用户、产品和销售数据的情况,分析了在应用层直接调用多个服务,还是创建一个专门的聚合服务两种方案的优劣,并提出了基于服务身份和存储的拆分策略建议,以提升…

    2026年5月10日
    000
  • Golang性能优化的基本原则是什么 解析高效Go代码的核心准则

    go程序中常见的内存优化策略包括预分配切片容量、使用strings.builder或bytes.buffer进行字符串拼接、利用sync.pool复用对象以减少gc压力、避免大对象的值传递而改用指针传递、复用缓冲区以减少临时对象分配,以及警惕切片或字符串切片操作导致的底层数组隐式引用内存泄漏,这些策…

    2026年5月10日
    000
  • Golang包文档生成与注释规范

    Go语言通过源码注释生成文档,推荐在package语句前添加包级别注释说明功能,如“// Package calculator 提供基础数学运算功能”;导出函数需用动词开头的注释描述行为、参数、返回值,如“// Add 计算两个数的和”;导出类型和结构体字段也应注释用途;使用go doc命令或访问p…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信