你的朋友也在看!谷歌STUDY算法加持书单推荐系统,让学生爱上阅读

开卷有益,是我们一直以来的认识。阅读可以帮助人们提高自己的语言能力、学习到新的技能….

阅读还能够改善情绪,提高心理健康水平。经常阅读的人有更丰富的常识以及对其他文化更深入的理解。

并且,有研究证实愉悦阅读与学业成功相关。

但在信息爆炸的时代,线上与线下的阅读资源都十分丰富。读什么,就成为了一项艰巨的挑战。

尤其是阅读的内容既要匹配不同的年龄阶段,又要引人入胜。

而推荐系统则是这个挑战的解决方案。它能够向读者呈现相关的阅读材料,并帮助他们保持阅读的兴趣。

推荐系统的核心是机器学习(Machine learning, ML),它被广泛应用于构建各种类型的推荐系统中:从视频到图书,再到电商平台等。

经过训练的ML 模型可以根据用户偏好、用户参与度和推荐的项目单独向每个用户进行推荐,从而改善用户体验。

谷歌最新的研究提出了一种考虑到阅读的社会性质(如教育环境)的有声读物内容推荐系统:STUDY算法。

由于一个人的同龄人目前正在阅读的内容会对他们感兴趣的阅读内容有重大影响,因此,谷歌与Learning Ally进行了合作。

Learning Ally是一家教育非营利组织,拥有一个针对学生的大型精选有声读物数字图书馆,非常适合构建社交推荐模型

这能使模型能够从有关学生本地化社交群体的(如教室)实时信息中获益。

STUDY算法

STUDY算法采用了将推荐内容问题建模为点击率预测问题的方法。

其中模拟用户与每个特定项目的交互概率取决于:

1)用户和项目特征

2)该用户的项目交互历史序列。

之前的工作表明Transformer模型非常适合建模这个问题。

当单独处理每个用户时,模拟交互就成为了一个自回归序列建模问题。

STUDY算法是通过这一概念框架对数据建模,然后对这个框架进行扩展的最终成品。

点击率预测问题可以对个别用户过去和未来的项目偏好之间的依赖关系进行建模,并且可以在训练时学习用户之间的相似性模式。

但有一个问题是,点击率预测的方法无法对不同用户之间的依赖关系进行建模。

为此,谷歌开发了STUDY模型,可以解决自回归序列建模中无法对阅读的社会性质进行建模的缺陷。

STUDY可以将多个学生在一个课堂上阅读的书籍序列连接成一个序列,从而在一个模型中收集多个学生的数据。

但是,在用Transformer对这种数据表示进行建模时,需要仔细研究这种数据表征。

在Transformer中,注意力掩码是控制哪些输入可用于预测哪些输出的矩阵。

在序列中使用所有先前的token来为输出的预测提供信息的模式,会导致上三角形注意力矩阵,它一般会在因果解码器中被发现。

然而,由于输入进STUDY模型的序列不是按时间顺序的,尽管它的每个组成子序列都是按时间顺序,传统的因果解码器也不再适合这种序列。

在试图预测每个token时,模型不允许注意力转向序列中出现在它之前的每个token;其中一些token可能具有较晚的时间戳,并包含在部署时不可用的信息中。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

你的朋友也在看!谷歌STUDY算法加持书单推荐系统,让学生爱上阅读图片

因果解码器中通常使用的注意力掩码。每一列代表一个输出,每一列代表一个输出。矩阵条目在特定位置的值为1(显示为蓝色),表示模型在预测相应列的输出时可以观察到该行的输入,而值为0(显示为白色)则表示相反。

STUDY 模型以因果转换器为基础,将三角矩阵注意力掩码替换为基于时间戳的灵活注意力掩码,从而允许跨不同子序列的注意力。

与普通转换器相比,STUDY 模型在一个序列中保持一个因果三角注意矩阵,并在不同序列中具有灵活的值,这些值取决于时间戳。

因此,序列中任何输出点的预测都会参考相对于当前时间点过去发生的所有输入点,无论它们是出现在序列中当前输入点之前还是之后。

这一因果约束非常重要,因为如果在训练时不执行这一约束,模型就有可能学会利用未来的信息进行预测,而这在现实世界的部署中是无法实现的。

你的朋友也在看!谷歌STUDY算法加持书单推荐系统,让学生爱上阅读图片

(a)一个具有因果注意力的顺序自回归变换器,它可以单独处理每个用户;(b)一个等效的联合前向传递,其计算结果与(a)相同;(c)通过在注意力掩码中引入新的非零值(紫色显示),允许信息在用户间流动。为此,研究者允许预测以时间戳较早的所有交互为条件,而不论交互是否来自同一用户

实验

谷歌使用Learning Ally数据集来训练STUDY模型,并使用多个基线进行比较。

团队使用了自回归点击率转换解码器(称之为「个人」)、k-近邻基线(KNN)和可比较的社会基线——社会注意力记忆网络(SAMN)。

他们使用第一学年的数据进行训练,使用第二学年的数据进行验证和测试。

团队通过测量用户实际交互的下一个项目,在模型的前n个建议中的时间百分比,来评估这些模型。

除了在整个测试集上对模型进行评估外,团队还报告了模型在测试集的两个子集上的得分,这两个子集比整个数据集更具挑战性。

可以观察到,学生通常会与有声读物进行多次互动,因此,简单地推荐用户阅读的最后一本书,就显得微不足道。

因此,研究者将第一个测试子集称为「非延续」,在这个子集中,我们只考察每个模型在学生与不同于前一次互动的书籍进行互动时的推荐性能。

另外,团队还观察到,学生们会重温他们过去读过的书,因此,将为每个学生推荐的书本限制在他们过去读过的书本范围内,就可以在测试集上取得很好的表现。

尽管向学生推荐他们过去最喜欢的书籍可能有一定的价值,但推荐系统的大部分价值还是来自于向用户推荐新的、未知的内容。

为了衡量这一点,团队在测试集的子集上对模型进行了评估,在这个子集上,学生们第一次与书目进行交互。我们将这个评估子集命名为「新子集」。

可以发现,「STUDY 」在几乎所有评估中,都优于其他模型。

你的朋友也在看!谷歌STUDY算法加持书单推荐系统,让学生爱上阅读图片

适当分组的重要性

STUDY算法的核心是将用户分组,并在模型的单次前向传递中对同组的多个用户进行联合推断。

研究人员通过一项消融研究,考察了实际分组对模型性能的重要性。

在提出的模型中,研究人员将同一年级和学校的所有学生进行分组。

然后试验了由同一年级和同一学区的所有学生定义的分组,以及将所有学生归入一个组中,并在每次前向传递时使用随机子集的分组。

研究人员还将这些模型与 「个人」模型进行了比较,以供参考。

研究发现,使用更本地化的小组更有效,即学校和年级分组优于学区和年级分组。

这支持了一个假设,即研究模式之所以成功,是因为阅读等活动具有社会性:人们的阅读选择很可能与周围人的阅读选择相关联。

在不使用年级对学生进行分组的情况下,这两种模式的表现都优于其他两种模式(单一小组模式和个人模式)。

这表明,阅读水平和兴趣相似的用户的数据有利于提高模型的性能。

最后,谷歌的这项研究是仅限于假定社交关系是同质的用户群进行建模的。

参考资料:

https://www.php.cn/link/0b32f1a9efe5edf3dd2f38b0c0052bfe

九歌 九歌

九歌–人工智能诗歌写作系统

九歌 93 查看详情 九歌

以上就是你的朋友也在看!谷歌STUDY算法加持书单推荐系统,让学生爱上阅读的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/497064.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 18:27:46
下一篇 2025年11月8日 18:32:13

相关推荐

  • 中国教育界中Canvas的发展态势和未来前景

    随着科技的快速发展和信息技术在教育领域的广泛应用,Canvas作为一种全球领先的在线学习管理系统,正逐渐在中国教育界崭露头角。Canvas的出现,为中国教育教学方式的改革提供了新的可能性。本文将探讨Canvas在中国教育界的发展趋势及前景。 首先,Canvas在中国教育界的发展趋势之一是深度融合。随…

    2025年12月21日
    000
  • HTML5获取设备信息

    这篇文章主要介绍了关于HTML5获取设备信息,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 Device模块管理设备信息,用于获取手机设备的相关信息,如IMEI、IMSI、型号、厂商等。通过plus.device获取设备信息管理对象。 1、属性 1.1、imei: 设备的国际移动设备…

    好文分享 2025年12月21日
    000
  • dw查看文件头部信息的教程

    dreamweaver中的网页有两个组成部分,一个是 ,一个是,其中就是文件头部信息。在这里面可以是实现刷新、插入关键字、说明等功能,该怎能查看头部信息呢?下面我们就来看看详细的教程。 软件名称: Macromedia Dreamweaver MX 2004 官方简体中文专业版 软件大小: 63.2…

    2025年12月21日 好文分享
    000
  • C++框架在教育和科研领域的应用价值如何体现?

    c++++框架为教育和科研提供强大工具,包括丰富的数据结构、面向对象特性和跨平台支持,简化了复杂问题建模和求解:数据结构和算法库:优化存储和检索,提供常见算法实现。面向对象编程:通过封装数据和方法,简化代码维护和重用。跨平台支持:代码可在不同系统和架构上运行,便于共享和部署。实战案例:生物信息学中,…

    2025年12月18日
    000
  • C++框架的教育和培训资源

    掌握 c++++ 框架的资源在线课程:coursera:c++ 编程与数据结构edx:c++ 入门及高级应用udemy:c++ 框架大师班书籍:effective c++c++ primermodern c++ design实战案例:qt 基础应用程序boost 智能指针opencv 图像处理利用这…

    2025年12月18日
    000
  • C++框架在教育领域的应用

    c++++ 框架在教育领域具有广泛应用,通过提供预建组件和一致的约定,简化应用程序开发并提高代码质量。主要优势包括代码可重用性、可维护性、测试支持和性能优化。常用 c++ 框架包括 qt、boost.asio、eigen 和 opencv,可用于构建互动式学习工具、数据可视化应用程序和教育管理系统。…

    2025年12月18日
    000
  • C++ 框架在教育领域的应用:促进 STEM 学习与编程教育

    c++++ 框架在教育领域推动 stem 学习和编程教育,通过可重用性、代码抽象和扩展性优势以及社区支持,支持以下实践:stem 项目开发(如物理模拟器、多线程数据分析应用程序)、编程课程(如 gui 开发、单元测试)以及竞赛和活动(如编程马拉松)。 C++ 框架在教育领域的应用:推动 STEM 学…

    2025年12月18日
    000
  • C++在移动应用开发者教育和培训中的作用

    c++++ 在移动应用开发者教育中发挥重要作用,其优点包括高效、面向对象和平台无关性。在应用开发中,c++ 广泛用于游戏引擎、原生应用和性能关键部分的优化。 C++ 在移动应用开发者教育和培训中的作用 引言C++ 是一门强大的编程语言,它被广泛应用于各种开发领域,其中包括移动应用开发。在移动应用开发…

    2025年12月18日
    000
  • PHP 函数在教育领域的应用前景

    php 函数在教育领域具有广阔的应用前景,如管理学生信息、创建在线测验、计算成绩、管理教学资源等。实战案例:使用 php 函数构建学生成绩管理系统。 PHP 函数在教育领域的应用前景 简介 PHP(超文本预处理器)是一种广泛使用的编程语言,特别适合于 Web 开发。它提供了各种函数,用于处理变量、字…

    2025年12月9日
    000
  • 华为公布消息接收专利:减少唤醒 手机续航更长

    3月14日消息,企查查app显示,近日,华为技术有限公司“一种数据同步方法及相关装置、系统”专利公布。 企查查专利摘要显示,该方法包括:通信系统中的第一设备在数据发生更新的情况下,向该通信系统中的中心设备发送水位信息。 该水位信息用于指示所述数据的更新状态,中心设备用于维护通信系统中各设备的水位信息…

    2025年12月2日 行业动态
    000
  • 苹果官网更新教育商店:全新iPad直接9折

    5月25日消息,苹果在其官方网站更新了教育商店版块,更加醒目地展示了学生和教育工作者可以享受的折扣商品。这些商品涵盖了mac、ipad以及部分配件等苹果产品。 现在,消费者可以直接在网页上看到教育优惠后的产品起售价格,无需像之前那样先验证资格才能看到折扣价。 苹果最新发布的几款新品,其教育优惠后的价…

    2025年12月2日 行业动态
    000
  • php中获取系统信息的方法

    “系统信息”工具收集系统信息(如计算机中安装的设备或计算机中加载的设备驱动程序),并提供用于显示关联的系统主题的菜单。 您可使用该工具来诊断计算机问题。 例如,如果您遇到显示问题,则可使用该工具来确定计算机上安装的显示卡并查看它的驱动程序的状况。 本篇文章是对php中获取系统信息的方法进行了详细的分…

    2025年12月2日
    000
  • MySQL统计信息的详细概述

    本篇文章通过统计信息的概念介绍以及mysql统计信息的优势等方面全面概述了mysql统计信息的相关知识点,希望可以帮助到有需求的朋友们。 MySQL执行SQL会经过SQL解析和查询优化的过程,解析器将SQL分解成数据结构并传递到后续步骤,查询优化器发现执行SQL查询的最佳方案、生成执行计划。查询优化…

    2025年12月2日 数据库
    000
  • 猿编程:做好应对未来人工智能时代的教育

    10月17日,2023get教育科技大会在北京开幕,猿编程受邀参展,创始人李翊发表了主题为《培养人工智能时代下的科技少年》的演讲。他强调在当今信息科技和人工智能迅速发展的社会背景下,培养具备“四个一”素养的科技少年至关重要。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 De…

    2025年12月1日 科技
    100
  • 安恒信息 CTO 刘博在国家网安周分享《大模型时代数据“保护与利用”的探索及安恒实践》

    在2025年国家网络安全宣传周的舞台上,数据安全与高效利用成为热议焦点。党的二十届三中全会明确提出“建设和运营国家数据基础设施,推动数据共享”的战略部署,为数字中国建设注入新动能。作为新质生产力的关键要素,如何实现数据“供得出、流得动、用得好、保安全”,已成为数字化转型的核心命题。安恒信息CTO刘博…

    2025年12月1日
    000
  • 自动化收集SQLSERVER诊断信息

    自动化收集SQLSERVER诊断信息 相信很多人都遇到过当sqlserver出现问题的时候,而你又解决不了需要dba或者微软售后支持工程师 去帮忙解决问题,那么他们一般需要你收集一些系统信息和SQLSERVER诊断信息。 而收集这些信息又需要图形工具,又需要指令,步骤又非 自动化收集SQLSERVE…

    2025年11月28日 数据库
    000
  • 教育局:常州市举行中小学生机器人大赛

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 6月5日,2023年常州市中小学生机器人大赛在武进区星河实验小学分校火热开赛,大赛由常州市教育局、常州市科协主办,常州市武进区星河实验小学分校承办,常州市青少年活动中心协办。在现场竞技中,来自常…

    2025年11月28日 科技
    000
  • 两部门:2027 年底前做到教育系统软件正版率显著提升,全面使用正版操作系统软件、办公软件和杀毒软件

    腾讯混元文生视频 腾讯发布的AI视频生成大模型技术 266 查看详情 本站 12 月 11 日消息,教育部、国家版权局发布《关于做好教育系统软件正版化工作的通知》,通知总体要求提到,2027 年底前,教育系统软件正版化工作长效机制基本建立,教育系统软件正版率显著提升,全面使用正版操作系统软件、办公软…

    2025年11月27日 行业动态
    000
  • PHP框架在教育领域的应用

    php框架在教育领域广泛应用,通过创建微课平台、在线考试系统、学生信息管理系统和协作学习平台等工具,提高教学和学习体验。框架快速开发、可扩展性、安全性、社区支持等优势使之成为教育领域的理想选择。 PHP框架在教育领域的应用 前言 PHP框架是一种高效且灵活的软件开发工具,可用于创建复杂且可扩展的We…

    2025年11月27日 后端开发
    000
  • 如何查看Linux的块设备信息?

    Linux如何查看%ignore_a_1%信息? 在Linux系统中,块设备是指存储数据的设备,如硬盘、固态硬盘等。在进行系统管理和故障排查时,了解块设备的信息是很重要的。下面将介绍如何通过命令行来查看Linux系统中的块设备信息。 1. 使用lsblk命令 lsblk是一个用于列出块设备信息的命令…

    2025年11月19日
    000

发表回复

登录后才能评论
关注微信