强化学习
-
如何运用强化学习来提升快手用户留存?
短视频推荐系统的核心目标是通过提升用户留存,牵引 DAU 增长。因此留存是各APP的核心业务优化指标之一。然而留存是用户和系统多次交互后的长期反馈,很难分解到单个 item 或者单个 list,因此传统的 point-wise 和 list-wise 模型难以直接优化留存。 强化学习(RL)方法通过…
-
从老鼠在迷宫中行走到AlphaGo战胜人类,强化学习的发展历程
谈到强化学习,很多研究人员的肾上腺素便不受控制地飙升!它在游戏AI系统、现代机器人、芯片设计系统和其他应用中发挥着十分重要的作用。 强化学习算法有很多不同的类型,但主要分为两类:「基于模型的」和「无模型的」。 在与TechTalks的对话中,神经科学家、 「智能的诞生」一书的作者Daeyeol…
-
机器学习:Github上排名前19个强化学习 (RL)项目
强化学习(rl)是一种机器学习方法,它通过代理不断试错来学习。强化学习算法在多个领域得到应用,如游戏、机器人技术和金融领域。 RL的目标是发现一种能够最大化预期长期回报的策略。强化学习算法通常被分为两类:基于模型和无模型。基于模型的算法利用环境模型来规划最佳行动路径。这种方法依赖于对环境的准确建模,…
-
率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2024:强鲁棒性的离线变分贝叶斯强化学习
本论文作者杨睿是中国科学技术大学 2019 级硕博连读生,师从王杰教授、李斌教授,主要研究方向为强化学习、自动驾驶等。他曾以第一作者在 neurips、kdd 等顶级期刊与会议上发表论文两篇,曾获滴滴精英实习生(16/1000+)。 近日,中科大王杰教授团队 (MIRA Lab) 针对离线强化学习数…
-
打破AI遗忘诅咒的学习算法,慕尼黑-南大团队打造会自主积累知识的学习框架
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 机器人终身强化学习:突破智能瓶颈 人类具备终身学习能力,不断积累知识并提升技能,这被认为是通用人工智能的关键。然而,当前AI主要擅长特定领域,缺乏这种持续学习能力。慕尼黑大学和南京大学的研究团队…
-
慢思考助力医学大语言模型突破数据瓶颈:上海交大联合上海AI Lab推出MedS3系统
上海交通大学、复旦大学和上海人工智能实验室的研究团队推出新型医学推理系统meds3,该系统采用自我进化“慢思考”范式,无需预训练和模型蒸馏,即可实现细粒度推理流程验证。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ MedS3克服了现有医疗…