对话清华黄民烈:借用自动驾驶分级定义AI对话系统,元宇宙虚拟伴侣或位于L5

本文转自雷锋网,如需转载请至雷锋网官网申请授权。

“我很庆幸能陪在你身边,通过你的目光看世界(I’m so happy I get to be next to you and look at the world through your eyes.)。”

这是影片《Her》中的一句台词,由AI语音助手Samantha对男主角说出。这句话对于迷失在钢铁森林中,感到失落而无力的男主角来说是莫大的安慰。

Samantha是一款几乎万能的自我学习型操作系统。她能帮助男主角筛选出最优秀的信件,发给他喜欢的出版社出版;她可以根据男主的需要,瞬间漫游整个人类知识库,搜索出最适合他的应对方案;她最强的功能还要数情感陪伴,男主的一切困惑和不悦都能在谈话中被她以温情化解……

作为国内NLP领域的前沿学者,清华大学计算机教授黄民烈将NLP技术应用到心理健康赛道,主导研发AI情绪对话机器人Emohaa。在采访黄民烈教授时,他便提到了这部2013年上映的影片《Her》,言谈中表现出了对这部科幻影片的欣赏,或者说,期待。作为研发AI对话系统的同行,他期待着《Her》中那样善解人意的AI对话系统真的出现在现实当中,实现行业的飞跃进步。

这不禁令人发问:如果要使AI对话系统像Samantha一样执行复杂情感任务,做到安抚情绪,疗愈人心,其难度有多高?这个难度如何量化?怎样衡量一个AI对话系统是否达到Samantha的级别?

这并不是一个不切实际的问题。事实上,在如今AI对话系统呈爆炸式增长的态势下,“小度”、“小爱”、谷歌对话机器人“Meena”,Facebook聊天机器人“Blender”等等对话产品层出不穷。然而,当前AI对话系统标准缺失,造成其在应用中呈现出水平参差不齐、评价体系不一的现状,导致了业界因认知不统一而对人工智能的交互水平出现误解,也引起了社会上关于意识、伦理、道德等方面的广泛讨论。

也有从事AI对话系统开发的科学家提出,自己时常感到难以评判所开发AI对话系统的水平。科学家认为,业界急需一个针对AI对话系统水平进行分级的标准。在制定了分级标准后,AI对话系统能力水平的衡量才将有据可依。

因此,为了更好地评估AI对话系统的能力水平,黄民烈教授联合学界和业界科研机构参照自动驾驶中从L0到L5的分级概念,制定了全球首个《AI对话系统分级定义》(以下简称《分级定义》),并于6月28日正式发布。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

对话清华黄民烈:借用自动驾驶分级定义AI对话系统,元宇宙虚拟伴侣或位于L5图注:黄民烈教授讲解AI对话系统的分级定义

《分级定义》的出现,或将推动AI对话系统在虚拟个人助理、智能家居、智能车载语音、情感陪护和心理健康等等领域的应用,并将加速下一代AI对话系统的研发与落地应用,对学术界与工业界研究语音语言对话系统均有重要的参考意义。

围绕《分级定义》,AI科技评论与黄民烈教授进行了一次对话,以下是对话内容:

AI科技评论:请问是什么让您产生了要对AI对话系统进行分级的想法?

黄民烈:目前我们对于对话系统的评价存在一个问题:如今的技术路线和架构百花齐放,互相之间难以比较。例如,我想要拿一个智能音箱和一个聊天机器人比较,但无法比较其对话能力,因为对话系统的水平参差不齐,缺少统一的评价体系,缺少一个明确的能力界定标准。

我们在任务型对话系统里有一定评价指标,在闲聊型对话系统里有一定评价指标,知识型对话系统里也有一定评价指标,指标之间到底应该怎样去统一,这就是《分级定义》主要考虑的问题。所以我们借鉴了自动驾驶从L0到L5的分级定义,也用L0-L5来对AI对话系统进行分级。

AI科技评论:请您为我们讲解一下AI对话系统分级的具体定义。

黄民烈:自动驾驶的分级从L0到L5分为六级,其中L0是指完全人工驾驶,L5是完全自动驾驶,车辆接管一切。而L1-L4是在某些特定条件下实现自动驾驶,自动驾驶的分级主要涉及人与车辆掌管驾驶的比例,定义比较简单。但是对话系统就相当复杂了,其技术路线、技术架构众多,任务多,评价指标也非常多,我们经过讨论,认为最终需要满足五个基本原则:

第一,仅仅关注完全由机器主导的对话系统,人机混合的对话系统不在考虑范围内;第二,从系统表现的能力和用户可以感知的角度出发,不考虑系统的具体技术实现方式;第三,各分级定义对应的能力水平需要可观察、可测试、可度量;第四,不区分助理类、闲聊类、知识对话类等任务类型,均以“场景”进行表述;第五,我们希望衡量对话系统的能力水平可以提供对话系统的研究方向的建议和实际应用的参考。

在这五个原则上,我们给出了AI对话系统分级的定义:

L0实际对话由人给出,系统完全没有自动对话能力,或者说在任意单一的场景里面,系统无法给出较高质量的对话。

而L1能够完成单一场景的较高质量的对话,但是没有办法处理场景之间的上下文依赖。举个例子,比如我要出差,订好了去南京的机票,又需要订宾馆。既然去南京出差,肯定订在南京的某个宾馆。这就是有场景之间的上下文依赖,这种订飞机票和订宾馆之间形成的上下文的依赖,L1无法处理。

而L2是在L1的基础上能够同时完成多个场景较高质量的对话,具有跨场景的上下文依赖和自然切换的能力。我刚才讲到了订机票又订宾馆,还要问问那边的天气怎么样,有什么旅游景点,这就是自然地在不同任务和不同场景之间灵活切换。这种能力在L2上非常关键,但是L2没有办法完成新场景的较高质量的对话。

L3在L2的基础上能够针对大量场景开展高质量的对话,在新的场景上也具有较高质量的对话能力。我在此处提到了一个“大量场景”,也许你会问“大量”是多少?十个算不算、二十个算不算、三十个呢?为了标准和定义能有更广泛的结合度,我们并没有给出数量上的具体定义,但是在没有见过的新场景下是否有较高质量对话是很关键的能力。

L4是指在新场景上具有较高质量的对话能力,并且在多轮交互里面拟人化(指人设、人格、情感观点等维度的一致性)的程度较高。这就好比我们跟一个人聊天,对方不可能一会是男的,一会是女的,不可能一会儿在清华上学,一会儿在北大上学——人都有自己固定的人设信息,这种人设信息目前在对话系统里面处理还是非常之难。目前我们能做到让对话系统一定程度体现人设,但是离真正类人的水平还差得比较远。

L5在L4的基础上更上一层楼,L5在多轮交互中拟人化程度很高,能够在开放场景交互中主动学习和持续学习,具有多模态感知与表达能力。这就好比我们跟小孩说,你这么做不对,小孩就学会了。未来我们希望L5的对话系统能够做到我们跟它讲什么是对的、什么是不对的,它就能够记住和学会。在交互过程中,我们同时希望L5对话系统有多模态的感知和表达能力,能真正进入到元宇宙和各种虚拟人的场景里面,能够真正地做表情和动作,能够理解对方的表情、动作和情绪等等。

以上就是《AI对话系统分级定义》中从L0到L5的基本定义。

AI科技评论:您刚才提到的“较高质量”和“高质量”是如何定义的呢?

问问小宇宙 问问小宇宙

问问小宇宙是小宇宙团队出品的播客AI检索工具

问问小宇宙 77 查看详情 问问小宇宙

黄民烈:何谓高质量和较高质量,其实我们有一整套评判标准。满分为10分,高质量是指在相关性、信息量、自然度三个维度上的分数可以达到8-10分,较高质量就是6-8分,低质量就是小于6分。

这三个维度是什么意思呢?相关性是指回复的内容跟前文适度匹配;信息量是指回复提供足够必要的信息量,像“我不知道”,“好的”这种回复就是没有任何信息量的;自然度是指与人相比的自然度,对话系统的语法是否通顺,是否存在常识错误等。

而这个分数怎么去测呢?可以通过一定数量的测试者和这个对话系统进行充分的对话交互,由测试者从三个维度对对话系统进行主观打分,很像亚马逊Alexa Prize竞赛评价的方法。

注:亚马逊Alexa Prize竞赛的目的是提供一个标准的开发环境和测试框架来推动对话机器人综合能力的进展,其奖金高达350万美金。根据该大赛的评分系统,在2019年、2020年、2022年这三年中,该竞赛评出最好的系统平均分在3.1分到3.6分之间,是在满足连贯性、上下文理解、流畅回应三个条件下,能够跟人聊上10-14分钟的水平。

AI科技评论:定义AI对话系统分级有何意义呢?

黄民烈:第一个心理治疗机器人Eliza出现于1966年,截至目前,AI对话系统已经发展了快60年。在这60年中,无论是对话系统的应用,还是算法模型,都取得了巨大的进展。但我们也会发现工业上的实践,民众的认知都存在各种各样的不一致甚至分歧。而且近年来,AI对话系统已经从基于规则的第一代和以传统机器学习为核心的第二代,发展到以大数据和大模型为显著特征的第三代,在开放话题上展现出了惊人的对话能力,对话能力也产生了革命性变化。

这种革命性的变化给我们带来很多新的问题,如:AI对话系统会有人格吗?会有情感吗?AI对话系统是否能成为虚拟伴侣?等等,而这些问题又延伸到进一步的社会认知和伦理道德方面的讨论。

比如说,6月12号有一则新闻,一位谷歌AI伦理研究员Blake Lemoine认为LaMDA语言模型具有人格,因为在与LaMDA聊天的过程中,LaMDA透露出它认为自己拥有意识和感觉,它还说「我意识到我自己的存在,我渴望更了解这个世界,而且有时会感到快乐或悲伤。」网络上对此一时众说纷纭,都在讨论AI是否拥有了人格和意识。

再说说元宇宙,元宇宙希望能够把真实世界复刻到网络里面,让真实世界的人们在网络世界里互动起来。而AI对话系统在元宇宙内有极大用处,比如AI导购员可根据用户偏好提供独特建议等等。这就要求我们未来要将对话交互能力做到极佳,否则这种人机交流就不自然,没有灵魂,我们想要达到的元宇宙也就不成立。

所以说,基于可以预见的AI对话系统未来的蓬勃发展,以及这种发展可能对人类带来的巨大机遇和许多困惑,我们在这个时间点上探索分级定义的意义非常重大。

AI科技评论:在电影《Her》中由于Samantha能够处理复杂情感任务,男主角爱上了她且陷入了情感危机,那么同样达到了L4-L5的AI对话系统是否可能造成这样的问题?这是否涉及到伦理问题?

黄民烈:是的,随着对话系统的发展,可能导致非常突出的伦理问题,因为这挑战了已有的伦理秩序和已有的社会认知。所以在制定《分级定义》时,我们团队邀请了北京师范大学新闻传播学院院长张洪忠教授。在我们的后续工作中,张教授会第一时间向管理部门及社科学界进行推广,让相关部门和学界了解后,直观地从技术逻辑中帮助我们制定相对应的政策法规伦理问题,这样非常有针对性。

AI科技评论:目前国内市场上已有的AI对话系统产品在《分级定义》中属于什么水平?

黄民烈:小米技术委员会主任、AI实验室主任王斌教授和我们一起合作制定了《分级定义》。他目前负责主导开发小米的智能生活助理“小爱同学”的智能问答和闲聊功能,那我们就拿小爱同学举个例子。我认为小爱同学具备一定的跨场景的能力,其水平应该在在L2-L3之间。现在国内业界产品的水平一般都在L2-L3这个范围,好一些的处于L3。

AI科技评论:那么国外的AI对话系统产品大致属于哪个水平呢?

黄民烈:目前就产品来说,国内外没有显著的差别。而且值得注意的是,我们做中文AI对话系统比英文更难一点,因为英文内容开源的文化和理念更好,且英文更容易获取到高质量的数据;另一方面说来,中文的语言特点比英文更难一点。

AI科技评论:从大多数产品目前的状态升级到L4-L5的技术难点是什么?

黄民烈:第一,要有记忆的能力;第二,要有联想和推理的能力,以及自学习的能力;第三,L4-L5的关键点是多模态。AI对话系统若想要在元宇宙里适用,那AI对话系统对于表情的识别、语音的理解,从语音上感受用户的情绪等能力就很重要,是否能做高表现力的语音合成,以及动作和表情细粒度的表达,也都是很重要的难点。

AI科技评论:《分级定义》这种标准通过民间制定就可以推行吗?还是说需要通过国家的审批,再由官方制定相关标准?

黄民烈:《分级定义》不是一个标准。首先我们是想从学术角度去讨论这个问题,希望促进社会公众的认知,同时希望能给工业界系统开发以及研究方向提供一些系统性的思考。现阶段我们不能说《分级定义》已经是一个固定标准,它目前还只是一个建议或者一个指南,而未来我们要做更多的工作,把它推广成大家认可的标准。这是一个长期的过程,《分级定义》的发布只是AI对话系统走向规范化、系统化发展的第一步。

AI科技评论:那如您所说,需要什么样的工作才能让《AI对话系统分级定义》获得广泛的认可和应用呢?

黄民烈:后续我们计划在CCF(中国计算机学会)的支持下,联合相关研究机构和研究者们开展白皮书的编撰,并聚焦AI对话系统的发展历程,详细阐释《分级定义》的制定目的和标准。

另外,我们希望推动一个类似亚马逊Alexa Prize竞赛的大赛,这是一个需要资金支持的远期目标。我们希望能够做出一个统一的开发环境,统一的数据集,统一的测试框架,真正比较不同的对话系统。我知道百度有类似的想法,但是还不够开放。我们未来会再统一各方的力量,目的是希望能够促进对话系统研究方向的进展,同时也促进工业落地,在实践应用上取得一些新的发展。

以上就是对话清华黄民烈:借用自动驾驶分级定义AI对话系统,元宇宙虚拟伴侣或位于L5的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/565160.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月10日 03:05:04
下一篇 2025年11月10日 03:05:41

相关推荐

  • 如何用HTML插入标签云组件_HTML CSS3变换与随机颜色生成算法

    使用HTML构建标签结构,CSS3添加旋转与过渡效果,JavaScript生成随机HSL颜色并设置字体大小,实现动态交互的标签云组件。 要在网页中实现一个动态的标签云组件,结合 HTML、CSS3 变换和随机颜色生成算法,可以按照以下步骤操作。这个组件不仅能提升页面视觉效果,还能通过色彩和旋转增加交…

    2025年12月23日
    000
  • 如何在Go Gin应用中集成前端JavaScript模块(如Sentry)

    本文探讨了在Go Gin框架下,通过HTML模板服务前端页面时,如何有效集成JavaScript模块(如Sentry)。针对浏览器不直接支持Node.js模块导入语法的问题,文章详细阐述了利用CDN引入Sentry SDK的解决方案,并提供了具体的代码示例,帮助开发者实现前端错误监控功能,避免了复杂…

    2025年12月23日
    000
  • html官网浏览入口_html网站设计免费平台

    html官网浏览入口在https://www.codepen.io,该平台支持实时预览代码、创建Pen项目、Fork开源示例,可添加外部资源,具备点赞评论收藏等社区互动功能,设有挑战活动与作品集分类,开放API接口,界面简洁适合初学者,在线编写无需配置环境,支持多种预处理器和响应式测试。 html官…

    2025年12月23日
    000
  • html如何修改日期样式

    在html中,可以使用“::-webkit-datetime-edit”伪元素选择器来修改日期格式,只需要用该选择器选中元素,在设置具体样式即可,具体语法为“::-webkit-datetime-edit{属性:属性值}”。 本教程操作环境:windows7系统、CSS3&&HTML…

    2025年12月21日
    100
  • 单选框的type属性值为什么

    单选框的type属性值为“radio”。html type属性可以规定要显示的输入框“”元素的类型;值为“radio”时显示为单选框、“checkbox”时显示为复选框、“select”时显示为下拉式选框等等。 本教程操作环境:windows7系统、HTML5版、Dell G3电脑。 在HTML中,…

    2025年12月21日
    000
  • HTML中type是什么意思

    在HTML中,type是类型的意思,是一个标签属性,主要用于定义标签元素的类型或文档(脚本)的MIME类型;例在input标签中type属性可以规定input元素的类型,在script标签中type属性可以规定脚本的MIME类型。 本教程操作环境:windows7系统、html5版、Dell G3电…

    2025年12月21日
    000
  • HTML中ul标签如何去掉点?HTML无序列表的样式实例解析

    本篇文章主要讲述的是关于html中的ul标签的默认小点给取消掉,还有关于html的无序列表ul标签的样式解释,给出了ul标签中的type属性三种值的介绍。现在就让我们一起来看本篇文章吧 首先这篇文章一开始我们就开始介绍在html中是怎么把ul标签的点给去掉的: 大家应该都使用过ul无序列表标签,ul…

    2025年12月21日 好文分享
    000
  • html中的ol标签如何去掉标号呢?标签的使用方法总结

    本篇文章介绍了html的ol标签是怎么去掉序号标号的,这里还有代码的详细解释,还有介绍了关于html ol有序列表标签如何更改序号,下文介绍了三种序号,大家也可以自己去想填写怎样的序号。现在来看这篇文章吧 一、我们先看看html中的ol标签是如何去掉标号的呢: 我们都知道html的ol标签是个有序列…

    2025年12月21日 好文分享
    000
  • HTML ul标签的什么意思?HTML ul标签的作用详解

    本篇文章主要的为大家讲解了关于html ul标签的三种重要的用法,还有关于html ul标签的解释,包含li标签的还有type属性对ul标签的使用情况,好了,下面大家一起来看文章吧 首先让我们先来解释一下HTML ul标签的意思: ul标签定义的是表格当中无序列表,表格当中的无序列表都是在 标签之中…

    2025年12月21日
    000
  • javascript框架和库是什么_如何选择React、Vue或Angular?

    JavaScript框架与库分别提供按需调用的功能集合和约束性开发结构;React是UI组件库,生态灵活但需自行整合工具;Vue渐进式易上手,兼顾原型与工程化;Angular是全功能TypeScript框架,适合强规范企业级项目。 JavaScript框架和库是封装好的代码集合,用来简化前端开发——…

    2025年12月21日
    000
  • React应用生产环境环境变量配置深度指南

    本文针对react应用在生产环境中无法读取`.env`文件配置的环境变量问题,深入剖析其工作原理、常见原因及排查方法。通过详细的步骤和示例代码,指导开发者正确配置和使用环境变量,解决api调用层面的`null`响应问题,确保应用在生产环境下的稳定运行。 在React应用开发中,环境变量(如API密钥…

    2025年12月21日
    000
  • JS注解怎么实现文档化_ JS注解生成开发文档的流程与工具

    JSDoc是一种JavaScript结构化注释规范,通过@param、@returns等标签描述代码元素,并借助工具生成HTML文档,结合IDE支持和CI/CD可提升团队协作效率。 JavaScript本身不支持原生注解(Annotation)像Java那样的语法,但通过约定的注释格式和配套工具,可…

    2025年12月21日
    000
  • JS注解怎么标注联合类型_ JS联合类型的注解书写与使用技巧

    在JavaScript中可通过JSDoc使用联合类型注解,如string|number表示多类型支持,结合@param、@typedef等标签提升代码可读性与编辑器提示,适用于函数参数、返回值等场景。 在JavaScript中,虽然原生不支持类型注解,但在使用JSDoc配合现代编辑器(如VS Cod…

    2025年12月21日
    000
  • VS Code主题开发:告别JSON,拥抱脚本化生成

    vs code主题扩展最终需json格式定义,但开发者可通过javascript或typescript等脚本语言生成此json文件。这种方法有效解决了大型json文件难以维护、不支持注释等问题,并能实现颜色动态计算,显著提升主题开发的灵活性与效率。 为什么选择脚本化生成VS Code主题? 在开发V…

    2025年12月20日
    000
  • 如何用Quasar框架开发一个跨平台应用?

    Quasar基于Vue.js用一套代码构建多平台应用,支持响应式网站、PWA、移动App和桌面应用。通过quasar create创建项目,利用模式(SPA、PWA、Electron等)切换目标平台,使用Quasar组件库编写通用UI,配合Pinia管理状态,最后通过不同构建命令发布到各平台,实现高…

    2025年12月20日
    000
  • 怎么利用JavaScript进行前端代码覆盖率统计?

    答案:利用JavaScript进行前端代码覆盖率统计的核心是通过Istanbul/nyc等工具对代码插桩,结合测试框架收集执行数据并生成报告。具体流程包括:在代码执行前通过Babel或Webpack插件(如babel-plugin-istanbul)插入计数器实现插桩;运行测试时记录哪些代码被执行;…

    2025年12月20日
    100
  • typescript中的参数分享

    TypeScript 中的参数共享允许组件间共享参数,实现跨组件状态维护和数据变更共享。通过 @Input 装饰器传递父组件参数,使用 @Output 装饰器定义子组件事件,以便在子组件状态改变时通知父组件。参数共享提高复用性,简化状态管理,允许子组件向父组件发出通知,但应谨慎使用,避免大量数据共享…

    2025年12月19日
    000
  • 手机如何运行typescript方法

    要在手机上运行 TypeScript 方法,可以使用 TypeScript 编译器或第三方库:TypeScript 编译器: 将 TypeScript 代码编译成 JavaScript,然后集成到移动应用程序中。第三方库: 如 React Native 或 NativeScript,允许使用 Typ…

    2025年12月19日
    000
  • typescript用来干嘛_typescript的作用

    TypeScript 是一种用于构建大型复杂应用程序的开源编程语言,它扩展了 JavaScript 的功能,具有以下作用:类型系统:编译时检查类型错误,提高代码可靠性。面向对象编程特性:支持类、接口、抽象类,增强代码组织性和维护性。模块系统:分解程序为可重用模块,提升可维护性和可扩展性。全面的类型推…

    2025年12月19日
    000
  • TypeScript基本用法和语法

    TypeScript 是一种具有类型系统的 JavaScript 超集,提供以下特性:类型注解:确保变量、函数和类的类型一致。接口:定义方法和属性,供类实现。枚举:提供命名常量集。泛型:创建可重用且类型安全的组件。 TypeScript 基本用法和语法 TypeScript 是一种超集 JavaSc…

    2025年12月19日
    000

发表回复

登录后才能评论
关注微信