未来,我们将如何进行信息搜索?

嘉宾 | 窦志成

整理 | 张锋

策划 | 徐杰承

搜索引擎自诞生之初到现在已经有二十多年,其形式和架构一直没有发生很大改变。伴随着互联网技术的持续发展,未来的搜索环境将变得愈加复杂多样,用户获取信息的方式也会发生很多的变化,自然语言、语音、视觉等多种输入形式势必会取代简单的关键词;答案、高阶知识、分析结果、生成内容等多种模态内容输出将取代简单结果列表;在交互方式上也可能会从单轮检索过渡到多轮自然语言交互。

那么在新的搜索的环境下,未来智能搜索技术都将会呈现出哪些特征呢?日前,在51CTO主办的在​​AISummit全球人工智能技术大会​​上,中国人民大学高瓴人工智能学院副院长窦志成老师通过主题演讲——《下一代智能搜索技术》,为广大听众分享了新一代智能搜索技术的发展趋势及核心特征,同时就交互式、多模态、可解释搜索、及以大模型为中心的去索引化搜索等技术做出了详尽分析。本文将窦志成老师的演讲内容进行了编辑整理,希望能给大家带来一些新的启发:

未来搜索的主要特征

我们认为未来的搜索可能会有至少这五个方面的特征:

对话式,人和搜索引擎是通过自然语言进行多轮交互的一种方式。个性化,会根据不同用户的需求反馈不同的结果,而不是千篇一律、千人一面的为所有人反馈相同的结果。多模态,返回的内容和输入的方式可能不仅仅局限于用文本来作为媒介或者是途径。富知识,搜索返回的信息不仅仅是一个结果列表的形式,可能是有各种不同的展示的形式,以各种知识、实体的方式展示。去索引倒排索引或稠密索引的方式也迫切需要产生很大的变化。

对话式

现在使用的搜索引擎普遍采用的模式是在一个框里面输入一两个词进行搜索。未来的搜索则可能是我们与搜索引擎采用对话的方式进行交互。

在传统的搜索引擎采用的关键词检索方式,我们希望把所有要找的信息核心都通过关键词描述出来,即我们假设单个查询能够完整、准确地表达这个信息的需求。但在表达一个较为复杂的信息时,关键词其实是很难满足需求的。而对话式搜索可以通过多轮交互来充分表达信息需求,比较符合人和人在交流的时层层递进的信息交互方式。

想要到达这种交互式搜索,会给系统或算法带来很大的挑战,需要让搜索引擎从多轮的自然语言交互中准确理解用户的意图,同时也要把理解出的意图与用户想要的信息做好匹配。

相比于传统的关键词搜索,对话式搜索需要更复杂的查询理解(例如需要解决当前查询中的省略,共指等问题),以还原用户的真实搜索意图。最简单的方式是将历史查询全部拼接起来,使用预训练语言模型进行编码。

简单的拼接对话方式虽然简单,但可能会引入噪声,并不是所有的历史查询都对于理解当前查询是有帮助的,所以我们只选出和它有依赖关系的上下文,这样也能解决长度的问题。

对话式检索模型COTED

基于以上思想,我们提出了对话式稠密检索的模型COTED,其主要包括如下三部分:

1、通过识别对话查询中的依赖关系,来去除对话中的噪声,进而更好地预测用户的意图。

2、基于对比学习的数据增强(模仿各种噪声情况)和去噪损失函数,有效让模型学会忽略无关的上下文,把它和最终匹配的损失函数联合,做多任务的学习。

3、通过课程学习的方式来降低模型多任务学习的学习难度,最终提升模型性能。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

未来,我们将如何进行信息搜索?

然而,够用于对话式搜索模型训练的数据实际上是非常有限的,在有限的少样本情况下,对话式搜索的模型训练是非常困难的。

如何解决这个问题?出发点就是能否把搜索引擎日志迁移去做对话式搜索引擎的训练。在这个思想上,把大规模的web搜索的日志转换成对话式搜索日志,然后在转换之后的数据上训练对话式搜索的模型。但这种方法也同时伴随着两个很明显的问题:

一是传统的web搜索采用关键词搜索的方式,对话式搜索是自然语言对话的方式,查询形式是不一样的,无法直接迁移使用。二是查询本身就会存在很多噪声,需要对搜索日志里面的用户数据做一些清洗、过滤、转换,才能用在对话式搜索里面。

对话式搜索训练模型ConvTrans

为了解决这些问题,我们做了对话式搜索训练模型ConvTrans,并实现了以下功能。

首先,以图的方式对传统的web搜索引擎中的日志进行了组织,通过查询与查询、查询与文档之间建立联系构建了图。在图的基础上,使用了一个基于T5的两阶段查询改写的模型,将一个关键词的查询改写成一个问题的形式。经过改写之后,图中每个查询都会用自然语言来表达新的查询,再设计一个采样的算法,从图上做随机游走,生成对话的会话,之后基于这个数据来训练对话的模型。

实验显示,用这种自动生成的训练数据来训练的对话式搜索模型,能够和使用昂贵的人造或者人工标注的数据达到同样的效果,且随着自动生成的训练数据规模的增大,性能也会持续提升。这种方法使我们基于大规模搜索日志进行训练对话式搜索模型成为了可能。

未来,我们将如何进行信息搜索?

对话式搜索模型虽然在搜索上已经走了一大步,但这种对话方式仍然是被动的,搜索引擎一直被动的接受用户的输入,根据输入来返回结果,搜索引擎没有主动地去问用户你到底要找什么。但在人和人的交流过程中,当你被问一个问题的时候,有时候你会主动地来反问一些问题来做澄清。

比如必应搜索里面,如果Query是“Headaches”,头疼。它会问你“What do want to know about this medical condition”“你想知道关于这个疾病的什么事”,比如说是它的症状、还是治疗、还是诊断、还是成因或者诱因。因为Headaches本身是非常宽泛的一个Query,在这种情况下,系统希望能够进一步澄清你想找到哪里的信息。

未来,我们将如何进行信息搜索?

这里面临两个问题,第一是候选项,就是想让用户去澄清到哪个具体的项。第二是澄清问题,搜索引擎主动反过来问用户的这个问题。而核心词是澄清问题里面最至关重要的一部分。

纳米搜索 纳米搜索

纳米搜索:360推出的新一代AI搜索引擎

纳米搜索 30 查看详情 纳米搜索

在这方面的探索,第一是通过查询日志和知识库去给定一个查询的时候,能够生成一些澄清的候选项。第二,基于规则可以通过搜索的结果来预测这个澄清问题的一些核心词。同时也标注一些数据,通过有监督的模型来做这种文本标签的分类。第三,进一步在这个标注数据的基础上训练端到端的生成模型。

个性化

个性化指的是未来的搜索将以用户为核心。现在的搜索引擎,不管是谁来查,返回都是同样的结果。而这并不能满足用户的特定化信息需求。

现在的个性化搜索采用的模式,首先通过用户历史学习用户熟悉的知识信息,对查询进行个性化实体消歧。其次,通过消歧后的查询实体增强个性化匹配。

此外我们在基于产品品类构建用户的多兴趣模型方面也做了探索,假设用户可能有自己在所有品类上的一些品牌(规格、型号)倾向性,但是这个倾向性不能简单的通过一两个向量来去刻画。应该根据用户购物的历史,构建知识图谱,通过知识图谱针对不同品类学习不同的兴趣,最终做更精准的个性化搜索的结果推送。

也可以用同样的个性化方法去做聊天机器人,核心思想就是通过用户历史对话,学习用户个性化兴趣和语言模式,训练个性化对话模型,可以模仿(代理)用户说话。

多模态

现在的搜索引擎在处理多模态信息的时候,其实有相当多的局限性的。未来用户获取的信息可能不仅仅是一些文字、网页,可能还包括图片、视频以及更复杂的结构信息。所以未来的搜索引擎在多模态信息获取上还有很多工作需要做。

现在的搜索引擎在理解或者是做跨模态检索时,即给出一个文本的描述,去找它对应的图片的时候,做得还是有很多缺陷的。类似的搜索如果迁移到手机上,局限性就会更大。

所谓的多模态就是语言、要找的图像、图片、视频等模态,映射到统一的一个空间上,这就意味着可以通过文字去找图片,图片去找文字,图片去找图片等。

对此,我们做了大规模多模态的预训练模型——文澜。其重点是基于海量的互联网图片和附近文字的弱监督相关性贡献的信息训练出来的。采用双塔模式,最后训练的是一个图片的编码器和文本的编码器,这两个编码器通过端到端匹配的优化学习过程,让最终的表示向量能够映射到统一空间中,而不是把图片的细粒度和文字的细粒度拼接在一起。

未来,我们将如何进行信息搜索?

这种跨模态的检索能力,其实不只是端到端给用户使用web搜索引擎时提供了更多的空间,同时也可以支撑很多应用,例如创作,不管是社交媒体还是文创类,都可以用它来支撑。

富知识

现在的搜索引擎普遍检索的主体还是网页,而未来搜索引擎处理的单元不仅仅是网页,应该是以知识为处理的单位,包括返回的结果也应该是高阶的知识,而不是一个一个页面的列表形式。很多时候用户其实想通过搜索引擎来完成一些复杂的信息需求,故而希望搜索引擎帮助分析结果,而不是让人来一个一个去分析。

基于此想法我们构建了分析引擎,相当于是在搜索引擎的基础上,能提供深度的文本分析,帮助用户高效、快捷地获取高阶知识。帮助用户完成对大规模文档的阅读和理解,并对其中所包含的关键信息和知识进行抽取、挖掘、汇总,最终通过交互式的分析过程,让用户对挖掘到的高阶知识进行浏览和分析,进而为用户提供决策支持。

例如用户希望找雾霾相关的信息,可以直接输入“雾霾”。富知识模式与传统的搜索引擎返回的结果不同,可能返回一个时间轴,告诉用户关于雾霾的信息在时间轴上的分布等情况,还会总结出关于雾霾的子话题有哪些、机构有哪些、人物有哪些。当然它也可以像搜索引擎一样提供详细的结果的列表。

未来,我们将如何进行信息搜索?

这种可以直接提供分析,而且是交互式分析的能力,能够更好地帮助用户获取复杂信息的能力。提供给用户的东西不再是简单的搜索结果列表。当然这种交互式的多维知识分析,只是一种展示方式,以后还可以做更多的方式,比如我们现在正在做的一件事情就是从检索到生成(有理有据的)内容。

去索引

现在的搜索引擎广泛采用以索引为核心的分阶段方式,从大量互联网的网页爬回所需内容后构建Index,也就是倒排的索引或稠密的向量索引。用户的Query来之后,先要做召回,在召回的结果基础上再做精细化排序。

这个模式有很多弊端,因为要分阶段,如果一个阶段上出了问题,例如在召回阶段没有找到想要的结果,它排序阶段做得再好,也不可能返回很好的结果。

在未来的搜索引擎中,这种结构有可能是会被打破的。全新的想法是使用一个大的模型来取代现在的索引的模式,所有的查询都可以通过模型来满足。这就不再需要使用索引了,而是直接通过这种模型反馈想要的结果。

未来,我们将如何进行信息搜索?

在这个基础上,可以直接提供结果列表,也可以直接提供用户所需的答案,甚至答案还可以是图像,将各模态更好的融合在一起。去掉索引,直接通过模型来反馈结果,就意味着这个模型能够直接return或者直接返回文档的标识符,文档标识符是一定要嵌入到模型中的,构建以模型为中心的搜索。

总结

现在的搜索引擎广泛采用关键词为输入,文档列表为输出的这种简单模式。在满足人们复杂信息获取需求方面,已经存在了一些问题。未来的搜索引擎将会是对话式的、是个性化的、是以用户为中心的、是能够破除千人一面的。同时能够处理多模态的信息,能够处理知识、能够返回知识。在架构上,未来也一定会突破现有的采用倒排索引或者稠密向量索引的这种以索引为核心的模式,逐步过渡到以模型为核心的模式。

嘉宾介绍

窦志成,中国人民大学高瓴人工智能学院副院长,北京智源人工智能研究院“智能信息检索与挖掘”方向项目经理。2008加入微软亚洲研究院,从事互联网搜索的相关工作,培养了丰富的信息检索技术研发经验。2014年开始在中国人民大学任教,主要研究方向为智能信息检索和自然语言处理。曾获国际信息检索大会(SIGIR 2013)最佳论文提名奖,亚洲信息检索大会(AIRS 2012)最佳论文奖,全国信息检索学术会议(CCIR 2018、CCIR 2021)最佳论文奖。担任SIGIR 2019的程序委员会主席(短文),信息检索评测会议NTCIR-16程序委员会主席,中国计算机学会大数据专家委员会副秘书长等职务。近两年主要关注个性化和多样化搜索排序、交互式和对话式搜索模型、面向信息检索的预训练方法、搜索和推荐模型的可解释性、个性化产品搜索等。

以上就是未来,我们将如何进行信息搜索?的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/569685.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月10日 05:26:49
下一篇 2025年11月10日 05:27:37

相关推荐

  • PHP 函数在人工智能技术中的运用

    php 函数在人工智能技术中发挥着重要作用,特别是以下几个方面:机器学习:array_slice() 和 array_map() 用于处理数据集。自然语言处理:preg_match() 和 preg_replace() 用于文本处理。图像处理:imagecreatefromjpeg() 和 imag…

    2025年12月9日
    000
  • PHP 函数并发编程在人工智能中的应用

    PHP 函数并发编程在人工智能中的应用 简介 函数并发编程是一种编程范式,使函数可以在不同的线程中并行执行。在人工智能 (AI) 领域,函数并发可以显著提高处理大量数据和复杂算法的效率。本文将介绍如何使用 PHP 的并发编程特性来优化人工智能应用程序。 PHP 中的函数并发 立即学习“PHP免费学习…

    2025年12月9日
    000
  • PHP函数在人工智能中的应用前景

    php在人工智能中的潜在应用包括:使用preg_match进行字符串模式匹配使用array_intersect查找数组交集开发图像分类模型,如利用tensorflow框架进行训练 PHP函数在人工智能中的应用前景 PHP,作为一种流行的服务器端脚本语言,在人工智能(AI)领域有着巨大的潜力。PHP提…

    2025年12月9日
    000
  • php函数与人工智能结合时的困难及突破口

    PHP 函数与人工智能结合时的困难 将 PHP 函数与人工智能 (AI) 模型相结合时,可能会遇到一些困难,包括: 语言障碍:PHP 是一种面向对象的脚本语言,而 AI 模型通常用其他语言(如 Python 或 C++)编写。这可能会导致语言差异和兼容性问题。数据转换:AI 模型通常需要特定格式的数…

    2025年12月9日
    000
  • 如何用 PHP 访问人工智能模型?

    在 php 中,使用 google cloud platform (gcp) php 客户库访问 ai 模型:安装 php 7.1 及以上版本。设置 google cloud sdk。通过 gcp 控制台启用 ai platform predictions api。使用 composer 安装 ph…

    2025年12月9日
    000
  • 还会有下一个百倍币吗?2025年值得关注的五大新兴加密货币赛道

    1、币安Binance 币安Binance官网入口: 币安BinanceAPP下载链接: 2、欧易okx 欧易okx官网入口: 欧易okxAPP下载链接: 3、火币HTX 官网入口: APP下载链接: 在快速变化的加密市场中,识别增长的极限是投资者关注的焦点潜力。新兴的叙述和技术突破往往能催生出新的…

    2025年12月9日
    000
  • MAN币是什么?发行量多少?投资价值分析

    MAN币是Matrix AI Network的原生代币,总发行量10亿枚,用于支付费用。项目融合AI与区块链技术,通过自然语言生成智能合约、AI安全防护和动态DPoS机制提升效率与安全,应用于生物信息、数字艺术等领域,团队具备AI与区块链背景,代币已上线多家交易所,流动性良好。 欧易okx官网入口:…

    2025年12月9日
    000
  • 币安Alpha新项目中的Bluwhale是什么?

    Bluwhale是币安Alpha支持的Web3数据项目,通过AI整合链上链下数据构建用户画像,助力项目方精准触达高潜力用户群体,并实现数据价值回归;其技术涵盖多源数据采集、AI标签生成与API服务输出,已在币安生态中获得潜力验证、生态协同及社区曝光机会。 1、币安Binance 币安Binance官…

    2025年12月9日
    000
  • 什么是Datagram(DGRAM)币?值得投资吗?Datagram工作原理和代币信息介绍

    datagram 正在构建 hyper-fabric depin 平台,利用人工智能连接计算、带宽和存储资源,为实时应用提供高效的去中心化基础设施。 Binance币安 欧易OKX ️ Huobi火币️ 什么是Datagram Network? Datagram Network作为一个超互连网络层 …

    2025年12月9日 好文分享
    000
  • 2025潜力币:掘金未来十大虚拟货币

    在快速变化的数字资产领域,部分项目因其技术创新和生态系统建设而备受关注。本文将探讨十个在2025年值得关注的加密项目。 1、币安Binance 币安Binance官网入口: 币安BinanceAPP下载链接: 2、欧易okx 欧易okx官网入口: 欧易okxAPP下载链接: 一、Ethereum (…

    2025年12月9日
    000
  • 狗狗币巅峰预测:2030年前DOGE价格的乐观情景

    关于狗狗币在2030年前的价格走势,市场存在多种乐观预测,部分分析师和技术模型给出了较高的目标位。 一、基于历史周期与技术形态的预测 通过分析过往牛市的技术模式,可以推演出潜在的价格路径。对称三角形突破与斐波那契扩展水平是关键参考指标。 1、观察4小时K线图上的对称三角形是否接近收敛末端,这通常预示…

    2025年12月9日
    000
  • Checkmate(CHECK)币是什么?如何运作?CHECK代币经济与前景分析

    checkmate (check) 是一个去中心化生态系统,旨在将战略思维和竞争文化与 web3 技术相结合。checkmate 引入了“策略型经济”的概念。如今许多数字系统奖励用户注意力和点击率,而 checkmate 则提供了一种奖励人类智慧、创造力和明智决策的模式。该生态系统通过“策略代币”$…

    2025年12月9日 好文分享
    100
  • Datagram Network(DGRAM)币是什么?如何领取?DGRAM代币经济与前景分析

    datagram network是一个基于 avalanche 的主 权layer 1 区块链构建的去中心化通信基础设施和 dapp 平台,兼容多种区块链(例如以太坊、solana 等)。该网络由遍布全球 150 多个国家的数十万个节点支持,旨在克服中心化云基础设施成本高昂、效率低下和垄断等问题。 …

    2025年12月9日 好文分享
    000
  • 以太坊(ETH)现货 ETF 上周净流出创历史第三高 ZEC 合约持仓创新高

    Binance币安 欧易OKX ️ Huobi火币️ 加密市场弱势震荡,ETH ETF 大幅流出、ZEC 活跃度创新高,日本拟下调加密税并强化监管。 11 月 17 日,BTC 仍处于短线偏弱的震荡下行结构,92,976 美元构成短周期重要低点,也是多头的核心防守位置;ETH 仍处在短周期偏弱的震荡…

    2025年12月9日
    000
  • GAIB(GAIB)币是什么?怎么样?GAIB运作方式、代币经济和空投指南

    GAIB 是一个开创性的经济基础架构层,致力于将 GPU 计算能力、人工智能技术与区块链系统深度融合。该项目通过将高性能的人工智能资产——如数据中心、GPU 集群、自动化机器人系统以及能源支持设施——进行代币化处理,把它们的实际运行表现转化为可在链上交易的金融产品。GAIB 代币具备多重功能:可用于…

    2025年12月9日
    000
  • GAIB币是什么?值得投资吗?GAIB项目概述,代币经济与空投领取指南

    gaib 通过将 gpu 及其收益代币化,开创了人工智能经济层的新纪 元,创造了 aid——人工智能领域首个合成稳定币。 Binance币安 欧易OKX ️ Huobi火币️ GAIB币最新动态 币安Alpha(官方注册 官方下载)将于2025年11月19日18:00(东八区时间)上线和开放GAIB…

    2025年12月9日 好文分享
    000
  • 加密货币领域的VC(风险投资)都在关注什么?跟着聪明钱看趋势

    加密领域VC聚焦四大方向:一是DeFi与%ignore_a_1%,青睐合规、高效、跨链且具可持续模型的项目;二是加密AI融合,支持数据可追溯、有真实场景的初创;三是高性能Layer1/Layer2,关注共识机制合理、生态活跃的底层链;四是DePIN,投资解决实际问题、激励明确、绿色可持续的链下硬件网…

    2025年12月9日
    000
  • AI+Crypto是什么概念?盘点人工智能与区块链结合的五大应用方向

    AI+Crypto通过融合人工智能与区块链,构建去中心化智能系统:一、去中心化算力网络整合全球闲置GPU资源,降低AI算力成本90%,如io.net、Aethir和Bittensor实现分布式训练;二、数据隐私保护结合零知识证明与区块链存储,确保医疗等敏感数据“可用不可见”,Arweave保障数据主…

    2025年12月9日
    000
  • 以太坊合约AI预测工具有哪些?以太坊合约AI预测工具APP大全

    以太坊合约AI预测工具通过集成人工智能技术,帮助用户分析链上数据与市场趋势。一、CryptoEye提供实时价格预测与交互式分析,用户可下载App后选择ETH页面,启用AI模块并提问获取即时解析,订阅服务解锁完整功能。二、币安智能分析系统结合AI算法扫描ETH合约交易行为,登录APP后进入ETH合约区…

    2025年12月9日
    000
  • 区块链与加密货币哪个更具潜力?区块链与加密货币详细解析

    区块链技术具有广泛的应用潜力,涵盖供应链、医疗、数字身份等领域,其去中心化与不可篡改特性提升数据透明与安全;加密货币作为其典型应用,以比特币、以太坊和稳定币为代表,在价值存储、去中心化金融和跨境支付中发挥重要作用;同时,区块链与AI、物联网融合,推动智能合约、跨链协议等创新模式发展,拓展了技术边界与…

    2025年12月9日
    000

发表回复

登录后才能评论
关注微信