LinkedIn在利用大型语言模型服务十亿用户中的收获

程序猿 • 2025年11月7日 09:27:00 • 用户投稿 • 阅读 1

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

在全球拥有超过10亿用户的linkedin，不断挑战当今企业技术的极限。很少有公司能够太像linkedin那样运营，或者拥有类似的大量数据资源。

这个专注于商业和就业的社交媒体平台将合格的候选人与潜在雇主联系起来，帮助填补职位空缺是其核心业务。同样重要的是确保平台上的帖子反映了雇主和消费者的需求。在LinkedIn的模式下，这些匹配过程一直依赖于技术。

到了2023年夏天，当GenAI第一次高涨时，LinkedIn开始考虑是否利用大型语言模型（LLMs）来匹配候选人与雇主，并使信息流更加有用。

因此，这家社交媒体巨头开启了一段GenAI的旅程，并现在正在报告其利用Microsoft的Azure OpenAI服务的经验结果。各行各业的CIOs都可以从LinkedIn中在此过程中学到的一些经验。

起伏跌宕

正如大多数CIO所经历的那样，采用新兴技术伴随着试验和挫折。LinkedIn的情况也不例外，据该公司的首席软件工程师和技术负责人Juan Bottaro所说，其走向LLM协同的道路一点也不平坦。

Bottaro表示，最初的成果“感觉不够完善”，“连接的点还不够多。”

围绕GenAI的首波炒作并没有帮助。

“LLM是新事物，感觉它能解决所有问题，”Bottaro说。“我们开始时对LLM能做什么并没有一个非常清晰的概念。”

例如，早期版本的改进型职位匹配工作可以说是相当的，用一个不太恰当的词来说，粗鲁。或者至少过于直白。

“点击‘评估我是否适合这份工作’后得到‘你完全不适合’并不实用，”Bottaro说。“我们希望[回应]既事实准确，同时也要有同理心。有些会员可能正在考虑转行到他们目前并不十分适合的领域，需要帮助了解差距和下一步该怎么做。”

因此，LinkedIn初步学到的一个重要经验是调整LLM以满足观众的期望——并帮助LLM理解如何以一种或许不是人类，但至少是人性化的方式来回应。

速度问题

尽管LinkedIn拥有超过十亿会员，依靠LinkedIn的LLM工作的大部分求职功能最初是针对高级会员的，这是一个相对较小的群体。(LinkedIn拒绝透露其拥有多少高级会员。)

在如此大的规模运作时，速度是至关重要的，特别是在与相关职位匹配候选人这样细致的事务上。这里，人们认为LLM会有所帮助，因为LLM的一个经常被提及的优点是其速度，使它们能够迅速完成复杂的步骤。但Bottaro表示，LinkedIn的部署并非如此。

“我不会说LLM很快。我不认为速度是一个优势，”他说。

速度可以有多种定义。虽然在操作上LLM可能没有像希望的那样快，但Bottaro表示整体部署过程的加速令人震惊。“这项新技术的超能力在于你可以非常快速地创建原型，大约在两到三个月之间。在这项技术出现之前，这是不可能的，”他说。

当被问及如果没有LLM，项目的各个方面需要多久时，Bottaro表示有些可能根本无法完成，而其他元素“可能需要几年时间。”

作为一个例子，Bottaro提到了旨在理解意图的系统部分。没有LLM，这可能需要两到三个月，但LLM在“不到一周”的时间内就掌握了它。

成本考虑

Bottaro称之为“障碍”的一个方面是成本。同样，成本在项目的不同阶段意味着不同的东西，正如LinkedIn的经验所示。

“我们用于开发的金额微不足道，”Bottaro说。但当涉及到向LinkedIn的客户提供数据时，成本激增。

天工大模型

中国首个对标ChatGPT的双千亿级大语言模型

115 查看详情

“即便只是针对几百万会员，”Bottaro说，这可能暗示了高级会员的数量，价格也飙升了。这是因为LLM的定价——至少是LinkedIn与Microsoft(其LLM提供商及母公司)达成的许可协议——是基于使用量的，具体来说是输入和输出令牌的使用量。

一位AI供应商的首席执行官Tarun Thummala在一篇与此项目无关的LinkedIn帖子中解释说，LLM的输入和输出令牌大约相当于0.75个单词。LLM供应商通常按成千上万或成百万卖令牌。例如，LinkedIn使用的Azure OpenAI在美国东部地区收费标准为每100万个8K GPT-4输入令牌30美元，每100万个8K GPT-4输出令牌60美元。

评估挑战

LinkedIn为其项目设定的另一个功能目标是自动评估。LLM在准确性、相关性、安全性和其他关注点方面的评估一直是个挑战。领先的组织和LLM制造商一直在尝试自动化一些工作，但据LinkedIn称，这种能力“仍然是在进行中”。

没有自动化评估，LinkedIn报告称“工程师们只能靠目测结果，并在有限的样本集上进行测试，且通常会有超过1天的延迟才能知道指标。”

该公司正在构建基于模型的评估器，以帮助估计关键的LLM指标，如整体质量得分、幻觉率、连贯性和负责任的AI违规情况。这样做将能够加快实验的速度，公司的工程师说，尽管LinkedIn的工程师在幻觉检测方面取得了一些成功，但他们还没有完成该领域的工作。

数据质量

LinkedIn在其职位匹配努力中遇到的部分挑战归结为双方的数据质量问题：雇主和潜在雇员。

LLM只能使用提供给它的数据，有时候职位发布并不精确或全面地说明雇主所寻求的技能。另一方面，一些求职者发布的简历表述不佳，无法有效反映他们在解决问题等方面的丰富经验。

在这方面，Bottaro看到了LLM帮助雇主和潜在雇员的潜力。通过改善雇主和LinkedIn用户的书写，双方都能受益，因为公司的职位匹配LLM在数据输入质量更高时能够更有效地工作。

用户体验

在处理如此庞大的会员基础时，准确性和相关性指标可能“给人一种虚假的安慰感，”Bottaro说。例如，如果LLM“90%的时间都做得对，这意味着十分之一的人会有糟糕的体验，”他说。

使这种部署更加困难的是，提供有用、有帮助且准确答案所涉及的极端细微差别和判断。

“你如何定义什么是好的，什么是坏的?我们花了很多时间与语言学家一起制定关于如何提供全面代表性的指导。我们也做了很多用户研究，”Bottaro说。“你如何训练人们撰写正确的回应?你如何定义任务，规定回应应该是什么样的?产品可能试图建设性或有帮助。它不试图假设太多，因为那是幻觉开始的地方。我们对回应的一致性感到非常自豪。”

实时运营

LinkedIn庞大的规模为职位匹配带来了另一个挑战。在拥有十亿会员的情况下，一个职位广告在发布几分钟内可能会收到数百甚至数千个应聘回应。如果看到已经有数百人申请，许多求职者可能就不会再费心申请了。这就要求LLM非常迅速地找到匹配的会员，在资质较低的申请者提交材料之前做出反应。之后，会员是否看到通知并及时做出反应仍然是一个问题。

在雇主方面，挑战在于找到最合适的应聘者——不一定是反应最快的人。一些公司不愿公布薪资范围，这进一步复杂化了双方的努力，因为最合格的应聘者可能对职位的薪酬不感兴趣。这是一个LLM无法解决的问题。

API和RAG

LinkedIn庞大的数据库包含了关于个人、雇主、技能和课程的许多独特信息，但其LLM尚未接受过这些数据的培训。因此，根据LinkedIn工程师的说法，它们目前无法使用这些资产进行任何推理或生成响应的活动，因为这些资产是如何存储和提供的。

在这里，检索增强生成(RAG)是一个典型的解决方案。通过建立内部API的管道，企业可以用额外的上下文“增强”LLM提示，以更好地指导和限制LLM的响应。LinkedIn的大部分数据通过RPC API公开，公司的工程师说这“方便人类以编程方式调用”，但“对LLM并不友好”。

为了解决这个问题，LinkedIn的工程师围绕其API“封装了技能”，给它们提供了一个“对LLM友好的API功能描述以及何时使用它”，以及配置细节、输入和输出架构以及将每个API的LLM版本映射到其底层(实际)RPC版本所需的所有逻辑。

LinkedIn的工程师在一份声明中写道：“像这样的技能使LLM能够执行与我们产品相关的各种操作，如查看个人资料、搜索文章/人员/职位/公司，甚至查询内部分析系统。”他们还提到，“同样的技术也用于调用非LinkedIn的API，如Bing搜索和新闻。”这种方法不仅提高了LLM的功能性，还增强了其与现有技术基础设施的整合能力，使得LLM能够更广泛地应用于企业的各个方面。

以上就是LinkedIn在利用大型语言模型服务十亿用户中的收获的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/421296.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

thinkphp报错“模板不存在”如何定位问题

上一篇 2025年11月7日 09:26:57

Linux如何配置安全Shell_Linux安全Shell的配置与优化指南

下一篇 2025年11月7日 09:27:01

用户投稿

人工智能如何为 C 语言代码提供安全增强功能？

人工智能通过提供以下功能来提升 c 代码安全性：静态分析：识别潜在安全漏洞（例如缓冲区溢出）；动态分析：监控代码执行并检测异常行为；模糊测试：生成随机输入以测试代码的异常行为；自动化修复：建议修复措施或自动生成补丁程序。人工智能赋能 C 代码：提升安全性人工智能 (AI) 在 C 代码安全方面发…

程序猿
2026年5月10日
1000
用户投稿

ChromaDB向量嵌入的有效持久化策略

本文详细介绍了如何利用langchain中chromadb的`persist_directory`功能，高效地持久化存储向量嵌入。通过将生成的嵌入数据保存到本地磁盘，可以有效避免重复计算，显著提升工作流程效率。教程将涵盖持久化chromadb实例的创建与后续加载的完整过程。在处理大规模文本数据并生…

程序猿
2026年5月10日
0000
用户投稿

DeAgentAI(AIA)币是什么？值得投资吗？DeAgentAI上线指南、价格预测及路线图介绍

目录 DeAgentAI (AIA) 上市：关键细节和交易时间表关键上市信息DeAgentAI（AIA）价格预测：上市后DeAgentAI (AIA) 是什么：解释DeAgentAI (AIA) 为何脱颖而出？DeAgentAI (AIA) 生态系统：其运作方式认识 DeAgentAI (AIA) …

程序猿
2026年5月10日
0000
用户投稿

C++ 框架如何支持人工智能模型的持续改进和维护？

C++ 框架助力持续改进和维护 AI 模型简介训练和部署 AI 模型是一项持续的过程，需要不断改进和维护。C++ 框架提供了强大的工具和特性，以支持这些活动。持续改进立即学习“C++免费学习笔记（深入）”；数据收集和特征工程 C++ 框架如 TensorFlow 和 PyTorch 提…

程序猿
2026年5月10日
0000
用户投稿

C++框架在人工智能领域的应用

c++++ 框架在 ai 领域应用广泛，提供速度、效率和灵活性的优势。流行的 ai c++ 框架包括 tensorflow、pytorch、caffe2、mxnet 和 theano。这些框架用于开发图像分类、自然语言处理和机器学习等应用程序。 C++ 框架在人工智能领域的应用 C++ 以其速度、效…

程序猿
2026年5月10日
0000
用户投稿

人工智能助力 C 代码集成和 DevOps实践

通过将人工智能 (ai) 集成到 c 代码集成和 devops 实践中，可以提高效率和质量：代码审查： ai 工具可以分析代码并识别潜在问题，评估质量指标，例如可读性、可维护性和安全风险。（实战案例：codescene）测试自动化： ai 算法可以生成测试用例并执行测试，提高测试覆盖率。（实战案例：…

程序猿
2026年5月10日
0000
用户投稿

Holoworld AI(HOLO)是什么币？怎么买？未来能涨到多少

Holoworld AI（HOLO）是AI驱动虚拟社交平台的原生代币，用于生态内功能与激励。用户可通过中心化平台（如用USDT交易）或去中心化平台获取HOLO，需注意合约地址准确性与网络手续费。其市场表现受项目团队、技术进展、代币经济模型、市场环境及社区活跃度等多重因素影响，且所有数字资产交易均伴随…

程序猿
2026年5月10日
2000
用户投稿

如何运用人工智能提升 C 代码可维护性？

如何运用人工智能提升 C 代码可维护性在 C 编程中，可维护性是至关重要的，它可以确保代码易于理解、修改和调试。人工智能 (AI) 可以成为提升 C 代码可维护性的强大工具。 1. 代码生成和重构 AI 可以用于生成新的代码或重构现有代码，使其更易于维护。例如，代码生成器可以根据指定规范自动生成代…

程序猿
2026年5月10日
0000
用户投稿

Solana基金会主席 Lily 上海演讲：万物皆可代币化

在 2025 年 10 月 23 日至 27 日举行的第 11 届全球区块链峰会期间，Solana 基金会主席 Lily Liu 在上海区块链国际周上发表了主题演讲，阐述了“万物皆可代币化”的愿景，并分享了 Solana 在全球金融基础设施建设方面的战略布局。 Solana 的愿景：万物皆可代币化 …

程序猿
2026年5月10日
0000
用户投稿

html搜索框如何跳转_实现HTML搜索框跳转搜索结果【结果】

HTML搜索框跳转失败多因表单action或参数错误，可通过五种方法解决：一、百度用form提交至https://www.baidu.com/s?q=关键词；二、Google类似，action为https://www.google.com/search；三、JavaScript拼接必应URL并loc…

程序猿
2025年12月23日
4000
用户投稿

从OpenAI API JSON响应中高效提取生成文本内容

本教程详细指导开发者如何从openai api返回的json格式响应中准确提取生成的文本。通过利用`json.parse()`方法解析响应字符串，并访问`choices[0].text`属性，可以安全、高效地获取核心文本内容，从而避免直接字符串操作的潜在问题，确保api数据处理的健壮性。 OpenA…

程序猿
2025年12月23日
5000
用户投稿

HTML语义化未来趋势有哪些_HTML语义化在Web发展中的趋势与展望

HTML语义化正朝着智能、高效、包容发展，深度融合结构化数据与ARIA属性，提升机器理解；2. 组件化趋势推动可复用语义结构普及，Web Components实现自定义语义标签；3. 语义化助力性能优化与可访问性，支持懒加载与内容优先级划分；4. AI工具将自动生成语义化代码并辅助检测，降低实践门槛…

程序猿
2025年12月23日
3000
用户投稿

HTML数据如何实现数据智能 HTML数据智能分析的技术架构

实现HTML数据智能分析需构建包含采集、解析、存储、分析与可视化的闭环系统，首先通过爬虫技术获取网页数据并进行清洗标准化，接着利用DOM树分析与NLP技术提取结构化信息，随后将数据存入合适数据库或数据仓库并建立元数据管理机制，进而应用AI模型开展分类、情感分析、趋势预测与知识图谱构建等智能分析，最终…

程序猿
2025年12月23日
1000
用户投稿

HTML5 section怎么用_HTML5内容分区标签应用场景说明

在HTML5中，标签用于定义文档中具有明确主题的独立内容区块，需包含标题以体现其结构性与语义性，常用于文章章节、产品模块等场景，区别于无语义的和可独立分发的。在HTML5中，section 标签用于定义文档中的一个独立内容区块。它不是简单的容器，而是有语义的结构化标签，表示文档中一个主题性的分区，…

程序猿
2025年12月23日
0000
用户投稿

htm算法前景如何_分析HTM算法应用前景

HTM算法在实时异常检测、预测性维护等时序数据场景中具备应用价值，其无需大量标注数据的特性适合工业监控、网络安防等领域；但受限于生态薄弱、性能不及主流模型及工程实现难度，短期内难以成为主流，更可能作为边缘计算或AI系统补充技术，在特定专业领域持续发展。 HTM（Hierarchical Tempor…

程序猿
2025年12月23日
0000
用户投稿

HTML结构化数据怎么添加_Schema标记添加教程

Schema标记通过结构化数据帮助搜索引擎理解网页内容，提升搜索结果展示效果，如添加星级评分、价格等富文本信息。使用JSON-LD或Microdata格式将符合Schema.org标准的类型（如Article、Product）嵌入HTML中，可增强SEO，需通过Google Rich Results…

程序猿
2025年12月22日
0000
用户投稿

如何实现自定义提示

掌握自定义提示需构建迭代工作流，通过明确目标、设定角色、提供上下文、结构化输出、示例引导、迭代优化、负面提示和链式思考，实现AI输出的精准控制与高效协同。实现自定义提示，核心在于理解与AI模型交互的本质，并将其从“提问”升级为“引导”。它不是简单的抛出问题，而是通过精心设计的语言结构、上下文信息、…

程序猿
2025年12月22日
9000
用户投稿

JavaScript机器学习与人工智能库应用

JavaScript在AI领域应用扩展，依托TensorFlow.js实现浏览器内模型推理与训练，利用WebGL加速；ML5.js提供高层接口，简化图像识别、风格迁移等功能调用；Brain.js支持轻量级神经网络开发，适用于前端智能场景如实时检测、自动补全等，虽性能不及Python，但在交互式轻量应…

程序猿
2025年12月20日
5000
用户投稿

LangChain HNSWLib 向量存储机制与数据持久化指南

本文详细解析langchain中hnswlib向量存储的工作原理，明确其作为内存存储的特性，指出数据实际存储在项目部署的服务器上，而非langchain官方服务器。同时，文章将指导如何通过save_local()方法将内存中的向量数据持久化到本地文件，确保数据安全与可靠性，并探讨在实际应用中的注意事…

程序猿
2025年12月20日
0000
用户投稿

使用LINE Bot与OpenAI API发送文本和贴图的完整教程

本文详细介绍了如何在LINE Bot中集成OpenAI API生成文本回复，并在此基础上发送LINE贴图。核心挑战在于LINE Messaging API的replyToken通常只能使用一次，导致连续发送文本和贴图时出现400错误。解决方案是利用API支持一次性发送多条消息的特性，将文本和贴图消息…

程序猿
2025年12月20日
0000