聊天机器人正在消化互联网，而互联网希望拿到回报

程序猿 • 2025年11月9日 18:02:47 • 用户投稿 • 阅读 0

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

人工智能公司正在利用无数人在互联网上创作的内容，但没有征得他们的同意，也没有给予任何报酬。如今，越来越多的科技和媒体公司开始要求支付费用，希望从聊天机器人的热潮中分一杯羹。

以下是翻译内容：

如果你曾在博客上发表过文章、在Reddit上发布过帖子，或在开放网络上分享过任何内容，那么你就有可能为最新一代人工智能的诞生做出了贡献。

谷歌的Bard、OpenAI的ChatGPT、微软的新版必应以及其他初创公司提供的类似工具，都整合了人工智能语言模型。但如果没有互联网上免费获取的海量文本，这些聪明的机器人作家将无法问世。

如今，网页内容再次成为争夺的焦点。这种情况自早期搜索引擎之争以来就没有出现过。科技巨头试图将这个不可替代的、富含全新价值的信息源划分为自己的领地。

原本不知情的科技和媒体公司正在意识到，这些数据对于培养新一代基于语言的人工智能至关重要。Reddit是OpenAI宝贵的培训资源之一，但最近前者宣布会向人工智能公司收取数据访问的费用。OpenAI拒绝就此发表评论。

最近，推特也开始对数据访问服务收费，这一变化影响了推特业务的许多方面，包括人工智能公司对数据的使用。代表出版商的新闻媒体联盟本月在一篇论文中宣布，当公司利用其成员制作的作品对人工智能进行培训时，它们应该支付许可费。

程序员问答网站Stack Overflow的首席执行官普拉尚思·钱德拉塞卡(Prashanth Chandrasekar)表示：“对我们来说，真正重要的是信息的归属。”对于大型人工智能公司访问网站上的用户创作内容，这家公司计划开始收取费用，“Stack Overflow社区在过去15年中花了那么多精力回答问题，我们真的想确保努力得到回报。”

以前曾出现许多人工智能服务，如OpenAI的Dall-E 2，它们可以通过学习来生成图像，但却被指控大规模窃取知识产权。创建这些系统的公司目前正卷入针对这些指控的诉讼。而人工智能生成的文本之争可能会更大，不仅涉及到补偿和信用问题，还涉及到隐私问题。

但华盛顿大学计算语言学家艾米丽·本德尔（Emily M. Bender）认为，根据现行法律，人工智能机构不必对其行为负责。

这场争端的起因在于人工智能聊天机器人的开发方式。这些机器人的核心算法被称为“大型语言模型算法”，需要通过吸纳和处理大量现有的语言文本数据，以模仿人类说话的内容和方式。这类数据与我们在互联网上所习惯的服务不同，比如Facebook母公司Meta Platforms等用于定向广告的行为和个人信息。

这些数据是由人类用户使用各种服务所创造的，比如Reddit用户发布的数亿条帖子。只有在网络上，你才能找到足够大的人工生成词库。如果没有它，今天所有基于聊天方式的人工智能和相关技术都不会成功。

非营利组织艾伦人工智能研究所的研究科学家杰西·道奇(Jesse Dodge)在2021年发表的一篇论文中发现，维基百科和无数来自大大小小媒体机构、受版权保护的新闻文章，都存在于最常用的网络爬虫数据库中。谷歌和Facebook都使用这个数据集来训练大型语言模型，OpenAI也使用了类似的数据库。

OpenAI不再公开其数据来源，但据该公司2020年发表的一篇论文，其大型语言模型使用从Reddit抓取的帖子来过滤和改进用于训练其人工智能的数据。

Reddit的发言人蒂姆·拉斯施密特(Tim Rathschmidt)表示，目前还不确定向访问其数据的公司收取费用会带来多少收入，但相信他们所拥有的数据可以帮助改进当今最先进的大型语言模型。

报道称，出版业高管们一直在调查：他们的内容在多大程度上被用来培训ChatGPT和其他人工智能工具？他们认为应该如何获得补偿？以及他们可以用哪些法律来捍卫自己的权利？不过，该组织的总法律顾问丹妮尔·科菲(Danielle Coffey)表示，到目前为止，还没有与任何大型人工智能聊天引擎的所有者（如谷歌、OpenAI、微软等）达成任何协议，让他们为抓取自新闻媒体联盟成员的部分训练数据付费。

推特没有回复置评请求。微软拒绝置评。谷歌的一位发言人表示：“长期以来，我们一直在帮助创作者和出版商将其内容货币化，并加强与受众的关系。按照我们的人工智能原则，我们将继续以负责任的、合乎道德的方式进行创新。”该发言人还说，“现在仍处于早期阶段”，对于如何构建有利于开放网络的人工智能，谷歌正在征求有关意见。

法律和道德泥潭

在某些情况下，复制开放网络上可用的数据（也被称为抓取）是合法的，尽管公司仍在就如何以及在何时被允许这么做的细节上争论不休。

大多数公司和组织愿意将他们的数据放在网上，是因为他们希望这些数据被搜索引擎发现并编制索引，这样便于人们找到这些内容。然而，复制这些数据来训练人工智能，以取代寻找原始来源的需要，这是完全不同的。

计算语言学家本德尔表示，那些从网络上收集信息来培训人工智能的科技公司的运营原则是：“我们可以接受它，因此它是我们的”。将文本（包括书籍、杂志文章、个人博客上的随笔、专利、科学论文以及维基百科内容）转化为聊天机器人的答案会去除材料的来源链接。这也会让用户更难核实机器人告诉他们的内容。对于经常说谎的系统来说，这是一个大问题。

这些大规模信息抓取还会窃取我们的个人信息。Common Crawl是一个非营利性组织，十多年来一直在抓取开放网络上的大量内容，并将其数据库免费提供给研究人员。Common Crawl的数据库也被用作希望培训人工智能的公司的起点，包括谷歌、Meta、OpenAI和其他公司。

塞巴斯蒂安·内格尔（Sebastian Nagel）是Common Crawl的数据科学家和工程师，他表示，你几年前写的一篇博客文章，虽然后来被删除，但可能仍然存在于OpenAI使用的训练数据中，该公司使用多年前的网络内容来训练其人工智能。

本德尔表示，与谷歌和微软拥有的搜索索引不同，从训练有素的人工智能中删除个人信息需要对整个模型进行重新培训。道奇也称，由于重新训练一个大型语言模型的成本可能非常高，即使用户能够证明个人数据被用来训练人工智能，公司也不太可能这样做。由于所需的巨大计算能力，这类模型的训练成本高达数千万美元。

但道奇补充说，在大多数情况下，也很难让接受过包括个人信息数据集训练的人工智能反刍这些信息。OpenAI表示，它已经调整了基于聊天的系统，以拒绝提供个人信息的请求。欧盟和美国政府正在考虑监管这类人工智能的新法律法规。

问责制和利润分享

有些人工智能的支持者认为，人工智能应该获得他们的工程师可以获得的所有数据，因为这是人类学习的方式。从逻辑上讲，为什么机器不应该这样做呢？

本德尔表示，抛开人工智能目前和人类还不一样这一点，上述观点存在一个问题，即根据现行法律，人工智能不能为自己的行为负责。抄袭他人作品的人，或试图将错误信息重新包装为真相的人，可能会面临严重后果，但机器和它的创造者则不承担同样的责任。

无数人写的那些个人随笔，以及在默默无闻的论坛和已经消失的社交网络上发布的帖子，还有其他各种各样的东西，真的能让现今的聊天机器人变得写作能力一样好吗？这些内容的创造者能从中获得的唯一好处，也许只是他们在使用语言方面为培养聊天机器人做出了一些贡献。

以上就是聊天机器人正在消化互联网，而互联网希望拿到回报的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/546675.html

chatgpt 人工智能语言模型

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

保护电脑安全：详细步骤教你如何为电脑设置密码

上一篇 2025年11月9日 18:02:45

联想z360驱动下载安装详情说明

下一篇 2025年11月9日 18:02:50

用户投稿

人工智能如何为 C 语言代码提供安全增强功能？

人工智能通过提供以下功能来提升 c 代码安全性：静态分析：识别潜在安全漏洞（例如缓冲区溢出）；动态分析：监控代码执行并检测异常行为；模糊测试：生成随机输入以测试代码的异常行为；自动化修复：建议修复措施或自动生成补丁程序。人工智能赋能 C 代码：提升安全性人工智能 (AI) 在 C 代码安全方面发…

程序猿
2026年5月10日
1000
用户投稿

ChromaDB向量嵌入的有效持久化策略

本文详细介绍了如何利用langchain中chromadb的`persist_directory`功能，高效地持久化存储向量嵌入。通过将生成的嵌入数据保存到本地磁盘，可以有效避免重复计算，显著提升工作流程效率。教程将涵盖持久化chromadb实例的创建与后续加载的完整过程。在处理大规模文本数据并生…

程序猿
2026年5月10日
0000
用户投稿

DeAgentAI(AIA)币是什么？值得投资吗？DeAgentAI上线指南、价格预测及路线图介绍

目录 DeAgentAI (AIA) 上市：关键细节和交易时间表关键上市信息DeAgentAI（AIA）价格预测：上市后DeAgentAI (AIA) 是什么：解释DeAgentAI (AIA) 为何脱颖而出？DeAgentAI (AIA) 生态系统：其运作方式认识 DeAgentAI (AIA) …

程序猿
2026年5月10日
0000
用户投稿

C++ 框架如何支持人工智能模型的持续改进和维护？

C++ 框架助力持续改进和维护 AI 模型简介训练和部署 AI 模型是一项持续的过程，需要不断改进和维护。C++ 框架提供了强大的工具和特性，以支持这些活动。持续改进立即学习“C++免费学习笔记（深入）”；数据收集和特征工程 C++ 框架如 TensorFlow 和 PyTorch 提…

程序猿
2026年5月10日
0000
用户投稿

C++框架在人工智能领域的应用

c++++ 框架在 ai 领域应用广泛，提供速度、效率和灵活性的优势。流行的 ai c++ 框架包括 tensorflow、pytorch、caffe2、mxnet 和 theano。这些框架用于开发图像分类、自然语言处理和机器学习等应用程序。 C++ 框架在人工智能领域的应用 C++ 以其速度、效…

程序猿
2026年5月10日
0000
用户投稿

人工智能助力 C 代码集成和 DevOps实践

通过将人工智能 (ai) 集成到 c 代码集成和 devops 实践中，可以提高效率和质量：代码审查： ai 工具可以分析代码并识别潜在问题，评估质量指标，例如可读性、可维护性和安全风险。（实战案例：codescene）测试自动化： ai 算法可以生成测试用例并执行测试，提高测试覆盖率。（实战案例：…

程序猿
2026年5月10日
0000
用户投稿

Holoworld AI(HOLO)是什么币？怎么买？未来能涨到多少

Holoworld AI（HOLO）是AI驱动虚拟社交平台的原生代币，用于生态内功能与激励。用户可通过中心化平台（如用USDT交易）或去中心化平台获取HOLO，需注意合约地址准确性与网络手续费。其市场表现受项目团队、技术进展、代币经济模型、市场环境及社区活跃度等多重因素影响，且所有数字资产交易均伴随…

程序猿
2026年5月10日
2000
用户投稿

如何运用人工智能提升 C 代码可维护性？

如何运用人工智能提升 C 代码可维护性在 C 编程中，可维护性是至关重要的，它可以确保代码易于理解、修改和调试。人工智能 (AI) 可以成为提升 C 代码可维护性的强大工具。 1. 代码生成和重构 AI 可以用于生成新的代码或重构现有代码，使其更易于维护。例如，代码生成器可以根据指定规范自动生成代…

程序猿
2026年5月10日
0000
用户投稿

开发基于ChatGPT的自动写诗系统：Python让诗意流淌

开发基于ChatGPT的自动写诗系统：Python让诗意流淌自古以来，诗歌一直是人类表达感情和思想的一种重要方式。然而，写好一首优美的诗歌并不是每个人都能做到的，特别是对于那些没有诗歌创作经验的人来说。但是，现代技术的发展让自动写诗成为可能，人们可以利用计算机和人工智能技术来自动生成诗歌。在这篇文…

程序猿
2026年5月10日
0000
用户投稿

Solana基金会主席 Lily 上海演讲：万物皆可代币化

在 2025 年 10 月 23 日至 27 日举行的第 11 届全球区块链峰会期间，Solana 基金会主席 Lily Liu 在上海区块链国际周上发表了主题演讲，阐述了“万物皆可代币化”的愿景，并分享了 Solana 在全球金融基础设施建设方面的战略布局。 Solana 的愿景：万物皆可代币化 …

程序猿
2026年5月10日
0000
用户投稿

html搜索框如何跳转_实现HTML搜索框跳转搜索结果【结果】

HTML搜索框跳转失败多因表单action或参数错误，可通过五种方法解决：一、百度用form提交至https://www.baidu.com/s?q=关键词；二、Google类似，action为https://www.google.com/search；三、JavaScript拼接必应URL并loc…

程序猿
2025年12月23日
4000
用户投稿

从OpenAI API JSON响应中高效提取生成文本内容

本教程详细指导开发者如何从openai api返回的json格式响应中准确提取生成的文本。通过利用`json.parse()`方法解析响应字符串，并访问`choices[0].text`属性，可以安全、高效地获取核心文本内容，从而避免直接字符串操作的潜在问题，确保api数据处理的健壮性。 OpenA…

程序猿
2025年12月23日
5000
用户投稿

ai做html怎么运行_AI生成html运行步骤【教程】

答案是使用AI生成HTML代码后，将其保存为.html文件并用浏览器打开即可运行。具体步骤为：1. 在AI工具中输入需求生成HTML代码；2. 将代码复制到文本编辑器并另存为index.html，编码选UTF-8，类型选“所有文件”；3. 双击该文件用浏览器打开，若无法正常显示需检查文件后缀、编码及…

程序猿
2025年12月23日
0000
用户投稿

HTML语义化未来趋势有哪些_HTML语义化在Web发展中的趋势与展望

HTML语义化正朝着智能、高效、包容发展，深度融合结构化数据与ARIA属性，提升机器理解；2. 组件化趋势推动可复用语义结构普及，Web Components实现自定义语义标签；3. 语义化助力性能优化与可访问性，支持懒加载与内容优先级划分；4. AI工具将自动生成语义化代码并辅助检测，降低实践门槛…

程序猿
2025年12月23日
3000
用户投稿

HTML数据如何实现数据智能 HTML数据智能分析的技术架构

实现HTML数据智能分析需构建包含采集、解析、存储、分析与可视化的闭环系统，首先通过爬虫技术获取网页数据并进行清洗标准化，接着利用DOM树分析与NLP技术提取结构化信息，随后将数据存入合适数据库或数据仓库并建立元数据管理机制，进而应用AI模型开展分类、情感分析、趋势预测与知识图谱构建等智能分析，最终…

程序猿
2025年12月23日
1000
用户投稿

HTML5 section怎么用_HTML5内容分区标签应用场景说明

在HTML5中，标签用于定义文档中具有明确主题的独立内容区块，需包含标题以体现其结构性与语义性，常用于文章章节、产品模块等场景，区别于无语义的和可独立分发的。在HTML5中，section 标签用于定义文档中的一个独立内容区块。它不是简单的容器，而是有语义的结构化标签，表示文档中一个主题性的分区，…

程序猿
2025年12月23日
0000
用户投稿

htm算法前景如何_分析HTM算法应用前景

HTM算法在实时异常检测、预测性维护等时序数据场景中具备应用价值，其无需大量标注数据的特性适合工业监控、网络安防等领域；但受限于生态薄弱、性能不及主流模型及工程实现难度，短期内难以成为主流，更可能作为边缘计算或AI系统补充技术，在特定专业领域持续发展。 HTM（Hierarchical Tempor…

程序猿
2025年12月23日
0000
用户投稿

HTML结构化数据怎么添加_Schema标记添加教程

Schema标记通过结构化数据帮助搜索引擎理解网页内容，提升搜索结果展示效果，如添加星级评分、价格等富文本信息。使用JSON-LD或Microdata格式将符合Schema.org标准的类型（如Article、Product）嵌入HTML中，可增强SEO，需通过Google Rich Results…

程序猿
2025年12月22日
0000
用户投稿

如何实现自定义提示

掌握自定义提示需构建迭代工作流，通过明确目标、设定角色、提供上下文、结构化输出、示例引导、迭代优化、负面提示和链式思考，实现AI输出的精准控制与高效协同。实现自定义提示，核心在于理解与AI模型交互的本质，并将其从“提问”升级为“引导”。它不是简单的抛出问题，而是通过精心设计的语言结构、上下文信息、…

程序猿
2025年12月22日
9000
用户投稿

p5.js中类方法声明的语法解析与常见错误修复指南

本文旨在解决从java processing迁移至p5.js时常见的语法错误，特别是类内部方法声明不当引发的问题。我们将深入探讨javascript中全局函数与类方法声明的语法差异，提供清晰的示例代码，并指导如何识别和修复“unexpected token”及“declaration or stat…

程序猿
2025年12月21日
6000