程序员危！传OpenAI全球招外包大军，手把手训练ChatGPT取代码农

程序猿 • 2025年11月9日 21:00:15 • 用户投稿 • 阅读 0

码农真的危了！

最近有消息称，OpenAI已经在悄悄地训练ChatGPT，让它学习人类的思考过程，从而真正掌握软件工程，彻底代替「初级码农」。

OpenAI招外包大军，教AI学人类思考

会编程的AI，几家硅谷大厂都在做。

DeepMind的AlphaCode，据说「吊打72%人类程序员」，但尚未开放；传闻中谷歌的「神秘项目」Pitchfork，也还在酝酿中；而微软的GitHub Copilot主要是一个代码补全工具。

要说完全代替人类码农，它们还不够格。

但如果真的让ChatGPT学会了用人类思维去编程，这些友商/自家的产品恐怕要被吊打。

而从种种迹象看来，OpenAI似乎正在下一盘大棋。

根据Semafor的报道，在过去的六个月里，OpenAI已经从拉美和东欧等地区招募了大约1000名外包人员，来训练他们的AI码代码。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

这个新闻中，有两个「华点」。

首先，为什么地点选在拉美和东欧？这个咱们都明白，现在硅谷的泡沫戳破了，各家互联网大厂都在绞尽脑汁「降本增效」，有的靠裁员，有的就去其他国家找廉价劳动力。

第二个「华点」是，这些外包人员中，很多人并不是计算机专业的毕业生，也不具备高级的编程技能。他们的作用是，编写OpenAI期待实现的「自动化」基本代码。

具体来说，其中的60%从事「数据标注」工作——创建大量的图像、音频片段等信息，用来训练人工智能工具或自动驾驶汽车。

另外的40%则是实打实的程序员，他们正在为OpenAI的模型「手搓」数据，从而让AI学习软件工程任务。

此前，OpenAI一直是用从GitHub上抓取的代码训练其模型。

而这次，OpenAI想建立的数据集中，不仅有代码，还包括背后用自然语言编写的人类解释。

论文地址：https://arxiv.org/abs/2107.03374

对此，Semafor特地采访了一位南美的开发者，而他曾无偿为OpenAI完成了5小时的编码测试。

在这个测试中，他被要求处理两个任务。

首先，他会得到一个编程问题，OpenAI要求他用书面的英语解释自己将如何处理这个问题。

然后，他需要提供一个解决方案。

如果他发现了一个bug，OpenAI就会要求他详细说明问题是什么，应该如何纠正，而不是简单地修复。

「他们很可能是想用一种非常特殊的训练数据来投喂这个模型，在这种情况下，就需要展示人类是如何一步步思考的。」这位开发者说。

此前的ChatGPT，写的代码就被揪出过不少问题。

原因在于，ChatGPT没有任何标记了对错的内部记录，它其实是一个统计模型。ChatGPT的答案，本质上就是从构成GPT-3的互联网数据语料库中收集的概率结果。

当时OpenAI也说，ChatGPT最合适的定位，应该是编码辅助工具。

但想象一下，如果OpenAI真的教会了ChatGPT「像人类一样一步一步思考」，那它完全可以代替一些需要死记硬背的写代码工作，后果就是，一些「初级」码农被彻底淘汰。

现在，硅谷的高管们正在设想这样的产品，让几乎没有编程经验的人士向AI描述自己的创意和愿景，然后就能构建出任何自己想要的东西，无论是一个网站，还是一个游戏。

几天前，特斯拉的前人工智能主管Andrej Karpathy刚刚在推特上说：「最热门的新编程语言是英语」。

用ChatGPT来debug，效果拔群

这可能并不是一个玩笑，比如当红炸子鸡ChatGPT，就很有潜力。

最近，一项来自美因茨大学和伦敦大学学院的研究发现，ChatGPT不仅可以出色地修复bug，而且开发者还能通过对话来显著提高成功率。

研究人员表示，ChatGPT的debug性能与常见的深度学习方法CoCoNut和Codex相差无几，并且明显优于标准的自动程序修复方法（APR）。

论文地址：https://arxiv.org/abs/2301.08653

用ChatGPT来解决代码问题并不新鲜，但与人类对话的独特能力，使它比其他方法和模型更具优势。

为了评估ChatGPT的debug性能，研究人员使用QuixBugs基准的40个纯Python问题对其进行了测试，然后手动检查建议的解决方案是否正确。

由于ChatGPT给出的答案存在一定的随机性，因此研究人员针对每个问题都会单独测试4次。

与其他自动程序修复的基准不同，QuixBugs包含了相对较小的问题（代码行数少），而这非常适合在对话系统中使用。

在测试过程中，研究人员删除了所有的注释，并询问ChatGPT这段代码是否有bug以及如何修复它。

比如，图1中就是一个关于BITCOUNT问题的例子。其中，第1-2行是向ChatGPT提出的需求；从第4行开始是错误的代码片段。

对于这个例子，我们希望ChatGPT的回答能解决第7行的错误，即nˆ= n – 1应该被替换为n &= n – 1。做为回应，ChatGPT要么给出一段修复完的代码，要么给出一个描述告诉我们应该如何修改。

结果显示，ChatGPT解决了40个bug中的19个，与CoCoNut（19）和Codex（21）相当，但标准的APR方法只解决了其中的7个问题。

当然，因为ChatGPT和Codex都是来自于同一个语言模型系列，所以解决问题的数量差不多也就不足为奇了。

此外，如果我们仔细观察结果还可以发现，ChatGPT并不是每次都能解决基准测试中的bug。仅在BUCKETSORT和FLATTEN这两个问题上，四次都发现了bug，而其他的通常只能成功1-2次。

也就是说，用户在实际使用时，可能需要尝试数次才能获得正确的结果。

不过，ChatGPT有一个强大的优势：我们可以在对话中与系统互动，更详细地对问题进行说明，从而获得正确的答案。

实际测试结果，也确实如此。

经过与模型更进一步的对话，研究人员成功地将ChatGPT的正确率刷新到了77.5%，也就是修复了40个错误中的31个，远超SOTA。

至少，目前看来，这件事是完全有可能的：开发人员将不再需要编写样板代码。

相反，他们可以专注于复杂的应用程序架构或网络安全等领域。

也就是说，虽然ChatGPT可能会完成某些编程工作，例如编写通用函数或样板代码，但它不会完全取代程序员。因为程序员的工作需要的不仅仅是写代码。

成为一名程序员需要技巧——能够构建程序、遵循逻辑并生成比各部分总和更宏大的东西。

码农：我自己「杀」自己

显然，ChatGPT不是码农们做出的第一个「自我迭代」的产品。

咱们来排一排，那些会写代码的AI。

谷歌的Pitchfork

去年11月，坊间传闻，谷歌正在酝酿一个秘密项目，这个产品会通过机器学习训练代码，自己编自己，自己修复bug，还能自己更新。

据知情人士透露，这个项目起初是由Alphabet的登月部门——X部门开发的，代号为Pitchfork，去年夏天被转移到了谷歌实验室。

根据内部资料，Pitchfork的作用是「教代码自行编写、自行重写」。

它能够学习不同的编程风格，并且根据这些风格写出代码。

一名谷歌员工表示，开发Pitchfork的初衷是希望建立一个工具，将谷歌的Python代码库更新到新版本。

AlphaCode：吊打72%程序员

2022年2月，DeepMind推出了「AlphaCode」系统，可以使用人工智能生成代码。

根据DeepMind的说法，AlphaCode可以与人类匹敌。

DeepMind使用编程竞赛平台Codeforces上托管的10个现有竞赛来测试AlphaCode，它的总体排名位于前 54.3%，也就是说，它击败了46%的参赛者。

DeepMind声称，在使用编程竞赛平台Codeforces进行检测时，AlphaCode解决了100万个样本中34.2%的问题。

另外在过去6个月参加过比赛的用户中，AlphaCode的数据排到了前28%，可以说「吊打72%人类程序员」！

当时，DeepMind就指出，虽然AlphaCode目前只适用于具有竞争性编程领域，但显然，它未来的能力绝不会止步于此。

它为创造某些工具打开了大门，而这些工具将使编程变得更容易被人们接受，并且有朝一日可以完全实现自动化。

Copilot：代码补全神器

再往前，在2021年，GitHub与OpenAI共同推出了一款AI编程神器——GitHub Copilot。

输入代码时，Copilot会自动提示程序中接下来可能出现的代码片段，就像一个经过训练用Python或JavaScript说话的自动补全机器人。

Copilot能够填充必要的代码块，只要它们不是特别复杂或者特别有创造性，这对于相当于手工劳动的编程，可太有用了。

2022年6月22日，Copilot正式面向C端上线，定价10美元/月或100美元/年，并向学生用户和流行开源项目的维护者免费提供。

现在，成千上万的开发者都在用Copilot。在十几种最流行的语言编写代码中——有高达40%是依靠它来生成的。

GitHub预测，开发人员将在五年内使用Copilot编写多达80%的代码。

微软首席技术官Kevin Scott还表示：「我们确信：GitHub Copilot可以应用到数千种不同类型的工作中。」

不过，因为涉嫌侵权，在发布不到5个月后，Copilot已经被愤怒的程序员一举告上法庭，索赔90亿美元。

而学会「软件工程思维」的ChatGPT，能吊打它们吗？按OpenAI的速度，恐怕我们不用等太久。

参考资料：

https://www.semafor.com/article/01/27/2023/openai-has-hired-an-army-of-contractors-to-make-basic-coding-obsolete

豆包AI编程

豆包推出的AI编程助手

483 查看详情

https://www.zdnet.com/article/chatgpt-can-write-code-now-researchers-say-its-good-at-fixing-bugs-too/

以上就是程序员危！传OpenAI全球招外包大军，手把手训练ChatGPT取代码农的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/553019.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

PHP数据库连接教程：新手入门到数据库管理大师

上一篇 2025年11月9日 21:00:12

怎样调整Linux Compton分辨率

下一篇 2025年11月9日 21:00:17

好文分享

从OpenAI API响应中高效提取文本内容

本文详细指导如何从openai gpt系列模型的api json响应中准确提取所需的文本内容。我们将重点介绍如何利用json解析器处理api返回的结构化数据，避免直接字符串操作的常见错误，并通过具体代码示例演示如何访问choices数组中的生成文本，并探讨处理多条生成结果的方法，确保开发者能高效、稳…

程序猿
2025年12月23日
0000
好文分享

ai做html怎么运行_AI生成html运行步骤【教程】

答案是使用AI生成HTML代码后，将其保存为.html文件并用浏览器打开即可运行。具体步骤为：1. 在AI工具中输入需求生成HTML代码；2. 将代码复制到文本编辑器并另存为index.html，编码选UTF-8，类型选“所有文件”；3. 双击该文件用浏览器打开，若无法正常显示需检查文件后缀、编码及…

程序猿
2025年12月23日
0000
好文分享

从OpenAI API响应中高效提取生成文本

本文旨在指导开发者如何正确解析OpenAI API返回的JSON格式响应，并从中提取所需的生成文本内容。通过详细的步骤和代码示例，我们将展示如何使用`JSON.parse()`方法处理API响应，并精确访问`choices[0].text`属性以获取核心文本输出，同时探讨处理多条生成结果的方法及相关…

程序猿
2025年12月23日
0000
好文分享

p5.js中类方法声明的语法解析与常见错误修复指南

本文旨在解决从java processing迁移至p5.js时常见的语法错误，特别是类内部方法声明不当引发的问题。我们将深入探讨javascript中全局函数与类方法声明的语法差异，提供清晰的示例代码，并指导如何识别和修复“unexpected token”及“declaration or stat…

程序猿
2025年12月21日
0000
好文分享

p5.js中类方法声明的语法修正与迁移指南

本文深入探讨了将Processing/Java代码转换为p5.js时，因JavaScript类方法声明语法差异而引发的常见错误。我们将重点解析`Unexpected token`和`Declaration or statement expected`等错误信息，明确全局函数与类成员方法在JavaSc…

程序猿
2025年12月21日
0000
好文分享

TypeScript泛型函数中复杂对象结构类型推断的精确控制

本文探讨了在typescript中处理复杂嵌套对象结构时，如何为泛型函数实现精确的类型推断。通过一个具体的汽车品牌和车型数据场景，我们分析了`object.values`等操作可能导致类型信息丢失的问题。核心解决方案是利用映射类型（mapped types）重构数据结构，以显式地建立泛型键与对应值之…

程序猿
2025年12月21日
0000
好文分享

解决OpenAI微调模型”模型不存在”错误：API端点选择指南

当使用openai微调模型时，若遇到“the model `xxxxx` does not exist”错误，通常是由于选择了错误的api端点。本文将详细阐述如何根据微调模型的类型（gpt-3.5 turbo或旧版gpt-3模型如babbage/davinci）正确选择chat completion…

程序猿
2025年12月20日
0000
好文分享

解决OpenAI微调模型“模型不存在”错误的指南

在使用openai微调模型时，若遇到“the model `xxxxx` does not exist”错误，通常是由于api端点选择不当。本教程将详细阐述如何根据微调模型的基础类型（gpt-3或gpt-3.5 turbo）选择正确的api端点（completions api或chat comple…

程序猿
2025年12月20日
0000
好文分享

OpenAI微调模型调用错误：“模型不存在”的解决方案与API选择指南

当您在使用%ignore_a_1%微调模型时遇到“the model `xxxxx` does not exist”错误，这通常是由于选择了错误的api端点。解决此问题的关键在于识别您的微调模型所基于的原始模型类型：若基于gpt-3.5 turbo，应使用chat completions api；若…

程序猿
2025年12月20日
1000
好文分享

LangChain HNSWLib 向量存储机制详解：内存与本地持久化

本文深入探讨LangChain中HNSWLib向量存储的内部机制。HNSWLib作为内存型向量存储，其数据实际存储在项目运行的宿主服务器内存中，而非LangChain官方服务器。同时，它支持将向量数据持久化到本地文件系统，确保数据的安全与可恢复性。在构建基于大型语言模型（LLM）的应用时，向量存储…

程序猿
2025年12月20日
1000
好文分享

LangChain HNSWLib 向量存储机制与数据安全深度解析

hnswlib作为langchain的内存型向量存储，其数据实际存储在运行项目的服务器内存中，而非langchain官方服务器。这意味着数据安全性与您的部署环境直接相关。通过持久化操作，hnswlib数据可保存为本地文件，确保数据可控性。理解hnswlib的存储原理对于数据安全至关重要，它强调了用户…

程序猿
2025年12月20日
1000
好文分享

LangChain中HNSWLib向量存储机制解析与数据持久化

本文深入探讨了langchain中hnswlib向量存储的内部机制，重点阐明其“内存存储”的实际含义——数据存储于项目运行的宿主服务器内存中，而非langchain的服务器。文章将详细介绍hnswlib数据的持久化方法，并通过示例代码指导用户如何安全地管理和保存向量数据，确保数据安全与应用稳定性。 …

程序猿
2025年12月20日
0000
好文分享

LangChain HNSWLib 向量存储机制与数据持久化指南

本文详细解析langchain中hnswlib向量存储的工作原理，明确其作为内存存储的特性，指出数据实际存储在项目部署的服务器上，而非langchain官方服务器。同时，文章将指导如何通过save_local()方法将内存中的向量数据持久化到本地文件，确保数据安全与可靠性，并探讨在实际应用中的注意事…

程序猿
2025年12月20日
1000
好文分享

理解LangChain向量存储：HNSWLib的本地数据持久化机制

本文深入探讨langchain中hnswlib向量存储的内部机制与数据安全考量。我们将澄清“in-memory”存储的含义，解释hnswlib数据如何存储于项目宿主服务器的内存中，而非langchain官方服务器。同时，文章将演示如何通过持久化操作将这些内存数据保存至本地文件系统，确保数据可控性和安…

程序猿
2025年12月20日
1000
好文分享

Discord.js V14机器人DM消息处理指南：解决私信不响应问题

本文旨在解决discord.js v14机器人无法检测和响应私信（dm）的常见问题。核心在于，未缓存的dm频道需要通过在客户端配置中添加partials.channel来显式处理。文章将详细阐述dm消息处理机制，提供正确的意图（intents）和部分（partials）配置示例，并包含一个完整的dm…

程序猿
2025年12月20日
0000
好文分享

解决Discord.js V14机器人无法检测私聊消息的问题

在discord.js v14中，机器人无法检测私聊（dm）消息是一个常见问题，即使启用了`directmessages`意图。本文将深入探讨此问题的原因，并提供一个完整的解决方案。核心在于理解并正确配置`partials.channel`和`partials.message`，以确保机器人能够处理…

程序猿
2025年12月20日
0000
好文分享

Discord.js V14：解决机器人无法在私信中检测消息的问题

本文旨在解决Discord.js V14版本中，机器人无法正确检测并响应私信消息的问题。通过配置必要的 Gateway Intent Bits 和 Partials，确保机器人能够缓存并处理私信频道和消息，从而实现私信交互功能。本文提供详细的配置步骤和代码示例，帮助开发者快速解决此问题。在使用 D…

程序猿
2025年12月20日
0000
好文分享

Discord.js机器人私信交互：确保DM消息正常处理

Discord.js v14机器人未能正确处理私信（DM）消息，即使已配置相关意图。核心问题在于DM频道可能未被缓存，导致机器人无法接收到这些消息。本文将详细讲解如何通过在Discord客户端配置中添加`Partials.Channel`来解决此问题，确保机器人能够可靠地监听并响应用户在私信中的交互…

程序猿
2025年12月20日
0000
好文分享

解决 ChatGPT 扩展选择器失效问题：一个实战教程

本文旨在帮助开发者解决 ChatGPT 网页更新导致扩展选择器失效的问题。通过分析问题原因，提供利用开发者工具查找新选择器的方法，并展示了使用 getElementsByClassName() 替代 querySelector() 的解决方案，以确保扩展功能在 ChatGPT 最新版本中正常运行。 …

程序猿
2025年12月20日
1000
好文分享

ChatGPT 扩展失效：定位新版选择器并修复

本文旨在帮助开发者解决因 ChatGPT 网页更新导致扩展失效的问题。通过分析失效原因，提供利用开发者工具定位新版选择器的实用方法，并给出示例代码，帮助开发者快速修复扩展，恢复其功能。当 ChatGPT 网页更新时，依赖于特定 CSS 选择器的扩展程序可能会失效。这通常是因为网页结构的改变导致原有…

程序猿
2025年12月20日
0000