Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布

昨天,Meta 开源专攻代码生成的基础模型 Code Llama,可免费用于研究以及商用目的。
Code Llama 系列模型有三个参数版本,参数量分别为 7B、13B 和 34B。并且支持多种编程语言,包括 Python、C++、Java、PHP、Typescript (Javascript)、C# 和 Bash。
Meta 提供的 Code Llama 版本包括:

代码llama,基础代码模型;

代码羊- Python,Python 微调版本;

代码Llama-Instruct,自然语言指令微调版

就其效果来说,Code Llama 的不同版本在 HumanEval 和 MBPP 数据集上的一次生成通过率(pass@1)都超越 GPT-3.5。
此外,Code Llama 的「Unnatural」34B 版本在 HumanEval 数据集上的 pass@1 接近了 GPT-4(62.2% vs 67.0%)。不过 Meta 没有发布这个版本,但通过一小部分高质量编码数据的训练实现了明显的效果改进。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布图源:https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

一天刚过,就有研究者向 GPT-4 发起了挑战。他们来自 Phind(一个组织,旨在构造一款为开发人员而生的AI 搜索引擎),该研究用微调的 Code Llama-34B 在 HumanEval 评估中击败了 GPT-4
Phind 联合创始人 Michael Royzen 表示:「这只是一个早期实验,旨在重现(并超越)Meta 论文中的「Unnatural Code Llama」结果。将来,我们将拥有不同 CodeLlama 模型的专家组合,我认为这些模型在现实世界的工作流程中将具有竞争力。」

Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布

两个模型均已开源:

Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布

研究者在 Huggingface 上发布了这两个模型,大家可以前去查看。
Phind-CodeLlama-34B-v1:https://huggingface.co/Phind/Phind-CodeLlama-34B-v1
Phind-CodeLlama-34B-Python-v1:https://huggingface.co/Phind/Phind-CodeLlama-34B-Python-v1
接下来我们看看这项研究是如何实现的。
微调 Code Llama-34B 击败 GPT-4
我们先看结果。这项研究用 Phind 内部数据集对 Code Llama-34B 和 Code Llama-34B-Python 进行了微调,分别得到两个模型 Phind-CodeLlama-34B-v1 以及 Phind-CodeLlama-34B-Python-v1。
新得到的两个模型在 HumanEval 上分别实现了 67.6% 和 69.5% pass@1。
作为比较,CodeLlama-34B pass@1 为 48.8%;CodeLlama-34B-Python pass@1 为 53.7%。
而 GPT-4 在 HumanEval 上 pass@1 为 67%(OpenAI 在今年 3 月份发布的「GPT-4 Technical Report」中公布的数据)。

Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布图源:https://ai.meta.com/blog/code-llama-large-language-model-coding/

LLaMA LLaMA

Meta公司发布的下一代开源大型语言模型

LLaMA 176 查看详情 LLaMA


Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布图源:https://cdn.openai.com/papers/gpt-4.pdf

谈到微调,自然少不了数据集,该研究在包含约 8 万个高质量编程问题和解决方案的专有数据集上对 Code Llama-34B 和 Code Llama-34B-Python 进行了微调。
该数据集没有采用代码补全示例,而是采用指令 – 答案对,这与 HumanEval 数据结构不同。之后该研究对 Phind 模型进行了两个 epoch 的训练,总共有约 16 万个示例。研究者表示,训练中没有使用 LoRA 技术,而是采用了本地微调。
此外,该研究还采用了 DeepSpeed ZeRO 3 和 Flash Attention 2 技术,他们在 32 个 A100-80GB GPU 上、耗时三个小时,训练完这些模型,序列长度为 4096 个 token。
此外,该研究还将 OpenAI 的去污染(decontamination)方法应用于数据集,使模型结果更加有效。
众所周知,即便是非常强大的 GPT-4,也会面临数据污染的困境,通俗一点的讲就是训练好的模型可能已经接受评估数据的训练。
这个问题对 LLM 非常棘手,举例来说,在评估一个模型性能的过程中,为了进行科学可信的评估,研究者必须检查用于评估的问题是否在模型的训练数据中。如果是的话,模型就可以记住这些问题,在评估模型时,显然会在这些特定问题上表现更好。
这就像一个人在考试之前就已经知道了考试问题。
为了解决这个问题,OpenAI 在公开的 GPT-4 技术文档《 GPT-4 Technical Report 》中披露了有关 GPT-4 是如何评估数据污染的。他们公开了量化和评估这种数据污染的策略。
具体而言,OpenAI 使用子串匹配来测量评估数据集和预训练数据之间的交叉污染。评估和训练数据都是通过删除所有空格和符号,只保留字符(包括数字)来处理的。
对于每个评估示例,OpenAI 随机选择三个 50 个字符的子字符串(如果少于 50 个字符,则使用整个示例)。如果三个采样的评估子字符串中的任何一个是处理后的训练样例的子字符串,则确定匹配。
这将产生一个受污染示例的列表,OpenAI 丢弃这些并重新运行以获得未受污染的分数。但这种过滤方法有一些局限性,子串匹配可能导致假阴性(如果评估和训练数据之间有微小差异)以及假阳性。因而,OpenAI 只使用评估示例中的部分信息,只利用问题、上下文或等效数据,而忽略答案、回应或等效数据。在某些情况下,多项选择选项也被排除在外。这些排除可能导致假阳性增加。 
关于这部分内容,感兴趣的读者可以参考论文了解更多。
论文地址:https://cdn.openai.com/papers/gpt-4.pdf
不过,Phind 在对标 GPT-4 时使用的 HumanEval 分数存在一些争议。有人说,GPT-4 的最新测评分数已经达到了 85%。但 Phind 回复说,得出这个分数的相关研究并没有进行污染方面的研究,无法确定 GPT-4 在接受新一轮测试时是否看到过 HumanEval 的测试数据。再考虑到最近一些有关「GPT-4 变笨」的研究,所以用原始技术报告中的数据更为稳妥。

Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布

不过,考虑到大模型评测的复杂性,这些测评结果能否反映模型的真实能力依然是一个有争议的问题。大家可以下载模型后自行体验。

重写内容如下:参考链接:

需要进行改写的内容是:https://benjaminmarie.com/the-decontaminated-evaluation-of-gpt-4/

需要重写的内容是:https://www.phind.com/blog/code-llama-beats-gpt4

以上就是Code Llama代码能力飙升,微调版HumanEval得分超越GPT-4,一天发布的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/505232.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 22:11:14
下一篇 2025年11月8日 22:16:37

相关推荐

  • HiDream-I1— 智象未来开源的文生图模型

    hidream-i1:一款强大的开源图像生成模型 HiDream-I1是由HiDream.ai团队开发的17亿参数开源图像生成模型,采用MIT许可证,在图像质量和对提示词的理解方面表现卓越。它支持多种风格,包括写实、卡通和艺术风格,广泛应用于艺术创作、商业设计、科研教育以及娱乐媒体等领域。 HiDr…

    2025年12月5日
    000
  • AI动画制作工具排行榜 能免费使用的10款AI动画制作工具推荐

    以下是10款免费的AI动画制作工具:1.智影:腾讯推出的在线视频制作平台,提供日漫风格,限时免费。2.Artflow:AI动画创建工具,Story Studio具有视频漫画生成功能,支持12种画面视觉风格。3.Flow Studio:通过文字生成视频片段,支持多种画面风格,新用户有200积分免费生成…

    2025年12月4日 科技
    000
  • Linux实现自动挂载autofs的方法详解

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 目录 实现自动挂载-autofs autofs工具简单使用 autofs配置详细说明 自动挂载资源有两种格式 优化Linux系统性能 安装Tuned 选择调整配置文件 检查系统推荐的调整配置文件…

    2025年12月4日
    000
  • BlenderMCP— 基于 MCP 集成的 3D 建模工具

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ MCP Market MCP Servers集合平台,帮你找到最好的MCP服务器 67 查看详情 BlenderMCP是什么 blendermcp是一种将blender与claude ai通过模…

    2025年12月4日 科技
    000
  • VSCode怎么出现波浪线_VSCode错误提示和语法检查功能说明教程

    VSCode中的波浪线是语言服务、Linter和编译器协同提供的实时反馈,红色表示错误(如语法错误),黄色表示警告(如未使用变量),绿色或下划线表示建议(如代码优化),通过悬停查看提示、检查配置文件(如tsconfig.json、.eslintrc)、使用“问题”面板(Ctrl+Shift+M)定位…

    2025年12月4日
    100
  • RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理

    清华和上交的最新论文中,上演了一场“学术打假”的戏码。文中研究者们对当前“纯 rl 有利于提升模型推理能力”的主流观点提出了相反的意见。 通过一系列实验,他们证明引入强化学习的模型在某些任务中的表现,竟然不如未使用强化学习的模型。 论文批判性地探讨了 RLVR 在提升 LLM 推理能力方面的作用,尤…

    2025年12月3日 科技
    100
  • 豆包 AI 官网入口 豆包 AI 使用在线入口

    豆包 AI 的官网入口是 https://www.doubao.com/,使用攻略包括:1. 注册与登录:通过官网注册或第三方账号登录;2. 选择使用方式:网页版、PC 客户端、手机 APP、浏览器插件;3. 基础操作:直接对话、上传图片、使用智能体、保存对话;4. 提问技巧:问题具体化、提供背景信…

    2025年12月2日
    100
  • 豆包 AI 网页端入口 豆包 AI 网页端在线网址

    豆包 AI 网页端入口是 https://www.doubao.com/chat/。其特色功能包括:1. 智能问答,提供各领域的准确答案;2. 内容生成与辅助创作,支持写作和图像生成;3. 搜索与浏览辅助,优化搜索结果并提供网页摘要;4. 对话管理与分享,支持对话分组和分享;5. 本地图片编辑,提供…

    2025年12月2日
    000
  • 豆包 AI 手机客户端入口 豆包 AI 客户端在线入口

    安卓用户可通过应用商店下载或官网下载获取豆包AI客户端,iOS用户通过App Store获取。安装后,打开应用并注册登录即可使用。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 入口地址: 1、豆包ai手机客户端入口☜☜☜☜☜点击保存 2、…

    2025年12月2日
    000
  • DeepSeek如何用函数调用自动化任务_DeepSeek用函数调用自动化任务【任务自动化】

    答案:通过配置API环境、定义函数描述、处理调用请求、回传执行结果及支持多轮协作,可利用DeepSeek函数调用实现任务自动化。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 如果您希望利用DeepSeek的函数调用能力实现任务自动化,可以…

    2025年12月2日 科技
    000
  • GitHubCopilot怎样用函数目标提示加速_GitHubCopilot用函数目标提示加速【目标提示】

    使用注释和类型标注可精准引导代码生成:先通过详细注释说明函数目标,再结合类型声明提升补全准确性,最后利用JSDoc等结构化注释触发包含参数校验与异常处理的完整逻辑建议。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 如果您在编写代码时希望利…

    2025年12月2日 科技
    000
  • DeepSeek如何用代码解释器调试脚本_DeepSeek用代码解释器调试脚本【调试辅助】

    首先启用调试模式并设置断点,逐步执行代码以观察变量状态;通过变量面板和打印日志检查数据传递是否正确;利用分段执行与注释隔离法缩小错误范围;最后结合try-except捕获异常,定位具体错误类型与位置。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型…

    2025年12月2日 科技
    000
  • 亚马逊发布 Bedrock,推出多项新功能,助力企业利用生成式AI技术

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 亚马逊网络服务公司近日在生态系统中推出了五款全新的生成式人工智能产品,这些产品将帮助企业客户利用自己的数据建立人工智能应用程序,并提供更好的安全性和模型的可及性。 这些新服务的包括全面推出的Am…

    2025年12月2日
    000
  • 语言模型有重大缺陷,知识推演竟然是老大难

    惊人发现:大模型在知识推演上存在严重缺陷。 灵活运用知识是智慧的关键。人脑可以快速处理知识,如快速回答 “《静夜思》中有几个月字”。那么,大模型是否能进行类似操作?已知大模型可以通过思维链(Chain of Thought / CoT),先默写《静夜思》,再根据默写内容回答问题,但这会使生成的文字冗…

    2025年12月2日 科技
    000
  • 深度学习巨头DeepMind在ImageNet数据集上取得突破性进展,为机器人研究带来新的里程碑

    机器人技术为什么远远落后于自然语言处理(nlp)、视觉和其他人工智能领域?除了其他困难外,数据短缺是主要原因。为了解决这个问题,谷歌 deepmind 联合其他机构推出了开放式 x-embodiment 数据集,并成功训练出了更强大的 rt-x 模型 在大模型不断取得突破的 2023,把大模型当做大…

    2025年12月2日 科技
    000
  • 最多400万token上下文、推理提速22倍,StreamingLLM火了,已获GitHub 2.5K星

    如果你曾经与任何一款对话式 AI 机器人交流过,你一定会记得一些令人感到非常沮丧的时刻。比如,你在前一天的对话中提到的重要事项,被 AI 完全忘记了…… 这是因为当前的多数 LLM 只能记住有限的上下文,就像为考试而临时抱佛脚的学生,稍加盘问就会「露出马脚」。 如果AI助手能够在聊天中根据上下文参考…

    2025年12月2日 科技
    000
  • 实战部署:动态时序网络用于端到端检测和跟踪

    本文经自动驾驶之心公众号授权转载,转载请联系出处。 相信除了少数自研芯片的大厂,绝大多数自动驾驶公司都会使用英伟达NVIDIA芯片,那就离不开TensorRT. TensorRT是在NVIDIA各种GPU硬件平台下运行的一个C++推理框架。我们利用Pytorch、TF或者其他框架训练好的模型,可以首…

    2025年12月2日 科技
    000
  • PyTorch+昇腾 共促AI生态创新发展

    2023年10月5日(北京时间),pyt%ignore_a_1%rch社区正式发布了2.1版本。经过pytorch社区与昇腾的持续合作和共同努力,pytorch 2.1版本已经同步支持昇腾npu。这意味着开发者可以直接在pytorch 2.1上进行基于昇腾的模型开发。未来,通过持续的社区技术贡献,昇…

    2025年12月2日 科技
    000
  • 选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试

    openai最近宣布推出他们的最新一代嵌入模型embedding v3,他们声称这是性能最出色的嵌入模型,具备更高的多语言性能。这一批模型被划分为两种类型:规模较小的text-embeddings-3-small和更为强大、体积较大的text-embeddings-3-large。 ☞☞☞AI 智能…

    2025年12月2日 科技
    000
  • 真快!几分钟就把视频语音识别为文本了,不到10行代码

    ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜ 大家好,我是风筝 两年前,将音视频文件转换为文字内容的需求难以实现,但是如今只需几分钟便可轻松解决。 据说一些公司为了获取训练数据,已经对抖音、快手等短视频平台上的视频进行了全面爬取,然后将视频…

    2025年12月2日 科技
    000

发表回复

登录后才能评论
关注微信