mlp
-
谷歌揭秘大模型不会数 r 原因:嵌入维度是关键,不止分词器问题
大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。 谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的 tokenizer 所致,而是没有足够的空间来存储用于计数的向量。 数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5 也无法幸免。…
-
ChatGPT 架构师,刚发布了最新研究成果
距第二篇研究仅过去三天,Thinking Machines 再度发布第三篇技术博客。 本研究由 OpenAI 联合创始人之一 John Schulman 担纲核心作者,公司创始人、前 OpenAI CTO Mira Murati 也第一时间转发支持。 新研究聚焦 LoRA 参数高效微调方法,题为《L…