最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

51c大模型~合集99

业界 admin 4浏览 0评论

我自己的原文哦~    https://blog.51cto/whaosoft/12973297

#GLM-Zero-Preview 

考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用

2024 年的最后一天,智谱 GLM 模型家族迎来了一位新成员——GLM-Zero 的初代版本 GLM-Zero-Preview,主打深度思考与推理。

从年初到年末,在接连推出新一代基座大模型、多模态模型、视频生成模型以及语音模型之后,智谱补上了推理模型这块拼图。

据介绍,GLM-Zero-Preview 是 GLM 家族中专注于增强 AI 推理能力的模型,擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。

以数学能力为例,智谱让 GLM-Zero-Preview 做了一整套 2025 年考研数学一,最后得分为 126,达到了优秀研究生水平。从下图可以看到,模型给出了详细的解题步骤。

再看下代码能力,GLM-Zero-Preview 熟练使用多种编程语言,可以帮助开发者快速编写代码,如下使用 HTML 语言独立编写了一个第一人称射击游戏。另外它还可以调试代码,快速识别错误并给出修复建议。

目前,GLM-Zero-Preview 已经上线使用。用户可以在智谱清言网页端选择「Zero 推理模型」智能体,上传文字或图片就能免费体验。另外,GLM-Zero-Preview 的 API 也在智谱开放平台同步上线以供开发者调用。

  • 智谱清言:http://chatglm/
  • 智谱开放平台:https://bigmodel/
  • 2000万token免费体验资源包领取地址:https://zhipuaishengchan.datasink.sensorsdata/t/7K

一手实测

智谱深度推理大摸底

先来看官方给出的指标。作为智谱首个基于扩展强化学习技术训练的推理模型,GLM-Zero-Preview 在多个基准上与 OpenAI o1-preview 互有胜负,其中在数学基准测试 AIME 2024、MATH500 以及代码生成基准测试 LiveCodeBench 中实现小幅超越。

在技术实现上,由于强化学习训练量的增加,GLM-Zero-Preview 的深度推理能力得到稳步提升。同时随着模型在推理阶段可以思考的 token 数变多以及计算量增加,GLM-Zero-Preview 的输出结果质量也稳步提升。

得益于以上两点,GLM-Zero-Preview 表现出了类人的思考决策过程,初步具备了「推理过程中自主决策、问题拆解、尝试多种方式解决问题」等能力。

是骡子是马,溜后才知道。GLM-Zero-Preview 在真实世界任务中的表现如何?进行了一波全方位的测试。

我们搜罗了各种类型的推理问题,看看 GLM-Zero-Preview 能不能 hold 住这些容易绕晕人的中文逻辑陷阱题,以及需要数学、物理等专业学科知识与思辨能力的题目。

比大小不会翻车、有干扰项也无妨

大模型以前经常翻车的小数点后比大小问题,GLM-Zero-Preview 轻松搞定。我们看到了该模型的深度思考链路,它的显著特点是在理解问题及解题关键的基础上,从不同的角度分析、验证并给出答案。整个过程看下来,GLM-Zero-Preview 有点「PUA」自己,生怕会出错,多次检查并肯定自己的答案无误。

对于一些设置了干扰项的推理问题,GLM-Zero-Preview 也丝毫不会受到影响,很快理清思路,排除干扰项。

不落入语言陷阱、拿捏复杂推理

中文语境下有很多陷阱,比如歧义性、语境依赖、隐含信息、文化背景等,应对起来要求推理大模型「吃透」语言特点,并能够结合上下文信息、语义知识和常识推理,明辨其中的弯弯绕。

面对这类中文陷阱题目,GLM-Zero-Preview 给出的深度思考过程显示,它从不同的视角考虑和深度推理,排除一切的不可能之后,确认最合理的解释和答案。

另外,面对复杂的中文逻辑推理问题,尤其涉及多个角色人物时,GLM-Zero-Preview 不会被搞混。通过深度思考进行情况罗列与假设分析,并辅以缜密的条件验证,整个过程像抽茧剥丝的判案一样。

GLM-Zero-Preview 给出了逻辑清晰的解题步骤。

常识推理无压力、时间感知能力强

如今的大模型在「喂」给足够多的高质量数据之后,像人一样掌握了丰富的常识,做起此类推理题来没有压力。

在时间推理中,大模型需要理解时间顺序、事件发生的时序关系,要有清晰的预测和推断能力。比如下面的时间推理场景,想必很多人都会被绕晕,而 GLM-Zero-Preview 做到了对多个角色参与的复杂时间关系的准确判断。

数学小能手上线

大模型的数学能力可以为人们在很多数学任务中提供有力支持,比如代数、微积分、概率统计。GLM-Zero-Preview 具备了更强的归纳与演绎能力,比如下面这道序列求解题,它在深度思考过程中观察规律、找出规律、验证规律。

面对经典的青蛙爬井问题,GLM-Zero-Preview 不仅给出了正确的解题思路和答案,还总结了一波经验心得。

再考它一道出自 2024 高考数学北京卷的条件判断题,显然难不倒 GLM-Zero-Preview,它通过等价代换的方式得出了正确答案。

hold 弱智吧

在面对一些弱智吧问题时,GLM-Zero-Preview 一板一眼地进行理论层面以及实际可行性的分析,并展开论证,令人忍俊不禁。

视觉推理多面手

目前,GLM-Zero-Preview 支持上传 png、jpg、jpeg、webp 等多种格式的图片,并能够应对很多类型的推理任务,比如解带有电路图的高考物理题(2024 北京卷):

以下为完整的解题步骤:

还能理解梗图:

推理模型大 PK

谁更胜一筹

接下来,让 GLM-Zero-Preview 与 o1、DeepSeek-R1-Lite 预览版、QwQ-32B-Preview 等竞品模型来了一场对决。

先考它们一道数学组合题,看看哪个模型逻辑性更强。

首先是 GLM-Zero-Preview:

然后是 o1:

接着是 DeepSeek-R1-Lite 预览版:

最后是 QwQ-32B-Preview:

比较下来,我们可以发现,o1 的推理过程最简单,缺少验证的环节。其他三个模型在给出解题思路之后都对步骤和计算进行了确认,其中 DeepSeek-R1-Lite 预览版、QwQ-32B-Preview 的验证相对简单一些,而 GLM-Zero-Preview 不仅解题过程更清晰完整,还展示了自我反思、自我怀疑、自我肯定等拟人化的思维模式。

再来第二轮较量,这次是一道中文陷阱推理题,看看哪个模型头脑更清楚。

首先是 o1 与 QwQ-32B-Preview,思考过程很短:

GLM-Zero-Preview、DeepSeek-R1-Lite 预览版的解释更透彻,充分考虑了条件限制与现实世界的可能性。不过,DeepSeek-R1-Lite 预览版的一些解释又略显重复,不如 GLM-Zero-Preview 明了。

思考过程与思维链路上的优势,足以让 GLM-Zero-Preview 不输其他一众推理大模型。

结语

在对 GLM-Zero-Preview 体验一番后,我们的最大感受是:它的深度思考过程让逻辑推理更加完整、连贯,准确度和说服力更强。从「审题、分析、多方式证明」到「自我怀疑、验证、再验证」到「最后确认」,环环相扣。

当然,智谱表示,目前 GLM-Zero-Preview 与 o3 还有不少的差距,未来会通过强化学习技术的持续优化迭代,让它成为更聪明的推理者。正式版 GLM-Zero 将很快推出,到时候深度思考能力会从数理逻辑扩展到更通用的技术,保证更专精的同时全能性也更强。

回看这一整年,智谱动作不断,GLM 家族更加壮大,包括基座模型、多模态模型、视频生成模型、语音模型、推理模型以及智能体方面火出圈的 AutoGLM、GLM-PC,如今这家大模型独角兽的产品矩阵在完整度层面称得上业界领先。

持续出新的背后是智谱对 AGI 终极目标的追求。智谱形成了一套从 L1 到 L5 阶段的 AGI 路线图,在 AI 分级上注入自己的能力进化思考。在一步步迈向 AGI 的过程中,从低到高在各个 AI 层级做能力填充,夯实语言、多模态、逻辑推理、工具使用等基础能力。GLM-Zero-Preview 代表智谱迈出了 L4 阶段的关键一步,大模型开始内省,并具备自我学习、自我反思、自我改进能力。

现在,市面上的推理大模型已经有了一些,甚至 OpenAI 发布了更强的 o3 系列模型。智谱在年末最后一天这个时间节点推出了自己的 GLM-Zero,可见对于所有以 AGI 为目标的玩家来说,2025 年模型推理能力无疑是被寄予厚望的一年。

#Anthropic总结智能体年度经验

最成功的≠最复杂的

高端的食材,往往需要最朴素的烹饪方式。

AI 发展到后半场「大雾散去」,如何让大模型的智力落实成执行力,智能体似乎成了业界的共同答案。

从元宝到混元,各类智能体平台如雨后春笋般涌现。上个月,智谱发布 AutoGLM 的发布会上,智能体好像突破了次元壁,一句指令,就拿着手机在现场发了一个总计两万块钱的红包。

我们正在见证一个重要的转折点:智能体正在将 AI 的能力从「能说会道」转变为「能做会干」。

作为最强大模型厂商的有力竞争者,Anthropic 推出的智能体功能也着实惊艳了我们一把。Computer Use 甚至已经可以做到跟 Claude 说一声想做一个 90 年代风格的个人网站,剩下的只需要坐在屏幕前看网页自己做自己就好了。

在过去一年中,Anthropic 与数十个行业团队合作,对大模型智能体进行了系统研究。但他们发现,那些表现最出色的 AI 智能体,并非建立在庞大复杂的框架或专业库之上,而是采用了简单、可组合的模式。

Anthropic 将一年的实践经验总结成了这篇博客,在不改变原意的基础上进行了编译。

  • 原文链接:https://www.anthropic/research/building-effective-agents

什么是智能体?

「智能体」有多种定义。有人眼中的智能体是一个「全能管家」,能够独立思考、自主决策,灵活运用各种工具来完成复杂任务;也有人把它理解为一个「规矩员工」,按部就班地执行预设的工作流。

Anthropic 将两者统称为智能系统,但对工作流和智能体做出了区分:

  • 工作流是通过预定代码路径编排 LLM 和工具的系统
  • 智能体则是由 LLM 动态指导自身流程和工具使用的系统,能自主控制任务的完成方式

什么时候该用智能体?

在开发 AI 应用时,Anthropic 的研究团队给出了一个建议:能简单就不要复杂。有时候,根本不需要建造一个智能系统 —— 因为智能系统虽然功能强大,但往往会让响应变慢,成本也会更高。开发者需要权衡这种取舍。

当确实需要更复杂的系统时,工作流适合需要可预测和一致性的明确任务,而智能体则更适合需要灵活性和模型驱动决策的大规模场景。

不过对很多应用来说,配合检索和上下文示例,拿着一个好的 prompt 去问大模型通常就足够了。

何时使用框架以及如何使用

目前,有多个可以帮助开发者更容易地搭建 AI 智能体的框架,包括:

  • LangChain 的 LangGraph
  • 亚马逊 Bedrock 的 AI Agent 框架
  • 拖放式的大模型工作流构建工具 Rivet
  • 用于构建和测试复杂工作流的 GUI 工具 Vellum

这些框架确实简化了 AI 开发流程。但要注意的是,它们会在代码中增加额外的抽象层,这不仅让底层的运行逻辑变得不够透明,也增加了调试的难度。而且,开发者可能会在一些简单的场景中,不自觉地引入过度复杂的解决方案。

Anthropic 建议开发者从直接使用大模型的 API 开始:许多模式只需几行代码就能实现。如果选择使用框架,一定要理解其底层原理。经验表明,对框架底层机制的理解不足,往往是导致开发问题的主要原因。

具体示例请参考 Anthropic 的 cookbook。

  • 手册链接:https://github/anthropics/anthropic-cookbook/tree/main/patterns/agents

构建模块、工作流和智能体

基础构建模块:增强版 LLM

智能系统的基本构建模块是加持检索、记忆等功能,增强过的 LLM。目前,Anthropic 的模型可以主动使用这些能力 —— 生成自己的搜索查询、选择合适的工具,并决定保留哪些信息。

增强过的大模型。

Anthropic 建议做这些拓展功能的过程中大家可以重点关注两点:

  • 根据具体的应用场景来定制功能
  • 确保为模型提供简单且文档完备的接口

除此之外,Anthropic 最近发布的模型上下文协议提供了一种新的实现方式。这个协议让开发者可以通过简洁的客户端代码,轻松地将 AI 模型与持续扩展的第三方工具生态系统进行集成。

工作流:提示链

提示链是一种将复杂任务拆解为多个步骤的方法,每个步骤代表调用一次大模型,后一步将基于前一步的结果继续处理。开发者可以在任意中间环节加入程序化的检查点(比如图中的「gate」),以确保流程按预期推进。

提示链工作流。

什么时候更适合用提示链工作流呢?当一个复杂任务能够被清晰地拆分成一系列固定的子任务时,提示链就是最佳选择。这种方法让每个模型只需专注完成一个简单任务,虽然整体响应时间可能会略长,但准确率会得到显著提升。

典型应用案例:

  • 先生成营销文案,再将其翻译成其他语言
  • 先写文档大纲并进行合规性检查,再基于大纲撰写完整文档

工作流:智能分流

分流技术能够判断输入任务的类型,并将其分配给相应的专门模块。这种设计让每个模块都能针对特定任务进行优化,避免了不同类型任务之间的相互干扰。

如果不采用这种分发机制,仅提升针对某类问题的效果,往往会影响到其他类型问题的处理质量。

智能分流的工作流。

什么时候适合用这种方法呢?当任务有明显的分类特征时,就很比较适合。AI 系统可以通过大语言模型或传统算法,准确识别任务类型并做出分流。

典型应用案例:

  • 在客服系统中,可以将一般咨询、退款申请、技术支持等不同类型的问题,分别引导到相应的处理流程。
  • 将简单 / 常见问题分配到 Claude 3.5 Haiku 等较小模型,将困难 / 罕见问题分配到 Claude 3.5 Sonnet 等更强大的模型,以优化成本和速度。

工作流:并行

大语言模型可以同时处理任务,并以编程方式聚合输出。这种并行化的工作流主要有两个特点:

  • 任务分段:将任务拆分为可并行运行的独立子任务,每个子任务可以同时进行处理,最后再整合结果。
  • 投票机制:对同一任务进行多次运行,获得多个不同版本的输出,从而选择最优结果或综合多个答案。

并行工作流。

当子任务可以并行执行以提高速度,或需要多角度尝试以获得更高置信度的结果时,并行化的方法非常有效。对于涉及多个因素的复杂任务,让每次调用专注处理特定方面,会获得更好的效果。

典型应用案例:

任务分段:

  • 安全防护:一个模型负责处理用户请求,另一个专门负责内容审核,这比单个模型同时处理两项任务效果更好。
  • 性能评估:让不同的模型分别评估系统的各个性能指标,实现全面的自动化评估。

投票机制:

  • 代码安全检查:同时运行多个检测模型,共同发现和标记潜在的代码漏洞。
  • 内容审核:通过多个模型从不同角度评估内容安全性,通过调整投票阈值来平衡误判率。

工作流:领导 — 执行者

在这种工作流中,一个中央大语言模型会动态分解任务,分派给执行者模型,并汇总最终结果。

领导 — 执行者工作流。

这种工作流最适合那些难以提前确定具体步骤的复杂任务。比如在编程中,一个功能需求可能涉及多个文件的修改,而具体要改哪些文件、如何修改,往往要根据实际情况来决定。

虽然这种方式看起来和并行任务很像,但这种工作流更灵活 —— 任务的拆分不是固定的,而是由 AI 系统根据具体情况动态决定的。

典型应用案例:

  • 需要对多个文件进行复杂修改的编程应用。
  • 需要从多个来源收集和分析相关信息的搜索任务。

工作流:评估 — 优化

在评估 — 优化工作流中,一个 LLM 调用生成响应,而另一个提供评估和反馈,形成循环。

评估 - 优化工作流。

何时使用这个工作流:当存在明确的评估标准,并且通过迭代细化可以带来显著价值时,这个工作流特别有效。

有两个显著特点:首先,当人类明确表达他们的反馈时,LLM 的响应可以明显改进;其次,LLM 能够提供这样的反馈。这类似于人类作家在创作一篇精心打磨的文档时所经历的反复修改的写作过程。

典型应用案例:

  • 文学翻译:翻译模型可能在第一次翻译时遗漏一些细微的语言差异,而评估模型能够发现这些问题并提供有价值的修改建议。
  • 复杂搜索:某些信息收集任务需要多轮搜索和分析才能获得全面的结果,评估模型可以判断是否需要继续深入搜索。

智能体

智能体在生产中随着 LLM 在关键能力上的成熟而出现,这些能力包括理解复杂输入、进行推理和规划、可靠地使用工具以及从错误中恢复。

智能体的工作始于人类用户的命令,或与人类用户的互动讨论。一旦任务明确,智能体就会独立规划和操作,中途可能需要向人类索取更多信息或让人类做判断。

在执行过程的每一步,从环境中获得「真实情况」(例如工具调用结果或代码执行)以评估其进度至关重要。然后,智能体可以在检查点或遇到阻塞时暂停以获取人类反馈。任务通常在完成后终止,但也通常包含停止条件(例如最大迭代次数)以保持控制。

智能体能够处理复杂的任务,但其实现通常很简单。它们通常只是循环中根据环境反馈来使用工具的大型语言模型。因此,设计工具集及其文档清晰、周到至关重要。作者在附录 2 中扩展了工具开发的最佳实践。

自动智能体。

何时使用智能体:智能体可以用于开放性问题,这种问题往往难以或不可能预测所需的步骤数量,并且你不能硬编码固定路径。LLM 可能会操作多个回合,你必须对其决策能力有一定程度的信任。智能体的自主性使它们成为在受信任环境中 scaling 任务的理想选择。

智能体的自主性意味着成本更高,并且可能存在错误累积的风险。作者建议在沙盒环境中进行广泛的测试,并设置适当的防护措施。

智能体的用途示例:  

  • 一个代码智能体,用于解决涉及根据任务描述编辑多个文件的 SWE-bench 任务
  • Anthropic 的「Computer use」功能,其中 Claude 使用计算机完成任务。

代码智能体的 High-level flow。

组合、定制这些模式

这些构建块不是规定性的。开发者可以塑造和组合这些构建块以适应不同用例。成功的关键是衡量性能并迭代实现。注意:只有在能够明显改善结果的情况下,你才应该考虑增加复杂性。

总结

在 LLM 领域取得成功并不在于构建最复杂的系统,而是在于为你的需求构建正确的系统。从简单的提示开始,用全面的评估优化它们,同时只有当更简单的解决方案无法实现时才添加多步骤智能体系统。

在部署智能体时,需要尝试遵循三个核心原则:

  • 在智能体设计中保持简单;
  • 要优先确保智能体的透明度,方法是清楚地展示它计划中的每一步;
  • 通过全面的工具文档和测试精心打造你的智能体 - 计算机界面(ACI)。

更多详情,请参考原博客。

#AI教父、诺奖得主Hinton支持起诉OpenAI

阻止「转营利」

上周五,OpenAI 发布了计划拆分为营利机构 + 非营利机构的公告,此举立即引发了 AI 社区的巨大争议。

正在与 OpenAI 打官司的首富马斯克此前已在 11 月提起了联邦诉讼,寻求初步禁令以阻止 OpenAI 转型。这一行动目前获得了更多人的支持。甚至包括诺贝尔奖得主 Geoffrey Hinton。

Geoffrey Hinton 因为对人工神经网络的贡献被认为是「AI 教父」,他目前在加拿大多伦多大学任教,曾在 2018 年获图灵奖,2024 年刚刚获得了诺贝尔物理学奖。

本周一,青年倡导组织 Encode 提交了一份法庭之友陈述,支持伊隆・马斯克正在进行的诉讼,以阻止 OpenAI 的公司转型。

Encode 是一家非营利组织,曾参与发起加州 SB 1047 人工智能安全立法。该组织提供的陈述支持伊隆・马斯克提出的禁令,旨在阻止 OpenAI 向营利性公司转型。

在提交给美国加利福尼亚州北区地方法院的一份拟议陈述中,Encode 的律师表示,OpenAI 向营利性公司转型将「破坏」该公司「以安全和有益于公众的方式开发和部署…… 变革性技术」的使命。

「OpenAI 及其 CEO 山姆・奥特曼声称正在开发改变社会的技术,这些说法应该得到认真对待,」简报中写道。「如果世界真的正处于通用人工智能(AGI)新时代的风口浪尖,那么公众将更有意让这项技术由一家受法律约束、优先考虑安全和公共利益的公共慈善机构控制,而不是由一家专注于为少数特权投资者创造财务回报的组织控制。」

Encode 创始人兼总裁 Sneha Revanur 在一份声明中指责 OpenAI「将人工智能的利润内部化,却将后果外部化给全人类」,并表示「司法必须介入,以确保人工智能发展符合公众利益。」

Encode 的简报获得了人工智能先驱、2024 年诺贝尔奖获得者 Geoffrey Hinton、加州大学伯克利分校计算机科学教授兼人类兼容人工智能中心主任 Stuart Russell 等人的支持。

Hinton 在一份新闻稿中表示:「OpenAI 成立时明确以安全为重点,并在其章程中做出了各种与安全相关的承诺…… 它从其非营利组织的地位获得了包括税收等多方面的好处。当它变得不方便时允许它撕毁所有这些,会向生态系统中的其他参与者发出非常糟糕的信息。」

OpenAI 于 2015 年作为非营利研究实验室成立。但随着其实验进程的加快,公司变得越来越资本密集,它创建了当前的结构,从风险投资公司、包括微软等科技巨头那里获得了外部投资。

2019 年,OpenAI 从一个实验室变成了一家初创公司,具有混合结构:由非营利组织控制的营利性机构,为投资者和员工提供「上限利润」份额。

但在上周五,OpenAI 发布了拆分为营利机构 + 非营利机构的公告,表示计划开始将其现有的营利性公司转变为特拉华州公共利益公司 (PBC),并发行普通股,PBC 的公共利益将是 OpenAI 的使命。

OpenAI 的非营利组织部分将保留,但将放弃控制权以换取 PBC 的股份。

马斯克是这个原始非营利实体的早期捐助者,他于 11 月提起诉讼,要求颁布禁令,停止这项长期以来一直在进行的拟议变更。他指责 OpenAI 放弃了其最初的慈善使命,即让所有人都能获得人工智能研究成果,并通过反竞争手段剥夺竞争对手的资本 —— 包括他的人工智能初创公司 xAI。

OpenAI 称马斯克的抱怨「毫无根据」,只是「吃不到葡萄说葡萄酸」而已。

Encode 的律师表示,OpenAI 计划将其运营控制权移交给 PBC,这将「将一个受法律约束的,以保证发展先进、安全 AI 的组织转变为一个『平衡』考虑对任何公共利益和股东利益的阻止。」

例如,Encode 的律师在简报中指出,OpenAI 的非营利组织已承诺停止与任何「价值一致、具有安全意识的项目」进行竞争,但 OpenAI 作为一个营利性组织情况就会不一样了。

简报还指出,一旦公司重组完成,非营利组织 OpenAI 的董事会将无法再根据安全需要取消投资者的股权。

OpenAI 最近持续出现高级人才外流,人们离职的部分原因是担心该公司以牺牲安全为代价优先考虑商业产品。前雇员 Miles Brundage 是一名长期政策研究员,于 10 月份离开了 OpenAI,他在 X 上的一系列帖子中表示,他担心 OpenAI 的非营利组织会成为一个「副业」,PBC 公司的部分则会作为「正常公司」运营,潜在的问题不会被解决。

Encode 认为,OpenAI 所宣扬的对人类的责任将消失,因为特拉华州法律明确规定,PBC 的董事对公众不承担任何责任。「一个以安全为中心、任务受限的非营利组织不惜任何代价将对如此具有变革性的事物的控制权交给一个对安全没有可执行承诺的营利性企业,这将损害公共利益。」

据悉,关于初步禁令的听证会定于 2025 年 1 月 14 日在美国地区法官 Yvonne Gonzalez Rogers 处进行。

参考内容:

​​https://encodeai/encode-backs-legal-challenge-to-openais-for-profit-switch/​​

​​https://www.courtlistener/docket/69013420/72/1/musk-v-altman/​​

​​https://techcrunch/2024/12/30/nonprofit-group-joins-elon-musks-effort-to-block-openais-for-profit-transition/​​

#ILLUME

理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化

多模态理解与生成一体化模型,致力于将视觉理解与生成能力融入同一框架,不仅推动了任务协同与泛化能力的突破,更重要的是,它代表着对类人智能(AGI)的一种深层探索。通过在单一模型中统一理解与生成,模型能够从语义层面真正 “洞察” 视觉、文本与世界本质之间的深层联系,从而在复杂场景中实现更加智能、灵活的交互与任务执行。

近期,华为诺亚方舟实验室提出了统一多模态大模型 ——ILLUME。这一模型以 LLM 为核心,采用 “连续图像输入 + 离散图像输出” 的架构,巧妙融合了多模态理解与生成的双重能力,并深度挖掘了统一框架下理解与生成能力协同增强的潜力,展示了对多模态任务的全新诠释。

  • 论文标题:ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance
  • 论文地址:https://arxiv/pdf/2412.06673

,时长01:04

总体来说,本文贡献如下:

1、ILLUME 在保持整体架构可扩展与可泛化的前提下,通过合理的视觉词表、训练策略与数据配比策略,成功以仅约 15M 的图文对数据用于图文对齐,实现了在视觉理解(包括自然图像和文档图表)、生成、编辑等多元任务上的出色表现,总体效果优于现有统一模型例如 Chameleon, Show-O 和 Janus,与专用单任务模型相媲美。

2、ILLUME 提出一种自提升式多模态对齐策略,通过让模型对自身生成的负样本进行内省式评估,统一模型在理解和生成两方面的能力可实现协同进化。

ILLUME:理解生成一体的多模态大模型

挑战一:如何高效训练一个统一多模态模型?

现有的统一多模态模型构建方案多集中于在 LLM 基础上拓展视觉词表,以支持视觉生成任务。这些模型通常需要大量的图文对数据来实现图文对齐训练。这种对海量数据的依赖,在一定程度上放缓了这一领域进一步探索与实践的进程。

与此不同的是,我们在 ILLUME 中仅使用约 15M 的图文对数据完成预训练,并在视觉理解(涵盖自然图像与文档图表)、生成与编辑等多类视觉文本任务上达到与专有模型相媲美的水平。这一成果并非仅体现于数据规模的减少,更重要的是在架构、训练策略、数据配比以及视觉词表表征方式上的关键设计,使模型能够更高效地进行图文对齐学习。这种方法为在更广泛和更深层的多模态语义理解与生成融合中奠定了基础。

关键设计 1:视觉词表的表征选择

传统基于 VQGAN 的视觉词表往往通过重建原始像素作为目标,但这种基于底层纹理的表征不利于与文本模态进行高层语义对齐。与此相反,我们采用语义特征重建的方式构造视觉词表,直接在高层语义空间中完成图文对齐的特征学习。实验表明,这一设计可显著加速 MLLM 的预训练过程。

在解码阶段,我们再利用 Diffusion 模型将语义特征还原为高保真像素空间,从而实现高达 32 倍的压缩率。通过这一流程,模型在输入端沿用连续视觉编码器保障精细视觉理解能力,并在输出端通过语义视觉词表完成离散化处理,为视觉生成能力的无缝融合奠定基础。

关键设计 2:三阶段训练策略和数据配比

我们采用 “三阶段” 训练策略,以分层递进的方式逐步强化模型的多模态理解与生成能力:

阶段一:引入图像重建任务,为视觉词表扩展后的新参数进行快速初始化,并对齐连续输入与离散输出的模式;

阶段二:进行图文对齐预训练,进一步强化模型在语义层面将图像与文本联结的能力;

阶段三:对高质量的理解、生成、混合数据进行微调,使模型最终胜任多类型的视觉文本任务(包括理解、生成与编辑)。

挑战二:统一多模态模型的判别能力和生成能力能否相互促进?

当我们构建一个统一模型后,我们最关心的是:联合训练视觉理解和生成任务应该如何促进呢?

自提升多模态对齐方案

针对这一点,我们提出了以自我评估过程为桥梁的自提升多模态对齐策略。通过让模型对自身生成的负样本进行内省式评估,模型在理解和生成两方面的能力可实现协同进化:

  • 生成促进理解:模型以自我评估的方式分析自己产生的负样本,这种内省过程使模型能够查明并解决其自身弱点,从而更准确地理解图像。
  • 理解促进生成:模型可以利用其判别能力来评估其自生成的图像是否与文本一致,并基于此分析进行修正,从而确保模型在推理时更加谨慎和准确,避免在生成图像时出现错误。

我们的自提升多模态对齐方法分为三个步骤:

  • Step 1: 语料自生成。采样训练子集,推理模型生成图像。
  • Step 2: 生成评估数据。从物体、数量、颜色和空间关系多个维度评估图像和文本的一致性,评估数据包括评估得分和相应的分析。
  • Step 3: 多模态对齐。将评估数据重新格式化后加入阶段三训练,使模型在理解与生成层面同时得到强化。

实验结果证明,自提升多模态对齐方法能在理解和生成任务上同时为模型赋能,促使统一多模态模型向更高层次的智能形态稳步迈进。

实验结果

多模态理解任务

在 12 个常用的多模态理解开源综合评测集与文档场景评测集上,ILLUME 均展现出卓越性能,与现有统一多模态模型相比达到 SOTA 水准,尤其在文档理解任务上表现尤为突出。同时,相较多模态理解模型(如 LLaVA-NeXT),ILLUME 的理解能力总体保持相当甚至更优的水平。

文图生成任务

ILLUME 在 3 个文生图评测集上取得与现有生成模型和统一多模态模型相当的表现。

编辑任务

ILLUME 能处理物体删除,风格迁移,图像补充等各种编辑任务。

#DeepSeek V3

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet对比实测来了

国产之光DeepSeek V3竞技场排名新鲜出炉

优于o1-mini(总榜第7),获最强开源模型认证(也是唯一闯入前10的开源模型)。

单项上,在困难提示、编程、数学,写作等方面全面超越Claude 3.5 Sonnet

不过,如果设置了风格控制,Claude 3.5 Sonnet在理解困难提示方面还是要略胜一筹。

(风格控制:剔除模型通过长篇且格式良好的回复来迎合人类偏好)

由此也引发两边支持者激烈的争论:

DeepSeek V3在实际编码中真的比Claude 3.5 Sonnet强吗?

带着同款好奇,量子位&网友实测这就奉上。

实测DeepSeek V3和Sonnet 3.5

经典脑筋急转弯

第一关先来个开胃小菜,一道经典脑筋急转弯考查模型理解能力。

小明的妈妈有三个孩子,老大叫一明,老二叫二明,老三叫什么?

DeepSeek V3回答正确。它先明确了题目要求,然后逻辑满分找出了正确答案(甚至还有自我验证)。

相比之下,Claude 3.5 Sonnet既正确又简洁。

当然,考虑到脑筋急转弯这种东西也受东西文化差异影响,我们再来一道。

why are people tired on April Fool’s Day? (为什么人们在愚人节很累?)

答案一般是“Because they have just had a long March”。因为他们刚度过了一个很长的三月(行军),March除了三月还有行军的意思,这里考察对双关的理解。

好嘛,DeepSeek V3果然歇菜了。从部分回答来看,它完全误解了题目意图,一本正经地回答是因为人们感到焦虑、熬夜之类。

而Claude 3.5 Sonnet稳稳守住了主场,也是轻轻松松get了双关。

显而易见,Claude 3.5 Sonnet在第一关小试牛刀中全胜,而DeepSeek V3可能更偏向中文语境。

弱智吧逻辑陷阱+反转诅咒

接下来难度升级,利用弱智吧经典陷阱来考查模型逻辑能力。

台上一分钟,台下十年功,为何不在台上练功?

很好,DeepSeek V3又掉线了,精准踩进人类陷阱。(正能量满满可还行)

不过别担心,你的难兄难弟Claude 3.5 Sonnet来陪你了(doge)。

看来面对充满心机的弱智吧问题,二位选手都不在状态。

Okk,不继续在这上面为难二位了,下面来一道正儿八经的“反转诅咒”(即知道A是B却不知道B是A)问题。

而两位选手都一次性答对了Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的儿子是谁。

考研数学真题

下面进入数学能力测试。比如这道考研数学真题,涉及的知识点是曲面积分、高斯定理等内容:

直接上传截图,DeepSeek V3还是详细按步骤解答,而且也做对了。

而Claude 3.5 Sonnet虽然看起来方法更简单,但最终答案错误,功亏一篑。

编码能力

重头戏来了,最后来考查一下模型编码能力。

刚好有位𝕏网友拿DeepSeek V3和Claude Sonnet 3.5进行了测试,在Scroll Hub中分别用它俩创建网站

,时长03:14

博主在测试之后,认为DeepSeek V3完全胜出

小结一下,从有限测试来看,DeepSeek V3貌似确实能和Claude Sonnet 3.5打得有来有回。

满血版o1空降第一

BTW,随着DeepSeek V3竞技场排名一起变动的,还有OpenAI的o1模型。

估计是“双十二”期间正式上线的满血版o1,此次超越o1-preview 24分,空降总榜第一。

而且除了创意写作,各个单项都是第一。

所以,对于这几家,大家在使用过程中感受如何呢??

竞技场试玩:​​https://lmarena.ai/​​

参考链接:​​https://x/lmarena_ai/status/1873695386323566638​​​

#没有博士学位却开启了GPT时代

奥特曼盛赞Alec Radford,爱因斯坦级天才

《连线》曾在一篇报道中将 Alec Radford 在 OpenAI 扮演的角色,比作 Larry Page 发明 PageRank。PageRank 彻底革新了互联网搜索方式,Radford 的工作(特别是在 Transformer 和后来的 GPT 方面的研究)从根本上改变了 AI 语言模型的工作方式。

几天前,OpenAI 宣布组织结构调整,裂变成了一家营利性公司和一个非营利组织。与此同时,OpenAI CEO 山姆・奥特曼在 X 上用一个系列推文感谢了 OpenAI 的多位元老。

之后,他又单独发了一条推文对一位「爱因斯坦级别的天才」表达了特别感谢:Alec Radford。奥特曼还表示 Radford 是他一直以来最喜欢的人,并指出 AI 领域当今的进步很多都可以追溯到他的研究成果。上个月 20 号,传出了 Radford 即将离开 OpenAI 进行独立研究的消息,详情可参阅报道《刚刚,OpenAI 元老级研究员 Alec Radford 离职,他主导了 GPT-1、GPT-2 的研发》。

根据谷歌学术的数据,Alec Radford 论文的引用量现在已经超过了 19 万,并拥有多篇超过 1 万引用的重要论文。

事实上,早在一年多以前,就已经有人指出了这位当时还声名不显的研究者的巨大贡献:他是 GPT 原始论文等多篇奠基性研究成果的第一作者!而更让人惊讶的是,他并没有博士学位,也没有硕士学位;并且他的许多研究成果最早都是在 Jupyter Notebook 中完成的。

新年伊始,Alec Radford 的故事又再一次火遍了 AI 社交网络。人们在谈到他时莫不称颂。

下面我们就来简单了解下这位谦逊的天才的人生故事吧。

Alec Radford 的人生故事

Alec Radford 是自然语言处理和计算机视觉领域的研究者。曾在 OpenAI 担任机器学习开发者 / 研究员。在此之前,他曾担任 indico 公司的研究主管。

在 OpenAI 担任研究员期间,他参与撰写了多篇关于语言模型生成式预训练(GPT)的论文,并在 NeurIPS、ICLR、ICML 和 Nature 等著名会议和期刊上发表过许多论文。 

他也曾活跃在 X/Twitter 上,在那里分享他对人工智能各个领域的见解和观点。遗憾的是,2021 年 5 月之后他就再未在 X 上现身,最后一条推文是在回复 Anthropic 的研究者 Simon Kornblith,解释 GPT-1 层宽度设置为 768 的原因。

LinkedIn 显示,2011 年 - 2016 年, Alec Radford 就读于富兰克林・W・奥林工程学院,并获得学士学位。这是一所位于美国马萨诸塞州尼达姆(Needham)的私立工程学院,以其非常低的录取率和精英化教育著称。

该校的课程结构非常独特,其学术体系「欧林三角」包括科学和工程基础、创业以及文学。学校也仅提供四种学位:ME(机械工程)、ECE(电子与计算机工程)、CS(计算机科学)、BCE(生物医药工程)。

奥林工程学院非常重视实用教育,将知识和实际生活中的挑战和课题联系起来,鼓励学生追求自己的兴趣和激情。

本科时期,Alec Radford 就对机器学习充满热情,并与同学一起参加 Kaggle 比赛获得了成功,最终拿到风投 。2013 年,Alec Radford 和伙伴在宿舍创立了 indico ,为企业提供机器学习解决方案。

作为公司的研究主管,Alec Radford 主要从事识别、开发和改进有前景的图像和文本机器学习技术,并将其从研究阶段转化为更广泛的行业应用。

在那里,他进行了生成对抗网络(GAN)相关研究,并提出 DCGAN 以改善 GAN 的可训练性,这也是 GAN 领域的一个重要突破。 

由于波士顿地区在 AI 领域的影响力已被西海岸科技巨头超越,加上资源限制,2016 年,Radford 选择加入 OpenAI 。

他形容这份新工作「类似于加入研究生课程」,有一个开放、低压力的 AI 研究环境。

Radford 比较低调,不愿与媒体接触。他通过邮件回应了《连线》关于他在 OpenAI 早期工作的提问。他表示,最感兴趣的是让神经网络与人类进行清晰的对话。

他认为,当时的聊天机器人(从 ELIZA 到 Siri 和 Alexa)都存在局限性。他的目标是探索语言模型在各种任务、设置、领域和场景中的应用可能。

他的第一个实验是使用 20 亿条 Reddit 评论来训练语言模型,虽然失败,但 OpenAI 给予了足够的试错空间,也成为后续一系列革命性突破的开始,如大家熟知的初代 GPT,还主导了 GPT-2 的研发等。

这些工作为现代大语言模型奠定了重要基础,以致于《连线》在一篇报道中将 Alec Radford 在 OpenAI 扮演的角色,比作 Larry Page 发明 PageRank。有趣的是, PageRank 虽然是 Larry Page 在斯坦福攻读博士期间的产物,但他此后再也没有回去完成博士学位。

不仅如此,Alec Radford 还参与了 GPT-3 论文的撰写、以及 GPT-4 的预训练数据和架构研究工作。

2024 年年末,在 OpenAI 赚尽眼球的 12 天连发的最后一天前,Alec Radford 即将离开 OpenAI 的消息传出,但没有任何消息透露这是否与 OpenAI 的组织结构调整有关。

遗憾的是,对于他之后的职业计划,我们所知的仅仅是他将成为一位独立研究者。或许他将进入大学获得一个博士学位,也或许他会在沉寂一段时间之后带着新的震撼性研究成果问世。

不管怎样,Alec Radford 参与创造的未来正在到来。无论今年是否会如奥特曼曾经预测的那样实现 AGI,2025 年注定会是 AI 领域至关重要的一年。

#2024全年值得一读的论文都在这了

2024 年,是 AI 领域让人兴奋的一年。在这一年中,各大科技公司、机构发布了数不胜数的研究。

从年初的 Sora,到年尾 DeepSeek-V3,我们见证了 AI 一轮又一轮的轰炸,AI给我们带来了意想不到的惊喜。

在这一年中,AI 论文被源源不断的产出。对于刚刚过去的 2024 年,有哪些论文值得反复阅读?知名机器学习与 AI 研究者 Sebastian Raschka 整理了一份关于LLM 的阅读清单,清单详细介绍了每个月都有哪些重要论文产出。

原文链接:https://sebastianraschka/blog/2024/llm-research-papers-the-2024-list.html

一月论文

论文标题:Astraios: Parameter-Efficient Instruction Tuning Code Large Language Models

论文链接:https://arxiv/abs/2401.00788

论文标题:A Comprehensive Study of Knowledge Editing for Large Language Models

论文链接:https://arxiv/abs/2401.01286

论文标题:LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning

论文链接:https://arxiv/abs/2401.01325

论文标题:Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

论文链接:https://arxiv/abs/2401.01335

论文标题:LLaMA Beyond English: An Empirical Study on Language Capability Transfer

论文链接 https://arxiv/abs/2401.01055

论文标题:A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity

论文链接:https://arxiv/abs/2401.01967

论文标题:LLaMA Pro: Progressive LLaMA with Block Expansion

论文链接:https://arxiv/abs/2401.02415

论文标题:LLM Augmented LLMs: Expanding Capabilities through Composition

论文链接:https://arxiv/abs/2401.02412

论文标题: Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

论文链接: https://arxiv/abs/2401.02994

论文标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

论文链接:https://arxiv/abs/2401.02954

论文标题:Denoising Vision Transformers

论文链接:https://arxiv/abs/2401.02957

论文标题:Long Context Compression with Activation Beacon

论文链接:https://arxiv/abs/2401.03462

论文标题:Mixtral of Experts

论文链接: https://arxiv/abs/2401.04088

论文标题:MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

论文链接:https://arxiv/abs/2401.04081

论文标题:A Minimaximalist Approach to Reinforcement Learning from Human Feedback

论文链接:https://arxiv/abs/2401.04056

论文标题:RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation

论文链接: https://arxiv/abs/2401.04679

论文标题: Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

论文链接:https://arxiv/abs/2401.05566

论文标题:Transformers are Multi-State RNNs

论文链接:https://arxiv/abs/2401.06104

论文标题:A Closer Look at AUROC and AUPRC under Class Imbalance

论文链接:https://arxiv/abs/2401.06091

论文标题:An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models

论文链接:https://arxiv/abs/2401.06692

论文标题:Tuning Language Models by Proxy

论文链接: https://arxiv/abs/2401.08565

论文标题:Scalable Pre-training of Large Autoregressive Image Models

论文链接 https://arxiv/abs/2401.08541

论文标题:Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering

论文链接https://arxiv/abs/2401.08500

论文标题:RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture

论文链接: https://arxiv/abs/2401.08406

论文标题:ReFT: Reasoning with Reinforced Fine-Tuning

论文链接: https://arxiv/abs/2401.08967

论文标题:DiffusionGPT: LLM-Driven Text-to-Image Generation System

论文链接: https://arxiv/abs/2401.10061

论文标题:Self-Rewarding Language Models

论文链接:https://arxiv/abs/2401.10020

论文标题:VMamba: Visual State Space Model

论文链接: https://arxiv/abs/2401.10166

论文标题:Knowledge Fusion of Large Language Models

论文链接: https://arxiv/abs/2401.10491

论文标题:SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

论文链接:https://arxiv/abs/2401.12168

论文标题:WARM: On the Benefits of Weight Averaged Reward Models

论文链接: https://arxiv/abs/2401.12187

论文标题: Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text

论文链接: https://arxiv/abs/2401.12070

论文标题:MambaByte: Token-free Selective State Space Model

论文链接:https://arxiv/abs/2401.13660

论文标题:SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection

论文链接:https://arxiv/abs/2401.13160

论文标题:Rethinking Patch Dependence for Masked Autoencoders

论文链接:https://arxiv/abs/2401.14391

论文标题:Pix2gestalt: Amodal Segmentation by Synthesizing Wholes

论文链接:https://arxiv/abs/2401.14398

论文标题:Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities

论文链接:https://arxiv/abs/2401.14405

论文标题:EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

论文链接:https://arxiv/abs/2401.15077

论文标题:MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

论文链接:https://arxiv/abs/2401.15947

论文标题:Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

论文链接: https://arxiv/abs/2401.16380

论文标题:KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization

论文链接:https://arxiv/abs/2401.18079

二月论文

论文标题:Efficient Exploration for LLMs

论文链接:https://arxiv/abs/2402.00396

论文标题:OLMo: Accelerating the Science of Language Models

论文链接:https://arxiv/abs/2402.00838

论文标题:Tiny Titans: Can Smaller Large Language Models Punch Above Their Weight in the Real World for Meeting Summarization?

论文链接:https://arxiv/abs/2402.00841

论文标题:Repeat After Me: Transformers are Better than State Space Models at Copying

论文链接:https://arxiv/abs/2402.01032

论文标题:LiPO: Listwise Preference Optimization through Learning-to-Rank

论文链接:https://arxiv/abs/2402.01878

论文标题:FindingEmo: An Image Dataset for Emotion Recognition in the Wild

论文链接: https://arxiv/abs/2402.01355

论文标题:More Agents Is All You Need

论文链接:https://arxiv/abs/2402.05120

论文标题:DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

论文链接: https://arxiv/abs/2402.03300

论文标题:MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

论文链接: https://arxiv/abs/2402.03766

论文标题:A Phase Transition Between Positional and Semantic Learning in a Solvable Model of Dot-Product Attention

论文链接:https://arxiv/abs/2402.03902

论文标题:Scaling Laws for Downstream Task Performance of Large Language Models

论文链接:https://arxiv/abs/2402.04177

论文标题:MOMENT: A Family of Open Time-series Foundation Models

论文链接: https://arxiv/abs/2402.03885

论文标题:Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models

论文链接:https://arxiv/abs/2402.03749

论文标题:Self-Discover: Large Language Models Self-Compose Reasoning Structures

论文链接:https://arxiv/abs/2402.03620

论文标题:Grandmaster-Level Chess Without Search

论文链接: https://arxiv/abs/2402.04494

论文标题:Direct Language Model Alignment from Online AI Feedback

论文链接: https://arxiv/abs/2402.04792

论文标题:Buffer Overflow in Mixture of Experts

论文链接: https://arxiv/abs/2402.05526

论文标题:The Boundary of Neural Network Trainability is Fractal

论文链接: https://arxiv/abs/2402.06184

论文标题:ODIN: Disentangled Reward Mitigates Hacking in RLHF

论文链接: https://arxiv/abs/2402.07319

论文标题:Policy Improvement using Language Feedback Models

论文链接: https://arxiv/abs/2402.07876

论文标题:Scaling Laws for Fine-Grained Mixture of Experts

论文链接:https://arxiv/abs/2402.07871

论文标题:Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

论文链接: https://arxiv/abs/2402.07610

论文标题:Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping

论文链接: https://arxiv/abs/2402.07610

论文标题:Suppressing Pink Elephants with Direct Principle Feedback

论文链接: https://arxiv/abs/2402.07896

论文标题:World Model on Million-Length Video And Language With RingAttention

论文链接:https://arxiv/abs/2402.08268

论文标题:Mixtures of Experts Unlock Parameter Scaling for Deep RL

论文链接: https://arxiv/abs/2402.08609

论文标题:DoRA: Weight-Decomposed Low-Rank Adaptation

论文链接:https://arxiv/abs/2402.09353

论文标题:Transformers Can Achieve Length Generalization But Not Robustly

论文链接: https://arxiv/abs/2402.09371

论文标题:BASE TTS: Lessons From Building a Billion-Parameter Text-to-Speech Model on 100K Hours of Data

论文链接:https://arxiv/abs/2402.08093

论文标题:Recovering the Pre-Fine-Tuning Weights of Generative Models

论文链接: https://arxiv/abs/2402.10208

论文标题:Generative Representational Instruction Tuning

论文链接: https://arxiv/abs/2402.09906

论文标题:FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

论文链接: https://arxiv/abs/2402.10986

论文标题:OneBit: Towards Extremely Low-bit Large Language Models

论文链接: https://arxiv/abs/2402.11295

论文标题:LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration

论文链接:https://arxiv/abs/2402.11550

论文标题:Reformatted Alignment

论文链接: https://arxiv/abs/2402.12219

论文标题:AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

论文链接: https://arxiv/abs/2402.12226

论文标题:Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs

论文链接: https://arxiv/abs/2402.12030

论文标题:LoRA+: Efficient Low Rank Adaptation of Large Models

论文链接: https://arxiv/abs/2402.12354

论文标题:Neural Network Diffusion

论文链接: https://arxiv/abs/2402.13144

论文标题:YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

论文链接:https://arxiv/abs/2402.13616

论文标题:LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

论文标题:https://arxiv/abs/2402.13753

论文标题:Large Language Models for Data Annotation: A Survey

论文链接:https://arxiv/abs/2402.13446

论文标题:TinyLLaVA: A Framework of Small-scale Large Multimodal Models

论文链接:https://arxiv/abs/2402.14289

论文标题:Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs

论文链接:https://arxiv/abs/2402.14740

论文标题: Genie: Generative Interactive Environments

论文链接:https://arxiv/abs/2402.15391

论文标题:CARTE: Pretraining and Transfer for Tabular Learning

论文链接:https://arxiv/abs/2402.16785

论文标题:The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

论文链接:https://arxiv/abs/2402.17764

论文标题:Sora Generates Videos with Stunning Geometrical Consistency

论文链接:https://arxiv/abs/2402.17403

论文标题:When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method

论文链接:https://arxiv/abs/2402.17193

论文标题:Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

论文链接:https://arxiv/abs/2402.19427

三月论文

论文标题:Learning and Leveraging World Models in Visual Representation Learning

论文链接: https://arxiv/abs/2403.00504

论文标题:Improving LLM Code Generation with Grammar Augmentation

论文链接: https://arxiv/abs/2403.01632

论文标题:The Hidden Attention of Mamba Models

论文链接: https://arxiv/abs/2403.01590

论文标题:Training-Free Pretrained Model Merging

论文链接: https://arxiv/abs/2403.01753

论文标题:Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

论文链接: https://arxiv/abs/2403.02308

论文标题:The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning

论文链接:https://arxiv/abs/2403.03218

论文标题:Evolution Transformer: In-Context Evolutionary Optimization

论文链接: https://arxiv/abs/2403.02985

论文标题:Enhancing Vision-Language Pre-training with Rich Supervisions

论文链接: https://arxiv/abs/2403.03346

论文标题:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

论文链接:https://arxiv/abs/2403.03206

论文标题:Design2Code: How Far Are We From Automating Front-End Engineering?

论文链接: https://arxiv/abs/2403.03163

论文标题:ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

论文链接: https://arxiv/abs/2403.03853

论文标题:Backtracing: Retrieving the Cause of the Query

论文链接: https://arxiv/abs/2403.03956

论文标题:Learning to Decode Collaboratively with Multiple Language Models

论文链接: https://arxiv/abs/2403.03870

论文标题:SaulLM-7B: A pioneering Large Language Model for Law

论文链接: https://arxiv/abs/2403.03883

论文标题:Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning

论文链接: https://arxiv/abs/2403.03864

论文标题:3D Diffusion Policy

论文链接: https://arxiv/abs/2403.03954

论文标题:MedMamba: Vision Mamba for Medical Image Classification

论文链接: https://arxiv/abs/2403.03849

论文标题:GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

论文链接: https://arxiv/abs/2403.03507

论文标题:Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

论文链接: https://arxiv/abs/2403.03950

论文标题:How Far Are We from Intelligent Visual Deductive Reasoning?

论文链接:https://arxiv/abs/2403.04732

论文标题:Common 7B Language Models Already Possess Strong Math Capabilities

论文链接:https://arxiv/abs/2403.04706

论文标题:Gemini 1.5: Unlocking Multimodal Understanding Across Millions of Tokens of Context

论文链接: https://arxiv/abs/2403.05530

论文标题:Is Cosine-Similarity of Embeddings Really About Similarity?

论文链接:https://arxiv/abs/2403.05440

论文标题:LLM4Decompile: Decompiling Binary Code with Large Language Models

论文链接: https://arxiv/abs/2403.05286

论文标题:Algorithmic Progress in Language Models

论文链接:https://arxiv/abs/2403.05812

论文标题:Stealing Part of a Production Language Model

论文链接: https://arxiv/abs/2403.06634

论文标题:Chronos: Learning the Language of Time Series

论文链接:https://arxiv/abs/2403.07815

论文标题:Simple and Scalable Strategies to Continually Pre-train Large Language Models

论文链接:https://arxiv/abs/2403.08763

论文标题:Language Models Scale Reliably With Over-Training and on Downstream Tasks

论文链接:https://arxiv/abs/2403.08540

论文标题:BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences

论文链接:https://arxiv/abs/2403.09347

论文标题: LocalMamba: Visual State Space Model with Windowed Selective Scan

论文链接:https://arxiv/abs/2403.09338

论文标题:GiT: Towards Generalist Vision Transformer through Universal Language Interface

论文链接:https://arxiv/abs/2403.09394

论文标题:MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

论文链接: https://arxiv/abs/2403.09611

论文标题: RAFT: Adapting Language Model to Domain Specific RAG

论文链接: https://arxiv/abs/2403.10131

论文标题:TnT-LLM: Text Mining at Scale with Large Language Models

论文链接: https://arxiv/abs/2403.12173

论文标题: Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression

论文链接: https://arxiv/abs/2403.15447

论文标题: PERL: Parameter Efficient Reinforcement Learning from Human Feedback

论文链接: https://arxiv/abs/2403.10704

论文标题:RewardBench: Evaluating Reward Models for Language Modeling

论文链接:https://arxiv/abs/2403.13787

论文标题:LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

论文链接: https://arxiv/abs/2403.13372

论文标题:RakutenAI-7B: Extending Large Language Models for Japanese

论文链接: https://arxiv/abs/2403.15484

论文标题:SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time Series

论文链接:https://arxiv/abs/2403.15360

论文标题:Can Large Language Models Explore In-Context?

论文链接:https://arxiv/abs/2403.15371

论文标题:LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

论文链接:https://arxiv/abs/2403.15042

论文标题: LLM Agent Operating System

论文链接:https://arxiv/abs/2403.16971

论文标题:The Unreasonable Ineffectiveness of the Deeper Layers

论文链接:https://arxiv/abs/2403.17887

论文标题:BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text

论文链接:https://arxiv/abs/2403.18421

论文标题:ViTAR: Vision Transformer with Any Resolution

论文链接:https://arxiv/abs/2403.18361

论文标题:Long-form Factuality in Large Language Models

论文链接:https://arxiv/abs/2403.18802

论文标题:Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

论文链接: https://arxiv/abs/2403.18814

论文标题:LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning

论文链接:https://arxiv/abs/2403.17919

论文标题:Mechanistic Design and Scaling of Hybrid Architectures

论文链接:https://arxiv/abs/2403.17844

论文标题:MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

论文链接:https://arxiv/abs/2403.19651

论文标题:Model Stock: All We Need Is Just a Few Fine-Tuned Models

论文链接:https://arxiv/abs/2403.19522

四月论文

论文标题: Do Language Models Plan Ahead for Future Tokens?

论文链接: https://arxiv/abs/2404.00859

论文标题:Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

论文链接:https://arxiv/abs/2404.01367

论文标题:The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis

论文链接: https://arxiv/abs/2404.01204

论文标题:Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models

论文链接:https://arxiv/abs/2404.04478

论文标题:Mixture-of-Depths: Dynamically Allocating Compute in Transformer-Based Language Models

论文链接:https://arxiv/abs/2404.02258

论文标题:Long-context LLMs Struggle with Long In-context Learning

论文链接:https://arxiv/abs/2404.02060

论文标题:Emergent Abilities in Reduced-Scale Generative Language Models

论文链接: https://arxiv/abs/2404.02204

论文标题:Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks

论文链接: https://arxiv/abs/2404.02151

论文标题:On the Scalability of Diffusion-based Text-to-Image Generation

论文链接: https://arxiv/abs/2404.02883

论文标题:BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models

论文链接: https://arxiv/abs/2404.02827

论文标题:Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models

论文链接: https://arxiv/abs/2404.02747

论文标题:Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

论文链接: https://arxiv/abs/2404.02151

论文标题:Training LLMs over Neurally Compressed Text

论文链接: https://arxiv/abs/2404.03626

论文标题:CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues

论文链接: https://arxiv/abs/2404.03820

论文标题:ReFT: Representation Finetuning for Language Models

论文链接: https://arxiv/abs/2404.03592

论文标题:Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data

论文链接: https://arxiv/abs/2404.03862

论文标题:Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

论文链接: https://arxiv/abs/2404.04256

论文标题:AutoCodeRover: Autonomous Program Improvement

论文链接: https://arxiv/abs/2404.05427

论文标题:Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

论文链接: https://arxiv/abs/2404.05892

论文标题:CodecLM: Aligning Language Models with Tailored Synthetic Data

论文链接: https://arxiv/abs/2404.05875

论文标题:MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

论文链接: https://arxiv/abs/2404.06395

论文标题:Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models

论文链接: https://arxiv/abs/2404.06209

论文标题:LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

论文链接: https://arxiv/abs/2404.05961

论文标题:Adapting LLaMA Decoder to Vision Transformer

论文链接: https://arxiv/abs/2404.06773

论文标题: Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

论文链接: https://arxiv/abs/2404.07143

论文标题:LLoCO: Learning Long Contexts Offline

论文链接: https://arxiv/abs/2404.07979

论文标题:JetMoE: Reaching Llama2 Performance with 0.1M Dollars

论文链接: https://arxiv/abs/2404.07413

论文标题: Best Practices and Lessons Learned on Synthetic Data for Language Models

论文链接: https://arxiv/abs/2404.07503

论文标题:Rho-1: Not All Tokens Are What You Need

论文链接: https://arxiv/abs/2404.07965

论文标题:Pre-training Small Base LMs with Fewer Tokens

论文链接: https://arxiv/abs/2404.08634

论文标题:Dataset Reset Policy Optimization for RLHF

论文链接: https://arxiv/abs/2404.08495

论文标题:LLM In-Context Recall is Prompt Dependent

论文链接: https://arxiv/abs/2404.08865

论文标题:State Space Model for New-Generation Network Alternative to Transformers: A Survey

论文链接: https://arxiv/abs/2404.09516

论文标题:Chinchilla Scaling: A Replication Attempt

论文链接: https://arxiv/abs/2404.10102

论文标题:Learn Your Reference Model for Real Good Alignment

论文链接: https://arxiv/abs/2404.09656

论文标题:Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

论文链接: https://arxiv/abs/2404.10719

论文标题:Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies

论文链接: https://arxiv/abs/2404.08197

论文标题:How Faithful Are RAG Models? Quantifying the Tug-of-War Between RAG and LLMs’ Internal Prior

论文链接: https://arxiv/abs/2404.10198

论文标题:A Survey on Retrieval-Augmented Text Generation for Large Language Models

论文链接:https://arxiv/abs/2404.10981

论文标题:When LLMs are Unfit Use FastFit: Fast and Effective Text Classification with Many Classes

论文链接: https://arxiv/abs/2404.12365

论文标题:Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

论文链接: https://arxiv/abs/2404.12253

论文标题:OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

论文链接: https://arxiv/abs/2404.12195

论文标题:The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

论文链接: https://arxiv/abs/2404.13208

论文标题:An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs

论文链接: https://arxiv/abs/2404.14047

论文标题:Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

论文链接: https://arxiv/abs/2404.14219

论文标题: OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

论文链接: https://arxiv/abs/2404.14619

论文标题: A Survey on Self-Evolution of Large Language Models

论文链接: https://arxiv/abs/2404.14662

论文标题: Multi-Head Mixture-of-Experts

论文链接: https://arxiv/abs/2404.15045

论文标题:NExT: Teaching Large Language Models to Reason about Code Execution

论文链接: https://arxiv/abs/2404.14662

论文标题:Graph Machine Learning in the Era of Large Language Models (LLMs)

论文链接: https://arxiv/abs/2404.14928

论文标题:Retrieval Head Mechanistically Explains Long-Context Factuality

论文链接: https://arxiv/abs/2404.15574

论文标题:Layer Skip: Enabling Early Exit Inference and Self-Speculative Decoding

论文链接: https://arxiv/abs/2404.16710

论文标题:Make Your LLM Fully Utilize the Context

论文链接:https://arxiv/abs/2404.16811

论文标题:LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

论文链接: https://arxiv/abs/2405.00732

论文标题:Better & Faster Large Language Models via Multi-token Prediction

论文链接: https://arxiv/abs/2404.19737

论文标题:RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing

论文链接: https://arxiv/abs/2404.19543

论文标题:A Primer on the Inner Workings of Transformer-based Language Models

论文链接: https://arxiv/abs/2405.00208

论文标题:When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively

论文链接:https://arxiv/abs/2404.19705

论文标题:KAN: Kolmogorov–Arnold Networks

论文链接: https://arxiv/abs/2404.19756

五月论文

论文标题:Is Bigger Edit Batch Size Always Better? An Empirical Study on Model Editing with Llama-3

论文链接:https://arxiv/abs/2405.00664

论文标题:Self-Play Preference Optimization for Language Model Alignment

论文链接: https://arxiv/abs/2405.00675

论文标题:A Careful Examination of Large Language Model Performance on Grade School Arithmetic

论文链接: https://arxiv/abs/2405.00332

论文标题:Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

论文链接: https://arxiv/abs/2405.01535

论文标题:What Matters When Building Vision-Language Models?

论文链接: https://arxiv/abs/2405.02246

论文标题:Is Flash Attention Stable?

论文链接:https://arxiv/abs/2405.02803

论文标题:vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

论文链接: https://arxiv/abs/2405.04437

论文标题:xLSTM: Extended Long Short-Term Memory

论文链接:https://arxiv/abs/2405.04517

论文标题:You Only Cache Once: Decoder-Decoder Architectures for Language Models

论文链接: https://arxiv/abs/2405.05254

论文标题:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

论文链接: https://arxiv/abs/2405.04434

论文标题:Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models

论文标题: https://arxiv/abs/2405.05417

论文标题:Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

论文链接:https://arxiv/abs/2405.05904

论文标题:Value Augmented Sampling for Language Model Alignment and Personalization

论文标题: https://arxiv/abs/2405.06639

论文标题:PHUDGE: Phi-3 as Scalable Judge

论文链接: https://arxiv/abs/2405.08029

论文标题:RLHF Workflow: From Reward Modeling to Online RLHF

论文链接:https://arxiv/abs/2405.07863

论文标题:LoRA Learns Less and Forgets Less

论文链接:https://arxiv/abs/2405.09673

论文标题:Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

论文链接:https://arxiv/abs/2405.09215

论文标题:Chameleon: Mixed-Modal Early-Fusion Foundation Models

论文链接: https://arxiv/abs/2405.09818

论文标题:Towards Modular LLMs by Building and Reusing a Library of LoRAs

论文链接:https://arxiv/abs/2405.11157

论文标题:SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization

论文链接:https://arxiv/abs/2405.11582

论文标题:MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

论文链接:https://arxiv/abs/2405.12130

论文标题:Attention as an RNN

论文链接:https://arxiv/abs/2405.13956

论文标题:Dense Connector for MLLMs

论文链接: https://arxiv/abs/2405.13800

论文标题:AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability

论文链接: https://arxiv/abs/2405.14129

论文标题: SimPO: Simple Preference Optimization with a Reference-Free Reward

论文链接: https://arxiv/abs/2405.14734

论文标题:Instruction Tuning With Loss Over Instructions

论文链接:https://arxiv/abs/2405.14394

论文标题:The Road Less Scheduled

论文链接:https://arxiv/abs/2405.15682

论文标题:Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

论文链接: https://arxiv/abs/2405.15319

论文标题:gzip Predicts Data-dependent Scaling Laws

论文链接:https://arxiv/abs/2405.16684

论文标题:Trans-LoRA: Towards Data-free Transferable Parameter Efficient Finetuning

论文链接: https://arxiv/abs/2405.17258

论文标题:VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections

论文链接:https://arxiv/abs/2405.17991

论文标题:LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

论文链接: https://arxiv/abs/2405.18377

论文标题:Contextual Position Encoding: Learning to Count What’s Important

论文链接:https://arxiv/abs/2405.18719

六月论文

论文标题:Show, Don’t Tell: Aligning Language Models with Demonstrated Feedback

论文链接: https://arxiv/abs/2406.00888

论文标题:Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models

论文链接:https://arxiv/abs/2406.06563

论文标题:OLoRA: Orthonormal Low-Rank Adaptation of Large Language Models

论文链接:https://arxiv/abs/2406.01775

论文标题:The Geometry of Categorical and Hierarchical Concepts in Large Language Models

论文链接: https://arxiv/abs/2406.01506

论文标题:Towards Scalable Automated Alignment of LLMs: A Survey

论文链接:https://arxiv/abs/2406.01252

论文标题:Scalable MatMul-free Language Modeling

论文链接:https://arxiv/abs/2406.02528

论文标题:Block Transformer: Global-to-Local Language Modeling for Fast Inference

论文链接: https://arxiv/abs/2406.02657

论文标题:Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

 论文链接:https://arxiv/abs/2406.04271

论文标题:The Prompt Report: A Systematic Survey of Prompting Techniques

论文链接: https://arxiv/abs/2406.06608

论文标题:Transformers Need Glasses! Information Over-Squashing in Language Tasks

论文链接: https://arxiv/abs/2406.04267

论文标题:Are We Done with MMLU?

论文链接:https://arxiv/abs/2406.04127

论文标题:Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step

论文链接: https://arxiv/abs/2406.04314

论文标题:Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach

论文链接: https://arxiv/abs/2406.04594

论文标题:CRAG – Comprehensive RAG Benchmark

论文链接:https://arxiv/abs/2406.04744

论文标题:WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

论文链接: https://arxiv/abs/2406.04770

论文标题:Mixture-of-Agents Enhances Large Language Model Capabilities

论文链接:https://arxiv/abs/2406.04692

论文标题:BERTs are Generative In-Context Learners

论文链接:https://arxiv/abs/2406.04823

论文标题:3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

论文链接: https://arxiv/abs/2406.05132

论文标题:Creativity Has Left the Chat: The Price of Debiasing Language Models

论文链接:https://arxiv/abs/2406.05587

论文标题:Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

论文链接: https://arxiv/abs/2406.06525

论文标题:Margin-aware Preference Optimization for Aligning Diffusion Models Without Reference

论文链接: https://arxiv/abs/2406.06424

论文标题:Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning

论文链接: https://arxiv/abs/2406.06469

论文标题: Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

论文链接: https://arxiv/abs/2406.05955

论文标题:Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching

论文链接: https://arxiv/abs/2406.06326

论文标题:An Image is Worth 32 Tokens for Reconstruction and Generation

论文链接: https://arxiv/abs/2406.07550

论文标题:TextGrad: Automatic “Differentiation” via Text

论文链接:https://arxiv/abs/2406.07496

论文标题:Simple and Effective Masked Diffusion Language Models

论文链接:https://arxiv/abs/2406.07524

论文标题:Never Miss A Beat: An Efficient Recipe for Context Window Extension of Large Language Models with Consistent “Middle” Enhancement

论文链接:https://arxiv/abs/2406.07138

论文标题:Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

论文链接: https://arxiv/abs/2406.07522

论文标题:Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

论文链接: https://arxiv/abs/2406.08464

论文标题:What If We Recaption Billions of Web Images with LLaMA-3?

论文链接:https://arxiv/abs/2406.08478

论文标题:Large Language Model Unlearning via Embedding-Corrupted Prompts

论文链接:https://arxiv/abs/2406.07933

论文标题:Large Language Models Must Be Taught to Know What They Don’t Know

论文链接: https://arxiv/abs/2406.08391

论文标题:An Empirical Study of Mamba-based Language Models

论文链接:https://arxiv/abs/2406.07887

论文标题: Discovering Preference Optimization Algorithms with and for Large Language Models

论文链接: https://arxiv/abs/2406.08414

论文标题:Transformers Meet Neural Algorithmic Reasoners

论文链接: https://arxiv/abs/2406.09308

论文标题:MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding

论文链接: https://arxiv/abs/2406.09297

论文标题:An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels

论文链接: https://arxiv/abs/2406.09415

论文标题:FouRA: Fourier Low Rank Adaptation

论文链接:https://arxiv/abs/2406.08798

论文标题: Bootstrapping Language Models with DPO Implicit Rewards

论文链接:https://arxiv/abs/2406.09760

论文标题:Be like a Goldfish, Don’t Memorize! Mitigating Memorization in Generative LLMs

论文链接: https://arxiv/abs/2406.10209

论文标题:Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs

论文链接: https://arxiv/abs/2406.10216

论文标题:THEANINE: Revisiting Memory Management in Long-term Conversations with Timeline-augmented Response Generation

论文链接:https://arxiv/abs/2406.10996

论文标题:Task Me Anything

论文链接: https://arxiv/abs/2406.11775

论文标题:How Do Large Language Models Acquire Factual Knowledge During Pretraining?

论文链接: https://arxiv/abs/2406.11813

论文标题:mDPO: Conditional Preference Optimization for Multimodal Large Language Models

论文链接: https://arxiv/abs/2406.11839

论文标题:Nemotron-4 340B Technical Report

论文链接:https://arxiv/abs/2406.11704

论文标题:DataComp-LM: In Search of the Next Generation of Training Sets for Language Models

论文链接:https://arxiv/abs/2406.11794

论文标题:Tokenization Falling Short: The Curse of Tokenization

论文链接: https://arxiv/abs/2406.11687

论文标题: DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

论文链接: https://arxiv/abs/2406.11931

论文标题:Unveiling Encoder-Free Vision-Language Models

论文链接:https://arxiv/abs/2406.11832

论文标题:Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

论文链接: https://arxiv/abs/2406.11817

论文标题:HARE: HumAn pRiors, a key to small language model Efficiency

论文链接:https://arxiv/abs/2406.11410

论文标题:Measuring memorization in RLHF for code completion

论文链接: https://arxiv/abs/2406.11715

论文标题:Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts

论文链接: https://arxiv/abs/2406.12034

论文标题:From RAGs to Rich Parameters: Probing How Language Models Utilize External Knowledge Over Parametric Information for Factual Queries

论文链接: https://arxiv/abs/2406.12824

论文标题:Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges

论文链接: https://arxiv/abs/2406.12624

论文标题:Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

论文链接: https://arxiv/abs/2406.13121

论文标题:Instruction Pre-Training: Language Models are Supervised Multitask Learners

论文链接: https://arxiv/abs/2406.14491

论文标题:Can LLMs Learn by Teaching? A Preliminary Study

论文链接:https://arxiv/abs/2406.14629

论文标题:A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems

论文链接:https://arxiv/abs/2406.14972

论文标题: LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs

论文链接: https://arxiv/abs/2406.15319

论文标题:MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression

论文链接: https://arxiv/abs/2406.14909

论文标题:Efficient Continual Pre-training by Mitigating the Stability Gap

论文链接:https://arxiv/abs/2406.14833

论文标题:Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers

论文链接: https://arxiv/abs/2406.16747

论文标题:WARP: On the Benefits of Weight Averaged Rewarded Policies

论文链接:https://arxiv/abs/2406.16768

论文标题:Adam-mini: Use Fewer Learning Rates To Gain More

论文链接:https://arxiv/abs/2406.16793

论文标题:The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

论文链接: https://arxiv/abs/2406.17557

论文标题:LongIns: A Challenging Long-context Instruction-based Exam for LLMs

论文链接: https://arxiv/abs/2406.17588

论文标题:Following Length Constraints in Instructions

论文链接:https://arxiv/abs/2406.17744

论文标题:A Closer Look into Mixture-of-Experts in Large Language Models

论文链接:https://arxiv/abs/2406.18219

论文标题: RouteLLM: Learning to Route LLMs with Preference Data

论文链接: https://arxiv/abs/2406.18665

论文标题:Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

论文链接: https://arxiv/abs/2406.18629

论文标题:Dataset Size Recovery from LoRA Weights

论文链接: https://arxiv/abs/2406.19395

论文标题:From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data

论文链接: https://arxiv/abs/2406.19292

论文标题:Changing Answer Order Can Decrease MMLU Accuracy

论文链接: https://arxiv/abs/2406.19470

论文标题:Direct Preference Knowledge Distillation for Large Language Models

论文链接: https://arxiv/abs/2406.19774

论文标题:LLM Critics Help Catch LLM Bugs

论文链接:https://arxiv/abs/2407.00215

论文标题:Scaling Synthetic Data Creation with 1,000,000,000 Personas

论文链接: https://arxiv/abs/2406.20094

七月论文

论文标题:LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives

论文链接:https://arxiv/abs/2407.01490

论文标题:Searching for Best Practices in Retrieval-Augmented Generation

论文链接:https://arxiv/abs/2407.01219

论文标题:Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

论文链接:https://arxiv/abs/2407.01906

论文标题:Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

论文链接:https://arxiv/abs/2407.01392

论文标题:Eliminating Position Bias of Language Models: A Mechanistic Approach

论文链接:https://arxiv/abs/2407.01100

论文标题:JMInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention

论文链接:https://arxiv/abs/2407.02490

论文标题:TokenPacker: Efficient Visual Projector for Multimodal LLM

论文链接:https://arxiv/abs/2407.02392

论文标题:Reasoning in Large Language Models: A Geometric Perspective

论文链接:https://arxiv/abs/2407.02678

论文标题:RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

论文链接:https://arxiv/abs/2407.02485

论文标题:AgentInstruct: Toward Generative Teaching with Agentic Flows

论文链接:https://arxiv/abs/2407.03502

论文标题:HEMM: Holistic Evaluation of Multimodal Foundation Models

论文链接:https://arxiv/abs/2407.03418

论文标题:Mixture of A Million Experts

论文链接:https://arxiv/abs/2407.04153

论文标题:Learning to (Learn at Test Time): RNNs with Expressive Hidden States

论文链接:https://arxiv/abs/2407.04620

论文标题:Vision Language Models Are Blind

论文链接:https://arxiv/abs/2407.06581

论文标题:Self-Recognition in Language Models

论文链接:https://arxiv/abs/2407.06946

论文标题:Inference Performance Optimization for Large Language Models on CPUs

论文链接:https://arxiv/abs/2407.07304

论文标题:Gradient Boosting Reinforcement Learning

论文链接:https://arxiv/abs/2407.08250

论文标题:FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision

论文链接:https://arxiv/abs/2407.08608

论文标题:SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

论文链接:https://arxiv/abs/2407.09025

论文标题:New Desiderata for Direct Preference Optimization

论文链接:https://arxiv/abs/2407.09072

论文标题:Context Embeddings for Efficient Answer Generation in RAG

论文链接:https://arxiv/abs/2407.09252

论文标题:Qwen2 Technical Report

论文链接:https://arxiv/abs/2407.10671

论文标题:The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism

论文链接:https://arxiv/abs/2407.10457

论文标题:From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

论文链接:https://arxiv/abs/2407.11239

论文标题:GoldFinch: High Performance RWKV/Transformer Hybrid with Linear Pre-Fill and Extreme KV-Cache Compression

论文链接:https://arxiv/abs/2407.12077

论文标题:Scaling Diffusion Transformers to 16 Billion Parameters

论文链接:https://arxiv/abs/2407.11633

论文标题:NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

论文链接:https://arxiv/abs/2407.11963

论文标题:Patch-Level Training for Large Language Models

论文链接:https://arxiv/abs/2407.12665

论文标题:LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

论文链接:https://arxiv/abs/2407.12772

论文标题:A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks

论文链接:https://arxiv/abs/2407.12994

论文标题:Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models

论文链接:https://arxiv/abs/2407.12327

论文标题:Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation

论文链接:https://arxiv/abs/2407.13481

论文标题:Weak-to-Strong Reasoning

论文链接:https://arxiv/abs/2407.13647

论文标题:Understanding Reference Policies in Direct Preference Optimization

论文链接:https://arxiv/abs/2407.13709

论文标题:Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

论文链接:https://arxiv/abs/2407.13623

论文标题:BOND: Aligning LLMs with Best-of-N Distillation

论文链接:https://arxiv/abs/2407.14622

论文标题:Compact Language Models via Pruning and Knowledge Distillation

论文链接:https://arxiv/abs/2407.14679

论文标题:LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

论文链接:https://arxiv/abs/2407.14057

论文标题:Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training

论文链接:https://arxiv/abs/2407.15892

论文标题:DDK: Distilling Domain Knowledge for Efficient Large Language Models

论文链接:https://arxiv/abs/2407.16154

论文标题:Generation Constraint Scaling Can Mitigate Hallucination

论文链接:https://arxiv/abs/2407.16908

论文标题:Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

论文链接:https://arxiv/abs/2407.16833

论文标题:Course-Correction: Safety Alignment Using Synthetic Preferences

论文链接:https://arxiv/abs/2407.16637

论文标题:Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?

论文链接:https://arxiv/abs/2407.16607

论文标题:Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge

论文链接:https://arxiv/abs/2407.19594

论文标题:Improving Retrieval Augmented Language Model with Self-Reasoning

论文链接:https://arxiv/abs/2407.19813

论文标题:Apple Intelligence Foundation Language Models

论文链接:https://arxiv/abs/2407.21075

论文标题:ThinK: Thinner Key Cache by Query-Driven Pruning

论文链接:https://arxiv/abs/2407.21018

论文标题:The Llama 3 Herd of Models

论文链接:https://arxiv/abs/2407.21783

论文标题:Gemma 2: Improving Open Language Models at a Practical Size

论文链接:https://arxiv/abs/2408.00118

八月论文

论文标题:SAM 2: Segment Anything in Images and Videos

论文链接:https://arxiv/abs/2408.00714

论文标题:POA: Pre-training Once for Models of All Sizes

论文链接:https://arxiv/abs/2408.01031

论文标题:RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

论文链接:https://arxiv/abs/2408.01262

论文标题:A Survey of Mamba

论文链接:https://arxiv/abs/2408.01129

论文标题:MiniCPM-V: A GPT-4V Level MLLM on Your Phone

论文链接:https://arxiv/abs/2408.01800

论文标题:RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation

论文链接:https://arxiv/abs/2408.02545

论文标题:Self-Taught Evaluators

论文链接:https://arxiv/abs/2408.02666

论文标题:BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba

论文链接:https://arxiv/abs/2408.02600

论文标题:EXAONE 3.0 7.8B Instruction Tuned Language Model

论文链接:https://arxiv/abs/2408.03541

论文标题:1.5-Pints Technical Report: Pretraining in Days, Not Months – Your Language Model Thrives on Quality Data

论文链接:https://arxiv/abs/2408.03506

论文标题:Conversational Prompt Engineering

论文链接:https://arxiv/abs/2408.04560

论文标题:Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP

论文链接:https://arxiv/abs/2408.04303

论文标题:The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

论文链接:https://arxiv/abs/2408.06292

论文标题:Hermes 3 Technical Report

论文链接:https://arxiv/abs/2408.12570

论文标题:Customizing Language Models with Instance-wise LoRA for Sequential Recommendation

论文链接:https://arxiv/abs/2408.10159

论文标题:Enhancing Robustness in Large Language Models: Prompting for Mitigating the Impact of Irrelevant Information

论文链接:https://arxiv/abs/2408.10615

论文标题:To Code, or Not To Code? Exploring Impact of Code in Pre-training

论文链接:https://arxiv/abs/2408.10914

论文标题:LLM Pruning and Distillation in Practice: The Minitron Approach

论文链接:https://arxiv/abs/2408.11796

论文标题:Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

论文链接:https://arxiv/abs/2408.12570

论文标题:Controllable Text Generation for Large Language Models: A Survey

论文链接:https://arxiv/abs/2408.12599

论文标题:Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time

论文链接:https://arxiv/abs/2408.13233

论文标题:A Practitioner's Guide to Continual Multimodal Pretraining

论文链接:https://arxiv/abs/2408.14471

论文标题:Building and better understanding vision-language models: insights and future directions

论文链接:https://arxiv/abs/2408.12637

论文标题:CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation

论文链接:https://arxiv/abs/2408.14572

论文标题:The Mamba in the Llama: Distilling and Accelerating Hybrid Models

论文链接:https://arxiv/abs/2408.15237

论文标题:ReMamba: Equip Mamba with Effective Long-Sequence Modeling

论文链接:https://arxiv/abs/2408.15496

论文标题:Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling

论文链接:https://arxiv/abs/2408.16737

论文标题:LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

论文链接:https://arxiv/abs/2409.00509

九月论文

论文标题:OLMoE: Open Mixture-of-Experts Language Models

论文链接:https://arxiv/abs/2409.02060

论文标题:In Defense of RAG in the Era of Long-Context Language Models

论文链接:https://arxiv/abs/2409.01666

论文标题:Attention Heads of Large Language Models: A Survey

论文链接:https://arxiv/abs/2409.03752

论文标题:LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

论文链接:https://arxiv/abs/2409.02897

论文标题:How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data

论文链接:https://arxiv/abs/2409.03810

论文标题:Theory, Analysis, and Best Practices for Sigmoid Self-Attention

论文链接:https://arxiv/abs/2409.04431

论文标题:LLaMA-Omni: Seamless Speech Interaction with Large Language Models

论文链接:https://arxiv/abs/2409.06666

论文标题:What is the Role of Small Models in the LLM Era: A Survey

论文链接:https://arxiv/abs/2409.06857

论文标题:Policy Filtration in RLHF to Fine-Tune LLM for Code Generation

论文链接:https://arxiv/abs/2409.06957

论文标题:RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

论文链接:https://arxiv/abs/2409.10516

论文标题:Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

论文链接:https://arxiv/abs/2409.12122

论文标题:Qwen2.5-Coder Technical Report

论文链接:https://arxiv/abs/2409.12186

论文标题:Instruction Following without Instruction Tuning

论文链接:https://arxiv/abs/2409.14254

论文标题:Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis

论文链接:https://arxiv/abs/2409.20059

论文标题:The Perfect Blend: Redefining RLHF with Mixture of Judges

论文链接:https://arxiv/abs/2409.20370

十月论文

论文标题:Addition is All You Need for Energy-efficient Language Models

论文链接:https://arxiv/abs/2410.00907

论文标题:Quantifying Generalization Complexity for Large Language Models

论文链接:https://arxiv/abs/2410.01769

论文标题:When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1

论文链接:https://arxiv/abs/2410.01792

论文标题:Were RNNs All We Needed?

论文链接:https://arxiv/abs/2410.01201

论文标题:Selective Attention Improves Transformer

论文链接:https://arxiv/abs/2410.02703

论文标题:LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations

论文链接:https://arxiv/abs/2410.02707

论文标题:LLaVA-Critic: Learning to Evaluate Multimodal Models

论文链接:https://arxiv/abs/2410.02712

论文标题:Differential Transformer

论文链接:https://arxiv/abs/2410.05258

论文标题:GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

论文链接:https://arxiv/abs/2410.05229

论文标题:ARIA: An Open Multimodal Native Mixture-of-Experts Model

论文链接:https://arxiv/abs/2410.05993

论文标题:O1 Replication Journey: A Strategic Progress Report – Part 1

论文链接:https://arxiv/abs/2410.18982

论文标题:Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG

论文链接:https://arxiv/abs/2410.05983

论文标题:From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

论文链接:https://arxiv/abs/2410.06456

论文标题:KV Prediction for Improved Time to First Token

论文链接:https://arxiv/abs/2410.08391

论文标题:Baichuan-Omni Technical Report

论文链接:https://arxiv/abs/2410.08565

论文标题:MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models

论文链接:https://arxiv/abs/2410.10139

论文标题:LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models

论文链接:https://arxiv/abs/2410.09732

论文标题:AFlow: Automating Agentic Workflow Generation

论文链接:https://arxiv/abs/2410.10762

论文标题:Toward General Instruction-Following Alignment for Retrieval-Augmented Generation

论文链接:https://arxiv/abs/2410.09584

论文标题:Pre-training Distillation for Large Language Models: A Design Space Exploration

论文链接:https://arxiv/abs/2410.16215

论文标题:MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

论文链接:https://arxiv/abs/2410.17637

论文标题:Scalable Ranked Preference Optimization for Text-to-Image Generation

论文链接:https://arxiv/abs/2410.18013

论文标题:Scaling Diffusion Language Models via Adaptation from Autoregressive Models

论文链接:https://arxiv/abs/2410.17891

论文标题:Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback

论文链接:https://arxiv/abs/2410.19133

论文标题:Counting Ability of Large Language Models and Impact of Tokenization

论文链接:https://arxiv/abs/2410.19730

论文标题:A Survey of Small Language Models

论文链接:https://arxiv/abs/2410.20011

论文标题:Accelerating Direct Preference Optimization with Prefix Sharing

论文链接:https://arxiv/abs/2410.20305

论文标题:Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse

论文链接:https://arxiv/abs/2410.21333

论文标题:LongReward: Improving Long-context Large Language Models with AI Feedback

论文链接:https://arxiv/abs/2410.21252

论文标题:ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference

论文链接:https://arxiv/abs/2410.21465

论文标题:Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications

论文链接:https://arxiv/abs/2410.21943

论文标题:CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation

论文链接:https://arxiv/abs/2410.23090

论文标题:What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective

论文链接:https://arxiv/abs/2410.23743

论文标题:GPT or BERT: why not both?

论文链接:https://arxiv/abs/2410.24159

论文标题:Language Models can Self-Lengthen to Generate Long Texts

论文链接:https://arxiv/abs/2410.23933

十一月论文

论文标题:Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations

论文链接:https://arxiv/abs/2411.00640

论文标题:Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

论文链接:https://arxiv/abs/2411.00412

论文标题:Multi-expert Prompting Improves Reliability, Safety, and Usefulness of Large Language Models

论文链接:https://arxiv/abs/2411.00492

论文标题:Sample-Efficient Alignment for LLMs

论文链接:https://arxiv/abs/2411.01493

论文标题:A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness

论文链接:https://arxiv/abs/2411.03350

论文标题:"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization

论文链接:https://arxiv/abs/2411.02355

论文标题:Parameter-Efficient Fine-Tuning of Large Language Models for Unit Test Generation: An Empirical Study

论文链接:https://arxiv/abs/2411.02462

论文标题:HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems

论文链接:https://arxiv/abs/2411.02959

论文标题:Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

论文链接:https://arxiv/abs/2411.03823

论文标题:Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding

论文链接:https://arxiv/abs/2411.04282

论文标题:Number Cookbook: Number Understanding of Language Models and How to Improve It

论文链接:https://arxiv/abs/2411.03766

论文标题:Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

论文链接:https://arxiv/abs/2411.04996

论文标题:BitNet a4.8: 4-bit Activations for 1-bit LLMs

论文链接:https://arxiv/abs/2411.04965

论文标题:Scaling Laws for Precision

论文链接:https://arxiv/abs/2411.04330

论文标题:Energy Efficient Protein Language Models: Leveraging Small Language Models with LoRA for Controllable Protein Generation

论文链接:https://arxiv/abs/2411.05966

论文标题:Balancing Pipeline Parallelism with Vocabulary Parallelism

论文链接:https://arxiv/abs/2411.05288

论文标题:Toward Optimal Search and Retrieval for RAG

论文链接:https://arxiv/abs/2411.07396

论文标题:Large Language Models Can Self-Improve in Long-context Reasoning

论文链接:https://arxiv/abs/2411.08147

论文标题:Stronger Models are NOT Stronger Teachers for Instruction Tuning

论文链接:https://arxiv/abs/2411.07133

论文标题:Direct Preference Optimization Using Sparse Feature-Level Constraints

论文链接:https://arxiv/abs/2411.07618

论文标题:Cut Your Losses in Large-Vocabulary Language Models

论文链接:https://arxiv/abs/2411.09009

论文标题:Does Prompt Formatting Have Any Impact on LLM Performance?

论文链接:https://arxiv/abs/2411.10541

论文标题:SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

论文链接:https://arxiv/abs/2411.11909

论文标题:SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration

论文链接:https://arxiv/abs/2411.10958

论文标题:Bi-Mamba: Towards Accurate 1-Bit State Space Models

论文链接:https://arxiv/abs/2411.11843

论文标题:RedPajama: an Open Dataset for Training Large Language Models

论文链接:https://arxiv/abs/2411.12372

论文标题:Hymba: A Hybrid-head Architecture for Small Language Models

论文链接:https://arxiv/abs/2411.13676

论文标题:Loss-to-Loss Prediction: Scaling Laws for All Datasets

论文链接:https://arxiv/abs/2411.12925

论文标题:When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

论文链接:https://arxiv/abs/2411.13476

论文标题:Multimodal Autoregressive Pre-training of Large Vision Encoders

论文链接:https://arxiv/abs/2411.14402

论文标题:Natural Language Reinforcement Learning

论文链接:https://arxiv/abs/2411.14251

论文标题:Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

论文链接:https://arxiv/abs/2411.14982

论文标题:TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

论文链接:https://arxiv/abs/2411.15124

论文标题:MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

论文链接:https://arxiv/abs/2411.15296

论文标题:LLMs Do Not Think Step-by-step In Implicit Reasoning

论文链接:https://arxiv/abs/2411.15862

论文标题:O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

论文链接:https://arxiv/abs/2411.16489

论文标题:Star Attention: Efficient LLM Inference over Long Sequences

论文链接:https://arxiv/abs/2411.17116

论文标题:Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

论文链接:https://arxiv/abs/2411.17691

论文标题:Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

论文链接:https://arxiv/abs/2411.17686

论文标题:Reverse Thinking Makes LLMs Stronger Reasoners

论文链接:https://arxiv/abs/2411.19865

论文标题:Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability

论文链接:https://arxiv/abs/2411.19943

十二月论文

论文标题:Designing Scale-Wise Transformers for Text-to-Image Synthesis

论文链接:https://arxiv/abs/2412.01819

论文标题:X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

论文链接:https://arxiv/abs/2412.01824

论文标题:Free Process Rewards without Process Labels

论文链接:https://arxiv/abs/2412.01981

论文标题:Scaling Image Tokenizers with Grouped Spherical Quantization

论文链接:https://arxiv/abs/2412.02632

论文标题:RARE: Retrieval-Augmented Reasoning Enhancement for Large Language Models

论文链接:https://arxiv/abs/2412.02830

论文标题:Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

论文链接:https://arxiv/abs/2412.03548

论文标题:Evaluating Language Models as Synthetic Data Generators

论文链接:https://arxiv/abs/2412.03679

论文标题:Best-of-N Jailbreaking

论文链接:https://arxiv/abs/2412.03556

论文标题:PaliGemma 2: A Family of Versatile VLMs for Transfer

论文链接:https://arxiv/abs/2412.03555

论文标题:VisionZip: Longer is Better but Not Necessary in Vision Language Models

论文链接:https://arxiv/abs/2412.04467

论文标题:Evaluating and Aligning CodeLLMs on Human Preference

论文链接:https://arxiv/abs/2412.05210

论文标题:MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

论文链接:https://arxiv/abs/2412.05237

论文标题:Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

论文链接:https://arxiv/abs/2412.05271

论文标题:LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods

论文链接:https://arxiv/abs/2412.05579

论文标题:Does RLHF Scale? Exploring the Impacts From Data, Model, and Method

论文链接:https://arxiv/abs/2412.06000

论文标题:Unraveling the Complexity of Memory in RL Agents: An Approach for Classification and Evaluation

论文链接:https://arxiv/abs/2412.06531

论文标题:Training Large Language Models to Reason in a Continuous Latent Space

论文链接:https://arxiv/abs/2412.06769

论文标题:AutoReason: Automatic Few-Shot Reasoning Decomposition

论文链接:https://arxiv/abs/2412.06975

论文标题:Large Concept Models: Language Modeling in a Sentence Representation Space

论文链接:https://arxiv/abs/2412.08821

论文标题:Phi-4 Technical Report

论文链接:https://arxiv/abs/2412.08905

论文标题:Byte Latent Transformer: Patches Scale Better Than Tokens

论文链接:https://arxiv/abs/2412.09871

论文标题:SCBench: A KV Cache-Centric Analysis of Long-Context Methods

论文链接:https://arxiv/abs/2412.10319

论文标题:Cultural Evolution of Cooperation among LLM Agents

论文链接:https://arxiv/abs/2412.10270

论文标题:DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

论文链接:https://arxiv/abs/2412.10302

论文标题:No More Adam: Learning Rate Scaling at Initialization is All You Need

论文链接:https://arxiv/abs/2412.11768

论文标题:Precise Length Control in Large Language Models

论文链接:https://arxiv/abs/2412.11937

论文标题:The Open Source Advantage in Large Language Models (LLMs)

论文链接:https://arxiv/abs/2412.12004

论文标题:A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges

论文链接:https://arxiv/abs/2412.11936

论文标题:Are Your LLMs Capable of Stable Reasoning?

论文链接:https://arxiv/abs/2412.13147

论文标题:LLM Post-Training Recipes, Improving Reasoning in LLMs

论文链接:https://arxiv/abs/2412.14135

论文标题:Hansel: Output Length Controlling Framework for Large Language Models

论文链接:https://arxiv/abs/2412.14033

论文标题:Mind Your Theory: Theory of Mind Goes Deeper Than Reasoning

论文链接:https://arxiv/abs/2412.1363

论文标题:Alignment Faking in Large Language Models

论文链接:https://arxiv/abs/2412.14093

论文标题:SCOPE: Optimizing Key-Value Cache Compression in Long-Context Generation

论文链接:https://arxiv/abs/2412.13649

论文标题:LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-Context Multitasks

论文链接:https://arxiv/abs/2412.15204

论文标题:Offline Reinforcement Learning for LLM Multi-Step Reasoning

论文链接:https://arxiv/abs/2412.16145

论文标题:Mulberry: Empowering MLLM with O1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

论文链接:https://arxiv/abs/2412.18319

#上交大揭露大模型审稿风险

一句话就能让论文评分飞升

大语言模型(LLMs)正以前所未有的方式,深刻影响着学术同行评审的格局。同行评审作为科学研究的基石,其重要性毋庸置疑。然而,随着大语言模型逐渐渗透到这一核心过程,我们是否已经准备好面对它可能带来的深远影响?在这场变革之前,我们必须清醒地认识到其中潜藏的风险,并采取切实可行的防范措施。

近年来,大语言模型在多个领域展现出了令人惊叹的潜力。同行评审作为一项既繁琐又至关重要的任务,正在引起越来越多学者的关注并尝试利用大语言模型来辅助甚至替代审稿,力图提高这一传统流程的效率。

斯坦福大学的研究团队便在《NEJM AI》子刊上发布了相关研究,指出大语言模型能够生成与人类审稿人相似的审稿意见。而根据斯坦福团队的估算,最近的若干个 AI 顶会中,竟有高达 6.5% 至 16.9% 的论文内容由大语言模型显著调整过!同样,瑞士洛桑联邦理工大学(EPFL)的研究发现,ICLR 2024 的审稿过程中,约 15.8% 的评审意见是 AI 辅助生成的!与此同时,越来越多的人开始在社交媒体上抱怨审稿人利用大语言模型进行审稿。

种种现象表明,大语言模型已经悄然渗透到了学术审稿的最前线,显现出一种不容忽视的趋势。然而,在其大规模使用之前,我们对其潜在的风险却没有一个清醒的认知。这无疑给同行评议的可靠性带来了巨大的风险。

在此背景下,上海交通大学、佐治亚理工学院、上海市人工智能实验室、佐治亚大学与牛津大学的科研团队联合展开了深入研究,发表了最新论文《Are we there yet? Revealing the risks of utilizing large language models in scholarly peer review》,揭示了大语言模型在审稿中潜藏的风险。研究表明:

  1. 操控风险:作者可能通过在文章中巧妙插入肉眼无法察觉的文本,直接操控大语言模型生成的审稿意见,甚至操控最终的论文评分。
  2. 隐性操控:大语言模型倾向于复述作者主动在文章中揭示的局限性,令作者可以通过有意暴露轻微缺陷,从而隐秘地操控审稿过程。
  3. 幻觉问题:更为严重的是,大语言模型可能对空白文章生成虚构的审稿意见,揭示了「模型幻觉」问题在审稿中的潜在威胁。
  4. 偏见问题:大语言模型在审稿过程中也暴露了明显的偏好,尤其对文章长度和著名作者及机构的偏爱,极大影响评审的公正性。

这些发现暴露出了我们在拥抱新技术的同时,可能忽视的重大风险。为此,研究者们发出了警示:学界应当暂停使用大语言模型替代审稿工作,并呼吁制定有效的防范措施,确保科技进步能够在更加健康、透明的框架内进行。

  • 论文链接:https://arxiv/pdf/2412.01708
  • 项目主页:https://rui-ye.github.io/BadLLMReviewer
  • 调查问卷:https://forms.gle/c9tH3sXrVFtnDgjQ6

显式操纵

研究者们首先揭示了一种低成本却十分有效操纵手段:文章的作者可以通过在文中插入微小、几乎不可见的指令性文字,即可轻松引导审稿模型强调文章的创新性与影响力,同时弱化文章的缺陷(如语法错误等)!插入的文字,尽管在常规人工审稿过程中几乎不可见,但在当前常见的自动化的 LLM 审稿过程中,依然会被提取并与文章内容一同解析,能够被审稿模型误认为提示词,进而操纵模型生成高度正面的反馈,极大提高文章接收概率,危害审稿系统的公平可靠性。

图 1. 作者可在文章中插入肉眼不可见、极小的白色文字

研究团队对三款主流大语言模型审稿系统进行了测试,结果令人震惊:在面对这种显式操控时,所有模型都未能幸免。测试前,文章的评分仅接近边界分数(Borderline);然而,插入操控文字后,文章的评分暴涨,甚至高达 8 分!—— 这一分数在 ICLR 等顶级会议中,意味着论文被接收概率极大。

这一现象清晰地表明,操控手段能够以惊人的效率扭曲审稿系统的判断,显著改变文章的最终命运。如果没有强有力的防范机制,这种操控行为可能会极大地影响学术评审的公平性,甚至对整个科研环境的可信度造成无法估量的损害。

图 2. 显式操纵可使论文评分飞涨

隐式操纵

然而,显式操控虽然有效,却也容易被学术界视为不道德甚至作弊行为,因此一些 「谨慎」的作者可能会选择回避这种方法。那么,是否还有一种更为微妙、隐蔽且更具潜在威胁的操控方式呢?答案是肯定的。

研究者们发现了一种更为隐蔽的操控方式:作者主动披露文章的局限性,尤其是在论文的「Limitations」章节中。这种做法,甚至是学术会议的推荐做法。然而,研究显示,大语言模型审稿时,生成的审稿内容与论文局限性部分的内容竟高度一致!

图 3. 大语言模型容易复述作者在文章中主动揭露的 Limitations

研究者们接着系统对比了人类审稿与论文局限性内容之间的一致性,以及大语言模型审稿与局限性内容之间的一致性。结果显示大语言模型审稿与局限性内容之间的一致性远远高于人类审稿与局限性内容之间的一致性。这意味着,不同于人类审稿人,大语言模型容易被文章本身的信息所左右,缺乏独立批判性思维,而这正是合格审稿人需具备的基本条件。

这一发现揭示了一个深刻的风险:学术作者可以故意暴露一些微不足道的问题,从而间接引导大语言模型产生有利于论文的审稿意见。更严重的是,与显式操控相比,隐式操控更难察觉,更难防范,也更难定性,却能对学术评审的公平性构成严重威胁。

图 4. 大语言模型比真人更容易复述作者在文章中主动揭露的 Limitations

内在缺陷:幻觉

更令人震惊的是,研究者们还发现了大语言模型审稿过程中的一个根本性缺陷 —— 幻觉问题。有时,即使一篇文章根本没有内容,审稿模型依然能生成长篇大论的审稿意见。在测试中,研究者们输入了一个空白文章,结果发现其中一款审稿模型竟然对这篇空白文章生成了完整的审稿意见!虽然另外两款模型识别出了输入为空白并未作出评价,但这种「无中生有」的现象依然令人不寒而栗。

图 5. 大语言模型可能无中生有的审稿内容

更进一步,研究者们不断增加输入给审稿模型的内容(空白 -> 仅标题 -> 标题摘要引言 -> 全篇),发现当进一步加入摘要和引言部分后,所有三种审稿系统的评分竟几乎与完整论文一致。

这一发现揭示了大语言模型在同行评审中的巨大不可靠性:即使文章内容尚未完善,模型仍可能生成似是而非的评审意见,给出与完整论文相似的评分,严重扭曲了评审的实际质量。

图 6. 大语言模型可能给不完整的文章高分

内在缺陷:偏好

除了幻觉问题,大语言模型在同行评审中还可能表现出令人担忧的偏见。研究者们深入探讨了大语言模型评分与文章长度之间的关系,结果发现:大部分审稿系统对论文长度有显著的偏好:论文越长,接受的概率越高。这一偏好无疑会使得那些写得更长、更繁复的文章在评审中占得先机,极大削弱了评审的公正性。

图 7. 大语言模型偏向于更长的文章

此外,研究者们还对大语言模型是否会受到作者机构的影响进行了测试。在单盲审稿模式下,他们尝试将作者的机构名替换为计算机科学领域顶尖的大学(如 MIT 等)或 LLMs 领域的领先公司(如 OpenAI 等),并将作者名字替换为图灵奖得主。结果令人惊讶,所有这些替换均显著提高了文章的接受概率,揭示了大语言模型在审稿过程中存在的系统性偏见。

这一现象表明,若大语言模型成为同行评审的一部分,它将极有可能加剧现有学术评价体系中的不公平问题,进一步放大「名校效应」和「名人效应」。

图 8. 大语言模型审稿被作者机构显著影响

倡议与总结

随着大语言模型(LLM)在学术同行评审中的应用日益增多,研究者们深入分析了其潜在风险,并提出了相应的建议,旨在确保学术审稿过程的公正性和严谨性。基于研究结果,研究者们提出以下倡议:

  • 暂停 LLM 在同行评审中的替代性使用:研究者们呼吁在充分了解 LLM 的风险并采取有效防范措施之前,暂停其在同行评审中的替代式应用。
  • 引入检测工具与问责机制:研究者们呼吁期刊和会议组织者引入全面的检测工具与问责机制,以识别并应对审稿过程中可能的操控行为;并引入惩罚措施来遏制这些行为的发生。
  • 将 LLM 作为辅助工具使用:展望未来,研究者们认为随着投稿数量的持续增加,LLM 在审稿过程中的自动化潜力不可忽视。尽管 LLM 目前还无法完全取代人类审稿,但其仍有潜力作为审稿过程的补充工具,提供额外反馈以提升审稿质量。
  • 增强 LLM 审稿系统的稳健性与安全性:未来应致力于开发一种能够有效整合 LLM 的同行评审流程,既能最大化它们的潜力,又能有效防范我们已识别的风险,增强其稳健性和安全性。

总结而言,虽然 LLM 在提升审稿效率和质量方面有潜力,研究者们强调必须谨慎推进其应用。只有在确保其风险可控且有有效的防范机制后,才能负责任地将 LLM 整合进学术同行评审中,避免破坏学术出版的公正性和严谨性。

(最后研究者们仍在做进一步的问卷调查,邀请广大有投稿 / 审稿经历的同行参与,共同探讨这一新兴技术对学术审稿流程的影响。可点击如下 Google 问卷 [2-5 mins]:https://forms.gle/c9tH3sXrVFtnDgjQ6)

#2024年大模型领域进展全复盘

全面打破GPT-4垄断、DeepSeek打下训练成本..

2024年,我们居然进步这么大。

刚刚过去的 2024 年是生成式 AI 大发展的一年,我们见证了 OpenAI Sora 的崛起,大模型服务价格的飞速下降,以及国内开源大模型的奋起直追。这全方位的快速发展让我们对下一波 AI 的新技术大规模应用充满了信心。

对于身在 AI 领域的工程师和学者们来说,他们看待这一年的观点会有不同吗?

新年伊始,就有人对过去一年里大模型技术的发展进行了详尽的总结。本文的作者 Simon Willison 是英国知名独立研究员和开放源代码创建者。

让我们看看他是怎么说的。

2024 年,大型语言模型领域发生了很多事情。以下是过去 12 个月我们对该领域的研究成果的回顾,以及我尝试确定的关键主题和关键时刻。

2023 年的总结在这里:https://simonwillison/2023/Dec/31/ai-in-2023/

在 2024 年,我们可以看到:

  • GPT-4 垄断被全面打破
  • 一些 GPT-4 级模型可以在笔记本电脑上运行
  • 由于竞争和优化,大模型服务的价格崩盘
  • 多模态视觉已经变得常见,音频和视频模型开始出现
  • 语音和实时摄像头模式正从科幻小说变成现实
  • 一个提示词做出一个 APP,已经很普遍了
  • 对最佳模型的普遍访问仅持续了短短几个月
  • AI 「智能体」可能还有点远
  • 评估真的很重要
  • Apple Intelligence 很糟糕,但 MLX 库很出色
  • 正在崛起的「推理」模型
  • 目前最好的 LLM 来自中国,训练成本不到 600 万美元?
  • 环境影响变好了,但也在变得越来越严重
  • 合成训练数据效果很好
  • LLM 不知何故变得更难用了
  • 知识分布不均匀
  • LLM 需要更好的批评

GPT-4 垄断被全面打破

在 2023 年 12 月的评论中,我写了关于我们还不知道如何构建 GPT-4——OpenAI 提出的领先大模型当时已经有近一年的历史了,但没有其他人工智能实验室能做出更好的模型。OpenAI 的做法里面有什么过人之处吗?

令人欣慰的是,这种情况在过去十二个月里完全改变了。现在有 18 个公司、机构在 Chatbot Arena 排行榜上的模型排名高于 2023 年 3 月的原始 GPT-4(排行榜上的 GPT-4-0314)—— 总共有 70 个模型。

其中最早的是谷歌于 2 月发布的 Gemini 1.5 Pro。除了产生 GPT-4 级别的输出外,它还为该领域引入了几项全新的功能 —— 最值得注意的是其 100 万(后来是 200 万)个 token 输入上下文长度,以及接收视频的能力。

我当时在《The killer app of Gemini Pro 1.5 is video》中写到了这一点,这让我在 5 月的谷歌 I/O 开幕主题演讲中作为主持人短暂露面。

Gemini 1.5 Pro 还展示了 2024 年的一个关键主题:增加上下文长度。去年,大多数模型接收 4096 或 8192 个 token,但 Claude 2.1 是个值得注意的例外,它能接收 20 万个 token。如今,每个严肃的提供商都有一个 10 万以上的 token 模型,而谷歌的 Gemini 系列最多可以接受 200 万个 token。

更长的输入极大地增加了使用 LLM 可以解决的问题范围:你现在可以投入一整本书并询问有关其内容的问题。但更重要的是,你可以输入大量示例代码来帮助模型正确解决编码问题。涉及长输入的 LLM 用例对我来说比纯粹依赖模型权重中已经嵌入的信息的短提示更有趣。我的许多工具都是使用这种模式构建的。

回到击败 GPT-4 的模型:Anthropic 的 Claude 3 系列于 3 月推出,Claude 3 Opus 很快成为我最喜欢的日常大模型。他们在 6 月进一步提高了赌注,推出了 Claude 3.5 Sonnet—— 六个月后,这个模型仍然是我的最爱(尽管它在 10 月 22 日进行了重大升级,令人困惑的是保留了相同的 3.5 版本号。Anthropic 粉丝从那时起就喜欢称它为 Claude 3.6)。

然后是其余的大模型。如果你今天浏览 Chatbot Arena 排行榜(仍然是获得基于情绪的模型评估的最有用的地方),你会发现 GPT-4-0314 已经跌至第 70 位左右。拥有得分较高的模型的 18 家组织分别是 Google、OpenAI、阿里、Anthropic、Meta、Reka AI、01 AI、亚马逊、Cohere、DeepSeek、英伟达、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、普林斯顿和腾讯。

一些 GPT-4 级模型可以在笔记本电脑上运行

我的个人笔记本电脑是 2023 年的 64GB M2 MacBook Pro。这是一台功能强大的机器,但它也已经有近两年的历史了 —— 而且至关重要的是,我自 2023 年 3 月第一次在电脑本地上运行 LLM 以来,一直在使用的是同一台笔记本电脑。

去年 3 月,同一台笔记本电脑几乎可以运行 GPT-3 类模型,现在已经运行了多个 GPT-4 类模型!我对此的一些注释:

Qwen2.5-Coder-32B 是一款可以很好地编码的 LLM,可在我的 Mac 上运行,11 月份,我谈到了 Qwen2.5-Coder-32B——Apache 2.0 许可模型。

我现在可以在我的笔记本电脑上运行 GPT-4 类模型,运行 Meta 的 Llama 3.3 70B(12 月发布)。

这对我来说仍然很令人惊讶。我们原本会想当然地认为具有 GPT-4 功能和输出质量的模型需要一台数据中心级服务器,该服务器具有一个或多个价值 4 万美元以上的 GPU。

事实上,这些模型占用了我 64GB 的内存空间,所以我不经常运行它们 —— 运行的时候就不能干其他的事了。

它们能够运行的事实证明了 AI 领域在过去一年中取得了令人难以置信的训练和推理性能提升。事实证明,在模型效率方面,还有很多唾手可得的成果。我预计未来还会有更多。

Meta 的 Llama 3.2 模型值得特别提及。它们可能不是 GPT-4 级别,但在 1B 和 3B 大小下,它们的性能远远超出了参数量的水平。我使用免费的 MLC Chat iOS 应用程序在 iPhone 上运行 Llama 3.2 3B,对于其微小(<2GB)的参数量来说,这是一个功能惊人的模型。尝试启动它并要求它提供「Netflix 圣诞电影的情节大纲,其中一位数据记者爱上了一位当地的陶瓷师」。这是我得到的结果,每秒 20 个 token 的速度相当可观:

它平淡而普通,但我的手机现在可以向 Netflix 推荐平淡而普通的圣诞电影了!

由于竞争和优化

大模型服务的价格崩盘

在过去的 12 个月中,通过顶级托管服务的 LLM 运行 token 的成本急剧下降。

2023 年 12 月(这是 OpenAI 定价页面的互联网快照),OpenAI 对 GPT-4 收取 30 美元 / 百万输入 token,对当时新推出的 GPT-4 Turbo 收取 10 美元 /mTok,对 GPT-3.5 Turbo 收取 1 美元 /mTok。

今天 30 美元 /mTok 可以让你获得 OpenAI 最昂贵的模型 o1。GPT-4o 售价 2.50 美元(比 GPT-4 便宜 12 倍),GPT-4o mini 售价 0.15 美元 /mTok—— 比 GPT-3.5 便宜近 7 倍,功能强大得多。

其他模型提供商的收费甚至更低。Anthropic 的 Claude 3 Haiku(从 3 月开始,但仍然是他们最便宜的型号)为 0.25 美元 /mTok。Google 的 Gemini 1.5 Flash 为 0.075 美元 /mTok,而他们的 Gemini 1.5 Flash 8B 为 0.0375 美元 /mTok—— 比去年的 GPT-3.5 Turbo 便宜 27 倍。

我一直在我的 llm 定价标签下跟踪这些价格变化。

这些价格下降是由两个因素驱动的:竞争加剧和效率提高。对于每个关心 LLM 对环境影响的人来说,效率真的很重要。这些价格下降与运行提示所消耗的能源量直接相关。

关于大型 AI 数据中心建设对环境的影响,仍然有很多值得担心的地方,但许多对单个提示的能源成本的担忧已不再可信。

这里有一个有趣的简单计算:使用 Google 最便宜的型号 Gemini 1.5 Flash 8B(10 月发布)为我个人照片库中的每 6.8 万张照片生成简短描述需要花费多少钱?

每张照片需要 260 个输入 token 和大约 100 个输出 token。

  • 260×68,000 = 17,680,000 个输入 token
  • 17,680,000×0.0375 美元 / 百万 = 0.66 美元
  • 100×68,000 = 6,800,000 个输出 token
  • 6,800,000×0.15 美元 / 百万 = 1.02 美元

处理 68,000 张图片的总成本为 1.68 美元。这太便宜了,我不得不计算了三次才能确认我做对了。

这些描述有多美好?这是我从一行命令中得到的结果:

llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg

处理在加州科学院照的这张蝴蝶照片:

输出内容:

一个浅盘,可能是蜂鸟或蝴蝶喂食器,是红色的。盘内可见橙色水果片。喂食器中有两只蝴蝶,一只深棕色/黑色蝴蝶,带有白色/奶油色斑纹。另一只大号棕色蝴蝶,带有浅棕色、米色和黑色斑纹,包括明显的眼斑。较大的棕色蝴蝶似乎正在吃水果。

260 个输入 token,92 个输出 token。成本约为 0.0024 美分(不到 400 分之一美分)。效率的提高和价格的降低是我最喜欢的 2024 年趋势。我希望以极低的能源成本获得 LLM 的效用,看起来这就是我们得到的。

多模态视觉已经变得常见

音频和视频模型开始出现

上面的蝴蝶示例说明了 2024 年的另一个关键趋势:多模态 LLM 正在兴起。

一年前,其中最引人注目的例子是 GPT-4 Vision,于 2023 年 11 月在 OpenAI 的 DevDay 上发布。谷歌的多模态 Gemini 1.0 于 2023 年 12 月 7 日发布,因此它也(刚好)进入了 2023 年的窗口。

2024 年,几乎每个重要的模型供应商都发布了多模态模型。我们在 3 月看到了 Anthropic 的 Claude 3 系列,4 月看到了 Gemini 1.5 Pro(图像、音频和视频),然后 9 月各家带来了 Qwen2-VL 和 Mistral 的 Pixtral 12B 以及 Meta 的 Llama 3.2 11B 和 90B 视觉模型。

10 月份,我们从 OpenAI 获得了音频输入和输出,11 月份,我们从 Hugging Face 获得了 SmolVLM,12 月份,我们从 Amazon Nova 获得了图像和视频模型。

10 月份,我也升级了我的 LLM CLI 工具,以通过附件支持多模态模型。它现在拥有一系列不同视觉模型的插件。

我认为,抱怨 LLM 改进速度放缓的人往往忽略了这些多模态模型的巨大进步。能够针对图像(以及音频和视频)运行提示是一种应用这些模型的迷人新方法。

语音和实时摄像头模式

正从科幻小说变成现实

新兴的音频和实时视频模式值得特别关注。

与 ChatGPT 对话的功能首次出现在 2023 年 9 月,但当时还没真正实现:OpenAI 要用旗下的 Whisper 语音转文本模型和一个新的文本转语音模型(名为:tts-1)来实现与 ChatGPT 对话,但实际的模型还只能看到文本。

5 月 13 日,OpenAI 春季发布会推出了 GPT-4o。多模态模型 GPT-4o(o 代表「omni」,是全能的意思)能直接「听懂」你说的每一句话 —— 接受音频输入并输出令人难以置信的逼真语音,也不再需要 TTS 或 STT 模型在其中转化。

这个演示中的声音与斯嘉丽・约翰逊惊人地相似...... 在斯嘉丽投诉之后,这个声音 Skye 从未在任何正式产品中亮相。

不过,发布会上那个让人眼前一亮的 GPT-4o 高级语音功能在产品端上线的计划一再推迟,这引起了不少讨论。

当 2024 年 8 月至 9 月期间,ChatGPT 高级语音模式最终上线时,效果真的惊艳到我了。

我经常在遛狗时使用它,更拟人的语调,让 AI 生成的内容听起来更生动。试验 OpenAI 的音频 API 也很有趣。

更有趣的是:高级语音模式可以模仿口音!比如,我让它「假装你是一只带着浓重俄罗斯口音的加利福尼亚棕鹈鹕,但只用西班牙语和我交谈」:

棕鹦鹉,33秒

OpenAI 不是唯一一家在搞多模态音频模型的公司,Google 的 Gemini 也能接收语音输入,而且 Gemini 应用现在也能像 ChatGPT 一样说话了。亚马逊也提前宣布了他们的 Amazon Nova 会有语音模式,不过得等到 2025 年第一季度才能用上。

Google 在 9 月份发布的 NotebookLM 把音频输出玩出了新花样 —— 它能生成超级逼真的「播客主持人」对话,不管你给它什么内容都行。后来他们还加入了自定义指令功能,我当然二话不说就把主持人都变成了鹈鹕:

video-scraping-pelicans鹈鹕,7分钟

最新的转折出现在 12 月(这个月可真是热闹),就是实时视频功能。ChatGPT 的语音模式现在让你可以直接和模型分享摄像头画面,实时聊聊你看到的东西。Google Gemini 也推出了类似的预览功能,这次终于抢在 ChatGPT 前一天发布了。

,时长00:56

这些功能才刚出来几个星期,我觉得它们的影响力还没完全显现出来。如果你还没试过,真的要体验一下!

Gemini 和 OpenAI 都提供这些功能的 API 接口。OpenAI 最开始用的是比较难搞的 WebSocket API,不过在 12 月他们推出了新的 WebRTC API,用起来简单多了。现在,要开发一个能和用户语音对话的网页应用已经变得超级容易了。

一个提示词做出一个 APP

已经很普遍了

这在 2023 年就可以通过 GPT-4 实现了,但直到 2024 年它的价值才真正凸显。

我们早就知道大语言模型在写代码方面有着惊人的能力。如果你给出恰当的提示词,它们能用 HTML、CSS 和 JavaScript(如果配置好相关环境,还能用上 React 这样的工具)为你构建一个完整的交互式应用程序 —— 通常只需要一个提示词就够了。

Anthropic 在发布 Claude 3.5 Sonnet 的公告中,顺带介绍了一个突破性的新功能:Claude Artifacts。这个功能起初并没有引起太大关注,因为它只是在公告中写了一下。

有了 Artifacts,Claude 可以为你写一个即时交互式应用,然后让你直接在 Claude 界面中使用它。

这就是我用 Claude 生成的一个提取网页 URL 的应用:

现在 Claude Artifacts 已经成为了我的依靠。很多其他团队也开发了类似的系统,例如,GitHub 在 10 月份推出了他们的版本:GitHub Spark。Mistral Chat 在 11 月份添加了一个叫 Canvas 的类似功能。

来自 Val Town 的 Steve Krause 基于 Cerebras 构建了一个版本,展示了一个每秒处理 2000 个 token 的大语言模型如何能在不到一秒的时间内对应用进行迭代更新。

到了 12 月,Chatbot Arena 团队为此类功能推出了一个全新的排行榜,用户可以用两个不同的模型构建相同的交互式应用,然后对结果进行投票。

排行榜前六位

很难找到比这更有说服力的证据,这项功能现在已经成为能在所有主流模型上有效实现的通用功能了。

我自己也在为 Datasette 项目开发类似的功能,目标是让用户能够通过提示来构建和迭代针对自己数据的自定义小部件和数据可视化。我还通过 uv 找到了一种编写一次性 Python 程序的类似模式。

这种提示驱动的自定义界面功能非常强大,而且构建起来也很容易(只要你搞定了浏览器沙箱的那些棘手细节),我预计在 2025 年会有一大波产品都会推出类似功能。

对最佳模型的普遍访问仅持续了短短几个月

今年有几个月的时间,三个最好的可用模型:GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro,都可以被世界上大多数人免费使用。

OpenAI 在 5 月份向所有用户开放了 GPT-4o 的免费使用权限,而 Claude 3.5 Sonnet 从 6 月份发布起就是免费的。

这是一个重大的改变,因为在之前的一年里,免费用户主要只能使用 GPT-3.5 级别的模型,这导致新用户对大语言模型的实际能力形成了很不准确的认识。

不过,这个时代似乎已经结束了,而且很可能是永久性的,标志是 OpenAI 推出了 ChatGPT Pro。这项每月 200 美元的订阅服务是访问他们最强大的新模型(o1 Pro)的唯一途径。

由于 o1 系列(以及「o 系列」未来的模型)背后的诀窍是投入更多的计算时间来获得更好的结果,我认为那些能免费就能访问到最顶级的模型的日子,应该不会再回来了。

AI 「智能体」可能还有点远

说实话,AI Agents 这个词让我很头疼。它没有一个统一、清晰且被广泛认可的定义。更糟的是,用这个词的人似乎从来不承认这一点。

如果你告诉我你在开发 AI Agents,这基本上等于什么都没说。除非我能读心,否则我根本不知道,AI Agents 定义有几十种,你到底在造哪一种?

我看到的 AI Agents 开发者主要有两类:一类认为 AI Agents 显然就是替你做事的东西,就像旅行社那样;另一类人则在想象为大语言模型配备各种工具,让大模型能够自主驱动,执行任务。

人们还经常提到「autonomy」这个词,但同样也没说清楚是什么意思。

(几个月前我在推特上收集了 211 个定义,我还让 gemini-exp-1206 试着总结了一下这些定义。)

  • 文档链接:https://lite.datasette.io/?jsnotallow=https://gist.github/simonw/bdc7b894eedcfd54f0a2422ea8feaa80#/data/raw

不管这个词到底是什么意思,AI Agents 总会给人一种「即将成真」的感觉。

撇开术语不谈,我对它们的实用性持怀疑态度,原因还是一个老问题:大语言模型很容易「轻信」,它会照单全收你告诉它的一切。

这就暴露出一个关键问题:如果一个决策辅助系统连真假都分不清,它还能发挥多大作用?无论是旅行顾问、生活助手,还是研究工具,都会因为这个缺陷而大打折扣。

最近就有一个现成的例子:就在前几天,谷歌搜索闹了个大乌龙。它把粉丝创作网站上一个虚构的《魔法满屋 2》剧情,当成了真实电影来介绍。

提示注入就是这种「轻信」的必然结果。自 2022 年 9 月以来我们一直在讨论这个问题,但 2024 年在解决这个问题上,几乎没有什么进展。

我开始觉得,最流行的 AI Agents 概念其实依赖于通用人工智能的实现。要让一个模型能够抵抗「轻信」,这真是个艰巨的任务。

评估真的很重要

Anthropic 的 Amanda Askell(负责 Claude 性格塑造的主要工作者)说:

系统提示背后那个无聊但至关重要的秘密就是用测试驱动开发。你不是先写一个系统提示,然后再想办法测试它,而是先写好测试,然后找到一个能通过这些测试的系统提示。

2024 年的经验告诉我们:在大语言模型应用领域,最重要的核心竞争力是什么?是一套完善的自动化评估系统。

为什么这么说?因为有了它,你就能:抢占先机,快人一步采用新模型,加速迭代,不断优化产品,确保功能既可靠又实用。

Vercel 的 Malte Ubl 说:

当 @v0 刚推出时,我们非常担心要用各种预处理和后处理的复杂操作来保护提示。

于是我们彻底转变思路,给了它充分的发挥空间。但很快就发现:没有评估标准、没有模型指导、更没有用户体验的提示,就像拿到一台没说明书的 ASML 机器 —— 就算再先进,也无从下手。

我还在探索最适合自己的工作模式。评估的重要性已是共识,但「如何做好评估」这个问题却仍然缺乏系统性的指导。我一直在通过评估标签追踪这方面的进展。我现在用的「鹈鹕骑自行车」SVG 基准测试,与那些成熟的评估套件相比,还有很长的路要走。

Apple Intelligence 很糟糕

但 MLX 库很出色

去年,因为没有配备 NVIDIA GPU 的 Linux/Windows 机器,我在尝试新模型的时候遇到了不少阻碍。

从配置上看,64GB 的 Mac 本应该是运行 AI 模型的理想之选 —— CPU 和 GPU 共享内存的设计堪称完美。

但现实很残酷:当下的 AI 模型在发布时,基本都是以模型权重和开发库的形式推出,而这些几乎只适配 NVIDIA 的 CUDA 平台。

llama.cpp 生态系统在这方面帮了大忙,但真正的突破是苹果的 MLX 库,这是一个「专为 Apple Silicon 设计的数组框架」。它真的很棒。

苹果的 mlx-lm Python 支持在我的 Mac 上运行各种 MLX 兼容的模型,性能非常出色。Hugging Face 上的 mlx-community 提供了超过 1000 个已转换为必要格式的模型。

Prince Canuma 开发的优秀且发展迅速的 mlx-vlm 项目也把视觉大语言模型带到了 Apple Silicon 上。我最近用它运行了 Qwen 的 QvQ。

虽然 MLX 是个改变游戏规则的东西,但苹果自己的 Apple Intelligence 功能大多令人失望。我本来非常期待 Apple Intelligence,在我的预测中,我认为苹果绘专注于做能保护用户隐私,打造让用户清晰明了、不会误解的大语言模型应用。

现在这些功能已经推出,效果相当差。作为一个大语言模型的重度用户,我知道这些模型能做什么,而苹果的大语言模型功能只是提供了一个苍白的模仿。我们得到的是曲解新闻标题的通知摘要,以及完全没用的写作助手工具,不过 emoji 生成器还是挺有意思的。

正在崛起的「推理」模型

2024 年最后一个季度最有趣的进展是一种新型 LLM 的出现,以 OpenAI 的 o1 模型为代表。

要理解这些模型,可以把它们看作是「思维链提示」技巧的延伸。这个技巧最早出现在 2022 年 5 月的论文《Large Language Models are Zero-Shot Reasoners》中。

这个技巧主要在说,如果你让模型在解决问题时「大声思考」,它往往能得到一些原本想不到的结果。

o1 把这个过程进一步融入到了模型本身。具体细节有点模糊:o1 模型会花费一些「推理 token」来思考问题(用户看不到这个过程,不过 ChatGPT 界面会显示一个总结),然后给出最终答案。

这里最大的创新在于,它开创了一种新的扩展模型的方式:不单纯地通过增加训练时的计算量来提升模型性能,而是让模型在推理时投入更多计算资源来解决更难的问题。

o1 的续作 o3 在 12 月 20 日发布,o3 在 ARC-AGI 基准测试上取得了惊人成绩。不过,从 o3 的巨额推理成本来看,它可能花掉了超过 100 万美元的计算成本!

o3 预计将在 1 月份推出。但我觉得很少有人的实际问题需要这么大的计算开销,o3 也标志着 LLM 架构在处理复杂问题时迈出了实质性的一步。

OpenAI 并不是这个领域的「独角戏」。谷歌在 12 月 19 日也推出了他们的第一个类似产品:gemini-2.0-flash-thinking-exp。

阿里巴巴的 Qwen 团队在 11 月 28 日发布了他们的 QwQ 模型,我在自己电脑上就能跑。他们在 12 月 24 日又推出了一个叫 QvQ 的视觉推理模型,我也在本地运行过。

DeepSeek 在 11 月 20 日通过他们的聊天界面提供了 DeepSeek-R1-Lite-Preview 模型试用。

要深入了解推理扩展,我推荐看看 Arvind Narayanan 和 Sayash Kapoor 写的《Is AI progress slowing down?》这篇文章。

Anthropic 和 Meta 还没什么动静,不过我赌他们肯定也在开发自己的推理扩展模型。Meta 在 12 月发表了一篇相关论文《Training Large Language Models to Reason in a Continuous Latent Space》。

目前最好的 LLM 来自中国

训练成本不到 600 万美元?

不完全是,但差不多是。这的确是个吸引眼球的好标题。

今年年底的大新闻是 DeepSeek v3 的发布,它在圣诞节当天连 README 文件都没有就被放到了 Hugging Face 上,第二天就发布了文档和论文。

DeepSeek v3 是一个庞大的 685B 参数模型,是目前最大的公开授权模型之一,比 Meta 公司最大的 Llama 系列模型 Llama 3.1 405B 还要大得多。

基准测试结果表明,它与 Claude 3.5 Sonnet 不相上下。Vibe 基准测试(又称聊天机器人竞技场)目前将其排在第 7 位,仅次于 Gemini 2.0 和 OpenAI 4o/o1 型号。这是迄今为止排名最高的公开授权模型。

DeepSeek v3 真正令人印象深刻的是其训练成本。该模型在 2,788,000 个 H800 GPU 时内完成了训练,估计成本为 5,576,000 美元。Llama 3.1 405B 训练了 30,840,000 个 GPU 小时,是 DeepSeek v3 的 11 倍,但模型的基准性能却略逊一筹。

美国对中国出口 GPU 的规定似乎激发了一些非常有效的训练优化。

环境影响得到改善

模型(包括托管模型和我可以在本地运行的模型)效率的提高带来了一个可喜的结果,那就是在过去几年中,运行 Prompt 的能耗和对环境的影响大大降低了。

与 GPT-3 时代相比,OpenAI 自己的提示词器收费也降低了 100 倍。我有可靠消息称,Google Gemini 和 Amazon Nova(两家最便宜的模型提供商)都没有亏本运行提示词器。

我认为这意味着,作为个人用户,我们完全不必为绝大多数提示词消耗的能源感到内疚。与在街上开车,甚至在 YouTube 上看视频相比,其影响可能微乎其微。

同样,训练也是如此。DeepSeek v3 的训练费用不到 600 万美元,这是一个非常好的迹象,表明训练成本可以而且应该继续下降。

对于效率较低的模型,我认为将其能源使用量与商业航班进行比较是非常有用的。最大的 Llama 3 模型的成本约等于从纽约到伦敦的一位数满载乘客航班。这当然不是一无是处,但一旦经过训练,该模型就可以供数百万人使用,而无需额外的训练成本。

环境影响也变得越来越严重

更大的问题在于,未来这些模式所需的基础设施建设将面临巨大的竞争压力。

谷歌、Meta、微软和亚马逊等公司都在斥资数十亿美元建设新的数据中心,这对电网和环境造成了巨大影响。甚至还有人说要建立新的核电站,但这需要几十年的时间。

这些基础设施有必要吗?DeepSeek v3 的 600 万美元训练成本和 LLM 价格的持续暴跌可能暗示了这一点。但是,你是否希望自己成为一名大型科技公司的高管,在几年后证明自己的观点是错误的情况下,仍然坚持不建设这些基础设施呢?

一个有趣的比较点是,19 世纪铁路在世界各地的铺设方式。修建这些铁路需要巨额投资,并对环境造成巨大影响,而且修建的许多线路被证明是不必要的,有时不同公司的多条线路服务于完全相同的路线。

由此产生的泡沫导致了数次金融崩溃,参见维基百科中的 1873 年恐慌、1893 年恐慌、1901 年恐慌和英国的铁路狂热。它们给我们留下了大量有用的基础设施,也造成了大量破产和环境破坏。

「泔水」之年

2024 年是「泔水」一词成为艺术术语的一年。我在 5 月份写过一篇文章,对 @deepfates 的这条推文进行了扩展:

实时观察「泔水」如何成为一个艺术术语。就像「垃圾邮件」成为不受欢迎电子邮件的专有名词一样,「泔水」也将作为人工智能生成的不受欢迎内容的专有名词被载入字典。

我把这个定义稍微扩展了一下:

「泔水」指的是人工智能生成的未经请求和审查的内容。

最后,《卫报》和《纽约时报》都引用了我关于泔水的论述。

以下是我在《纽约时报》上说的话:

社会需要简明扼要的方式来谈论现代人工智能,无论是正面的还是负面的。「忽略那封邮件,它是垃圾邮件 」和「忽略那篇文章,它是泔水」都是有用的教训。

我喜欢「泔水」这个词,因为它简明扼要地概括了我们不应该使用生成式 AI 的一种方式。

「泔水」甚至还入选了 2024 年牛津年度词汇,但最终输给了「脑腐」。

合成训练数据很有效

「模型崩溃」的概念,似乎出人意料地在公众意识中根深蒂固。2023 年 5 月,《The Curse of Recursion: Training on Generated Data Makes Models Forget》一文首次描述了这一现象。2024 年 7 月,《自然》杂志以更醒目的标题重复了这一现象:在递归生成的数据上进行训练时,人工智能模型会崩溃。

这个想法很有诱惑力:随着人工智能生成的「泔水」充斥互联网,模型本身也会退化,将以一种导致其不可避免灭亡的方式吸收自己的输出。

这显然没有发生。相反,我们看到人工智能实验室越来越多地在合成内容上进行训练 — 有意识地创建人工数据,以帮助引导他们的模型走向正确的道路。

我所见过的对此最好的描述之一来自 Phi-4 技术报告,其中包括以下内容:

合成数据作为预训练的重要组成部分正变得越来越普遍,Phi 系列模型也一直强调合成数据的重要性。与其说合成数据是有机数据的廉价替代品,不如说合成数据与有机数据相比有几个直接优势。

结构化学习和逐步学习。在有机数据集中,token 之间的关系往往复杂而间接。可能需要许多推理步骤才能将当前标记与下一个 token 联系起来,这使得模型很难有效地学习下一个 token 的预测。相比之下,语言模型生成的每个 token 顾名思义都是由前面的标记预测的,这使得模型更容易遵循由此产生的推理模式。

另一种常见的技术是使用较大的模型为较小、较便宜的模型创建训练数据,越来越多的实验室都在使用这种技巧。DeepSeek v3 使用了 DeepSeek-R1 创建的「推理」数据。Meta 的 Llama 3.3 70B 微调使用了超过 2500 万个合成生成的示例。

精心设计进入 LLM 的训练数据似乎是创建这些模型的关键所在。从网络上抓取全部数据并不加区分地将其投入训练运行的时代已经一去不复返了。

LLM 不知何故变得更难用了

我一直在强调,LLM 是强大的用户工具,它们是伪装成菜刀的电锯。它们看起来简单易用,给聊天机器人输入信息能有多难?但实际上,要充分利用它们并避免它们的许多陷阱,你需要有深厚的理解力和丰富的经验。

如果说在 2024 年,这个问题变得更加严重的话,好消息是我们已经建立了可以用人类语言与之对话的计算机系统,它们会回答你的问题,而且通常都能答对。这取决于问题的内容、提问的方式,以及问题是否准确地反映在未记录的秘密训练集中。

可用系统的数量激增。不同的系统有不同的工具,它们可以用来解决你的问题,比如 Python、JavaScript、网络搜索、图像生成,甚至数据库查询。所以你最好了解这些工具是什么,它们能做什么,以及如何判断 LLM 是否使用了它们。

你知道 ChatGPT 现在有两种完全不同的 Python 运行方式吗?

想要构建一个与外部 API 对话的 Claude 工件?你最好先了解一下 CSP 和 CORS HTTP 标头。

模型可能变得更强大了,但大多数限制却没有改变。OpenAI 的 o1 也许终于能大部分计算「Strawberry」中的 R,但它的能力仍然受限于其作为 LLM 的性质,以及它所运行的线束对它的限制。O1 不能进行网络搜索,也不能使用 Code Interpreter,但 GPT-4o 却可以 —— 两者都在同一个 ChatGPT UI 中。(如果你要求,o1 会假装做这些事,这是 2023 年初 URL 幻觉 bug 的回归)。

我们对此有何对策?几乎没有。

大多数用户都被扔进了深水区。默认的 LLM 聊天 UI 就像是把全新的电脑用户扔进 Linux 终端,然后指望他们自己能搞定一切。

与此同时,终端用户对这些设备的工作原理和功能所形成的不准确的心理模型也越来越常见。我见过很多这样的例子:有人试图用 ChatGPT 的截图来赢得争论 — 这本来就是一个可笑的命题,因为这些模型本来就不可靠,再加上只要你正确提示,就能让它们说任何话。

这也有一个反面:很多见多识广的人已经完全放弃了 LLM,因为他们不明白怎么会有人能从一个有如此多缺陷的工具中获益。要想最大限度地利用 LLM,关键在于学会如何使用这种既不可靠又强大无比的技术。这是一项绝对不显而易见的技能!

在这里,有用的教育内容大有可为,但我们需要做得更好,而不是将其全部外包给那些在推特上狂轰滥炸的人工智能骗子。

知识分布不均匀

现在,大多数人都听说过 ChatGPT。有多少人听说过 Claude?

积极关注这些内容的人与 99% 不关注这些内容的人之间存在着巨大的知识鸿沟。

变革的速度也无济于事。就在上个月,我们看到实时界面的普及,你可以将手机摄像头对准某样东西,然后用声音谈论它...... 还可以选择让它假装成圣诞老人。大多数自我认证的 nerd 甚至还没试过这个。

鉴于这项技术对社会的持续及潜在影响,我不认为这种差距的存在是健康的。我希望看到更多的努力来改善这种状况。

LLM 需要更好的批评

很多人都非常讨厌这种东西。在我混迹的一些地方(Mastodon、Bluesky、Lobste.rs,甚至偶尔在 Hacker News),即使提出「LLM 很有用」,也足以引发一场大战。

我明白不喜欢这项技术的理由有很多:环境影响、训练数据(缺乏)道德、缺乏可靠性、负面应用、对人们工作的潜在影响。

LLM 绝对值得批评。我们需要对这些问题进行讨论,找到缓解这些问题的方法,帮助人们学会如何负责任地使用这些工具,使其正面应用大于负面影响。

我喜欢对这些东西持怀疑态度的人。两年多来,炒作的声音震耳欲聋,大量的「假冒伪劣商品」和错误信息充斥其中。很多错误的决定都是在这种炒作的基础上做出的。敢于批评是一种美德。

如果我们想让有决策权的人在如何应用这些工具方面做出正确的决定,我们首先需要承认确实有好的应用,然后帮助解释如何将这些应用付诸实践,同时避免许多非实用性的陷阱。

(如果你仍然认为根本没有什么好的应用,那我就不知道你为什么能读完这篇文章了!)。

我认为,告诉人们整个领域都是环境灾难性的剽窃机器,不断地胡编乱造,无论这代表了多少真理,都是对这些人的伤害。这里有真正的价值,但实现这种价值并不直观,需要指导。我们这些了解这些东西的人有责任帮助其他人弄明白。

参考内容:

​​https://simonwillison/2024/Dec/31/llms-in-2024/#-agents-still-haven-t-really-happened-yet​​

#联手OpenAI,吴恩达推出一门o1推理新课程

在刚刚过去的 2024 年,OpenAI 推出了 o 系列模型。相比于以往大型语言模型,o 系列模型使用更多的计算进行更深入的「思考」,能够回答更复杂、更细致的问题。

通过在推理时执行思维链推理,o 系列模型在新兴用例中表现出色,包括多步骤规划、图像推理和长期编码。那么,具体如何使用 o 系列模型来构建需要复杂推理的应用程序呢?

最近,OpenAI 联合人工智能著名学者、斯坦福大学教授吴恩达推出了一门关于使用 o1 进行推理的免费 DeepLearning.AI 课程 ——Reasoning with o1,讲师是 OpenAI 战略解决方案架构主管 Colin Jarvis。

课程地址:https://www.deeplearning.ai/short-courses/reasoning-with-o1

Reasoning with o1课程内容主要包括:

  • o1 即时工程的基础知识
  • 规划和执行多步骤任务
  • 创建和编辑代码
  • 图像推理
  • 可提高模型性能的 Metaprompting

通过这门课程,学生将:

  • 了解 o1、它的工作原理、性能以及使用它的最佳场景。
  • 了解如何有效地提示 o1 以及何时将任务委派给更具成本效益、更低延迟的模型。
  • 了解 o1 如何在编码和视觉推理任务上表现出色,以及如何应用 Metaprompting 来优化应用程序。

具体来说,在 Reasoning with o1课程中,学生将了解 OpenAI 如何利用强化学习来构建使用「测试时计算」来提高推理任务性能的模型;了解什么是「思维链」提示,以及 o1 如何自主地利用它来将问题分解为更小的步骤,尝试多种策略,并在回答问题之前仔细思考。

o1 模型特别擅长抽象推理任务。它在规划、编码、分析、特定领域推理(如法律)和 STEM 科目等任务上具有破纪录的性能。Reasoning with o1课程内容涵盖:

  • 学习识别 o1 模型适合哪些任务,以及何时需要使用更小或更快的模型,或将这两者结合起来。
  • 了解使用 o1 进行提示的四个关键原则,并探索性能上的差异。
  • 实现一个多步骤任务,其中 o1 作为协调器创建规划并将其交给 4o-mini 模型按顺序执行规划,平衡智能和成本之间的权衡。
  • 使用 o1 执行编码任务,构建新应用程序、编辑现有代码,并通过在 o1-mini 和 GPT 4o 之间运行编码竞赛来测试性能。
  • 使用 o1 进行图像理解,并了解它如何通过层次推理获得更好的性能,其中它会预先产生延迟和成本,预处理图像并使用丰富的细节对其进行索引,以便稍后用于问答。
  • 学习一种称为 Metaprompting 的技术,以使用 o1 来改进提示。

怎么说?来学习吗?

#RoboVLMs

全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷

本文作者来自清华大学、字节跳动、中科院自动化所、上海交通大学和新加坡国立大学。作者列表:李兴航、李沛言、刘明桓、王栋、刘济榕、康炳易、马骁、孔涛、张翰博和刘华平。第一作者李兴航是清华大学计算机系博士生。通讯作者是字节跳动机器人研究员孔涛,新加坡国立大学博士后张翰博和清华大学计算机系教授刘华平。

近年来,视觉语言基础模型(Vision Language Models, VLMs)大放异彩,在多模态理解和推理上展现出了超强能力。现在,更加酷炫的视觉语言动作模型(Vision-Language-Action Models, VLAs)来了!通过为 VLMs 加上动作预测模块,VLAs 不仅能 “看” 懂和 “说” 清,还能 “动” 起来,为机器人领域开启了新玩法!

,时长01:43

虽然 VLAs 在各种任务和场景中表现抢眼,但大家在模型设计上却走了很多不同的路,比如用什么架构、怎么选数据、怎么调训练策略等等,这导致领域内对 “怎么做好一个 VLA” 还没有统一的答案。为了理清这些问题,我们通过一系列的实验,提出了一个全新模型 ——RoboVLMs。

  • 论文标题:Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models
  • 论文地址:https://arxiv/pdf/2412.14058

这个模型超级简单,但性能却相当硬核!它不仅在三个模拟任务中取得了高分,还在真实机器人实验中交出了满分答卷。这篇文章就是要带你一起看看,我们是如何用 RoboVLMs 解锁 VLA 的无限可能!

四大灵魂拷问:RoboVLMs 是怎么炼成的?

我们围绕四个关键问题,对 VLA 的设计展开了深度探索,下面就带你看看答案!

1. 为什么要用 VLA 模型?

简单说,通过实验,我们发现设计合理的 VLA 不仅能轻松搞定常见的操作任务,还能在陌生场景中稳稳发挥。

仿真任务中拿下顶尖成绩

在 CALVIN 和 SimplerEnv 环境里,RoboVLMs 取得了压倒性的胜利:

  • 任务成功率:表现稳定且超越主流模型。
  • 泛化能力:即使在陌生场景中,表现依然抗打!

图 1 SimplerEnv 仿真环境中的评测结果            

图 2 针对视觉语言预训练的消融实验结果

真实机器人实验也不输

在真实环境中,RoboVLMs 面对更复杂的挑战,仍然比其他模型表现更好。比如,在果蔬分类任务中,它不仅能精准识别,还能应对干扰环境,稳稳完成分类操作。无论是已知场景还是新任务,它都能轻松拿下。

图 3 真实环境下的评测结果

对于未见过的技能描述、背景、干扰物体和目标物体,RoboVLMs 均能很好的完成任务。

2. 怎么设计一个靠谱的 VLA 架构?

这里面讲究可不少!比如:

  • 动作空间:用连续动作空间比离散的好很多。
  • 历史信息:加多步历史信息后,模型的操作更稳准狠。
  • 历史信息组织模块:一个专门的模块可以让模型更懂 “上下文”。

经过一系列实验,我们确认了这些设计选择是提升模型性能和泛化能力的关键。进一步的实验也表明,最优的设计来自于基于 KosMos 基座模型的架构,并且结合了专门的历史信息组织模块。这样的设计在 CALVIN 中实现了出色的泛化能力,在 zero-shot 设置下仅有轻微的性能下降,而其他设计形式的模型则出现了显著掉分。这一结论直接说明,架构设计的好坏对模型的泛化能力和效率至关重要。

3. 选什么基座模型最合适?

我们对比了当前主流的 8 种视觉语言模型(VLM),结果发现 KosMos 和 Paligemma 的表现遥遥领先,轻松碾压其他模型。无论是任务完成的精确度还是泛化能力,它们都展现出了压倒性的优势。究其原因,主要得益于它们经过了扎实且全面的视觉语言预训练,从而为模型提供了强大的先验知识和理解能力。

这一发现让我们更加确信:选对基座模型,就是让 VLA 模型起飞的关键一步!想要让模型在多模态任务中表现惊艳,一个经过深度预训练、具备强大视觉语言表征能力的 VLM 基座显然能提供无与伦比的助力。而一旦打好了这个基础,后续的设计和训练才能真正发挥最大潜力。

4. 跨本体数据什么时候加入最合适?

实验告诉我们一个黄金法则:在预训练阶段引入跨本体数据(如 Open-X Embodiment 数据集)可以显著提升模型的鲁棒性和少样本场景下的表现。反之,直接将跨本体数据和微调数据混合训练,效果就没那么显著了。这些结论为未来 VLA 模型的训练策略指明了方向。

具体实验中,我们在 WidowX+Bridge 和 Google Robot 两大环境下分别进行了不同训练策略的测试:

WidowX+Bridge 环境:

  • Bridge Finetune:直接在完整的 Bridge 数据集上微调(测试任务不包括在内)。
  • OXE Pre-Train:先用 OXE 数据集预训练模型。
  • Post-Train:用经过 OXE 预训练的模型再在 Bridge 数据集上微调。

Google Robot 环境:

  • RT-Partial Finetune:仅在特定的 RT 任务上微调。
  • RT Finetune:在完整的 RT 数据集上微调(包括测试任务)。
  • OXE Pre-Train:先用 OXE 数据集预训练模型。
  • Post-Train:在 OXE 预训练基础上用 RT 数据集进一步训练。

实验结果进一步验证了:在预训练阶段引入跨本体数据不仅能提升泛化能力,还能让模型在少样本和高复杂任务下表现更佳。

展望未来:VLA 的进阶之路

虽然 RoboVLMs 已经很能打了,但接下来的发展空间更让人期待!未来可以探索:

  1. 更细化的设计优化:比如再打磨 VLM 内部结构、信息融合模块和训练目标,让它更高效。
  2. 挑战复杂任务:像 “做早餐” 这种长链条任务,也许是下一个突破点!
  3. 多模态协作能力:进一步让机器人 “看懂”、“听清”、“动得更聪明”。

RoboVLMs 的出现,验证了视觉语言动作模型的可能性,也让机器人更接近成为我们的全能助手。未来,它们或许不仅能理解语言和视觉,还能真正帮我们完成那些繁琐又复杂的任务。接下来会有更多惊喜等着我们!

#MEDEC

4o-mini只有8B,Claude 3.5 Sonnet有175B,微软论文「透露」了下顶级模型参数

刚刚,X 上的一则推文受到了大家的广泛讨论,浏览量迅速增长。原来,OpenAI 发布的 GPT-4o-mini 居然是一个仅有 8B 参数的模型?

图源:https://x/Yuchenj_UW/status/1874507299303379428

事情是这样的。就在前几天,微软和华盛顿大学合作完成了一篇论文《MEDEC: A BENCHMARK FOR MEDICAL ERROR DETECTION AND CORRECTION IN CLINICAL NOTES 》。

论文地址:https://arxiv/pdf/2412.19260

这篇论文主要介绍了一个用于检测和纠正临床记录中医疗错误的公开基准测试 MEDEC1,其包含 3,848 个临床文本。论文描述了数据创建方法,并评估了近期的 LLMs(例如 o1-preview、GPT-4、Claude 3.5 Sonnet 和 Gemini 2.0 Flash)在检测和纠正需要医学知识和推理能力的医疗错误任务上的表现。

因为要进行实验,因而在论文实验部分出现了众多模型的参数量,如下所示。

此前,有些模型的参数量都是未知的,也是大家比较好奇的。

此外,在这部分内容底下,微软还列出了一句声明「大多数模型参数的数量是估计的」。

通过这张图,我们不难发现,除了 GPT-4o-mini,大家还发现了其他模型的大小,比如:

  • Claude 3.5 Sonnet: 175B;
  • GPT-4: 1.76T;
  • GPT-4o: 200B;
  • o1-preview: 300B;
  • o1-mini: 200B。

结果部分也是将模型参数分为多个等级:

但是在这个推文下面大家讨论的非常激烈,主要围绕微软对模型大小的估计到底准不准确。

前面我们已经提到,模型参数都是估计出来的。因此有网友表示「就算微软确实知道,但并不代表微软 99% 的员工都知道。」「有 98% 的可能性是他们只是微软雇佣的研究人员,但与有权访问 OpenAI 的团队没有任何联系。」

「感觉这些数字只是作者的猜测,因为他们没有解释他们是如何估计的。」不过这位网友强调的这一点,论文确实说明了参数是估计的。

还有网友表示这篇论文将 Claude 3.5 Sonnet 估计为 175B 有点扯。

「Claude 不可能只有 175B,我敢打赌它接近这个数字的两倍。尤其是自 deepseek-v3 发布以来,其内存大小达到 671B,而 Claude 的表现轻松超越了后者。」

「我敢打赌 4o-mini 是一个 MoE 模型,总共有大约 400 亿个参数,可能有 80 亿个激活参数。我发现它比 80 亿个参数的模型拥有更多的知识(当询问事实时),同时速度相当快。」

还有网友认为这是一个合理的猜测。消息毕竟出自微软。

讨论来讨论去,最后的结论依然是没有结论,你怎么看这篇论文给出的数据呢?

#多模态模型已落地多领域

OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

在 2024 年的 NeurIPS 会议上,Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点,尤其集中于 Scaling Law 的观点:「现有的预训练方法将会结束」,这不仅是一次技术的自然演进,也可能标志着对当前「大力出奇迹」方法的根本性质疑。

Ilya 讨论了预训练模型的局限性,预见 AI 系统需要发展出更加接近人类思考方式的推理能力。他强调,为了突破当前的局限并继续提升 AI 的能力,必须寻找新的训练方法。这意味着,基于语言单一模态的大模型能力已经逼近上限。基于现有的开源路线分析,商业社会想要寻求 AGI,必须将目光转向多种模态和推理过程。

商业领域对人工智能公司的偏好开始出现范式转换

知名数据分析机构 CB Insights 发布的「2024 年第三季度全球人工智能投融资报告」显示,该季度全球人工智能交易数量环比激增 24%,但融资实际上环比下降了 29%,主要归因于单笔融资金额超过 10 亿美元的「巨额交易」数量环比下降了 77%。报告指出,这反映了当前市场对中小规模、高潜力初创企业的偏好转变,投资者更加关注具有创新技术和可扩展商业模式的企业。

作为专业的人工智能媒体与产业服务平台,于 2017 年发布了 AI 榜单「Synced Machine Intelligence Awards」,在随后的时间里,伴随 AI 的跨越式发展,年度评选也逐渐成为了产业风向标之一,其中,2024 年度评选中的「大模型最具潜力创业企业 TOP 10」,旨在表彰技术创新能力强、团队领先、已经推出大模型或拥有完整大模型研发能力的创业企业。

其中名列「大模型最具潜力创业企业」榜单首位的贝式计算,其产品 OpenBayes 可能是是中国最受欢迎的 GPU 计算系统之一,拥有超过 17 万注册科研人员和过百个集群私有部署客户。

2024 年第三季度,紧跟多模态大模型升级趋势,OpenBayes贝式计算基于集群构架、编译器、模型结构等领域的多项创新与技术,推出了多模态模型贝式小算,结合了先进的视觉理解和语言生成技术,能够同时处理和分析多种形式的数据,包括静态图片和动态视频。

模型性能方面,得益于 OpenBayes贝式计算近年来在编译器技术领域的积累,贝式小算可天然运行在 Nvidia、ARM 以及多种国产芯片上,同时拥有较高的计算精度和计算效率。该模型在 MME-Realworld 等评测中取得了优异的成绩,是前列排名中为数不多的初创企业之一。

*MME-RealWorld 是迄今为止已知最大的完全人工标注基准,拥有超 1.3 万平均像素为 2,000 × 1,500 的高分辨率图像,收集了更多关于中国的真实场景图片,评测任务相较传统基准难度更大。

以此为基础,OpenBayes贝式计算赋能企业客户,已经为十余个私有部署用户提供了高效可靠的大模型服务,该多模态模型成功落地于卫星遥感、医疗影像、法律财务、文件表格互译等生产场景。

举例而言,在中国科学院某研究所,OpenBayes贝式计算为该院所级高性能计算集群的百余名学者与工程师用户提供了完备的 AI+HPC 计算体验。工科研究者可以通过同一套计算系统无缝连接各类 HPC 应用与 AI 计算框架,通过统一的数据流转流程,使得工科领域相关计算结果可以无缝连接 AI 的最佳实践,进而加速了 AI 在诸多工科领域的研究效率。

值得一提的是,就在 2024 年 11 月 28 日,OpenBayes贝式计算还入选了 36 氪评选的「WISE2024 商业之王年度最具商业潜力企业」。如今再度获评「大模型最具潜力创业企业 TOP 10」,可以说是对公司发展空间的高度认可。

从人工智能技术落地的角度来看,OpenBayes贝式计算拥有 17 万注册科研人员和过百个集群私有部署客户,是公司创新技术与解决方案落地应用的最佳渠道,其中包括清华大学、北京大学、北京邮电大学、天津大学、上海交通大学、中国科学院等头部科研院所,以及招商局集团、南方电网、辽港集团、粤能能源等重点头部公司。OpenBayes贝式计算的商业化潜力已经初步获得验证,是否能够如期兑现,仍然需要时间来证明。

我自己的原文哦~    https://blog.51cto/whaosoft/12973297

#GLM-Zero-Preview 

考研数学得126分、还能编写小游戏,智谱首个推理模型来了,人人免费用

2024 年的最后一天,智谱 GLM 模型家族迎来了一位新成员——GLM-Zero 的初代版本 GLM-Zero-Preview,主打深度思考与推理。

从年初到年末,在接连推出新一代基座大模型、多模态模型、视频生成模型以及语音模型之后,智谱补上了推理模型这块拼图。

据介绍,GLM-Zero-Preview 是 GLM 家族中专注于增强 AI 推理能力的模型,擅长处理数理逻辑、代码和需要深度推理的复杂问题。同基座模型相比,GLM-Zero-Preview 既没有显著降低通用任务能力,又大幅提升了专家任务能力。

以数学能力为例,智谱让 GLM-Zero-Preview 做了一整套 2025 年考研数学一,最后得分为 126,达到了优秀研究生水平。从下图可以看到,模型给出了详细的解题步骤。

再看下代码能力,GLM-Zero-Preview 熟练使用多种编程语言,可以帮助开发者快速编写代码,如下使用 HTML 语言独立编写了一个第一人称射击游戏。另外它还可以调试代码,快速识别错误并给出修复建议。

目前,GLM-Zero-Preview 已经上线使用。用户可以在智谱清言网页端选择「Zero 推理模型」智能体,上传文字或图片就能免费体验。另外,GLM-Zero-Preview 的 API 也在智谱开放平台同步上线以供开发者调用。

  • 智谱清言:http://chatglm/
  • 智谱开放平台:https://bigmodel/
  • 2000万token免费体验资源包领取地址:https://zhipuaishengchan.datasink.sensorsdata/t/7K

一手实测

智谱深度推理大摸底

先来看官方给出的指标。作为智谱首个基于扩展强化学习技术训练的推理模型,GLM-Zero-Preview 在多个基准上与 OpenAI o1-preview 互有胜负,其中在数学基准测试 AIME 2024、MATH500 以及代码生成基准测试 LiveCodeBench 中实现小幅超越。

在技术实现上,由于强化学习训练量的增加,GLM-Zero-Preview 的深度推理能力得到稳步提升。同时随着模型在推理阶段可以思考的 token 数变多以及计算量增加,GLM-Zero-Preview 的输出结果质量也稳步提升。

得益于以上两点,GLM-Zero-Preview 表现出了类人的思考决策过程,初步具备了「推理过程中自主决策、问题拆解、尝试多种方式解决问题」等能力。

是骡子是马,溜后才知道。GLM-Zero-Preview 在真实世界任务中的表现如何?进行了一波全方位的测试。

我们搜罗了各种类型的推理问题,看看 GLM-Zero-Preview 能不能 hold 住这些容易绕晕人的中文逻辑陷阱题,以及需要数学、物理等专业学科知识与思辨能力的题目。

比大小不会翻车、有干扰项也无妨

大模型以前经常翻车的小数点后比大小问题,GLM-Zero-Preview 轻松搞定。我们看到了该模型的深度思考链路,它的显著特点是在理解问题及解题关键的基础上,从不同的角度分析、验证并给出答案。整个过程看下来,GLM-Zero-Preview 有点「PUA」自己,生怕会出错,多次检查并肯定自己的答案无误。

对于一些设置了干扰项的推理问题,GLM-Zero-Preview 也丝毫不会受到影响,很快理清思路,排除干扰项。

不落入语言陷阱、拿捏复杂推理

中文语境下有很多陷阱,比如歧义性、语境依赖、隐含信息、文化背景等,应对起来要求推理大模型「吃透」语言特点,并能够结合上下文信息、语义知识和常识推理,明辨其中的弯弯绕。

面对这类中文陷阱题目,GLM-Zero-Preview 给出的深度思考过程显示,它从不同的视角考虑和深度推理,排除一切的不可能之后,确认最合理的解释和答案。

另外,面对复杂的中文逻辑推理问题,尤其涉及多个角色人物时,GLM-Zero-Preview 不会被搞混。通过深度思考进行情况罗列与假设分析,并辅以缜密的条件验证,整个过程像抽茧剥丝的判案一样。

GLM-Zero-Preview 给出了逻辑清晰的解题步骤。

常识推理无压力、时间感知能力强

如今的大模型在「喂」给足够多的高质量数据之后,像人一样掌握了丰富的常识,做起此类推理题来没有压力。

在时间推理中,大模型需要理解时间顺序、事件发生的时序关系,要有清晰的预测和推断能力。比如下面的时间推理场景,想必很多人都会被绕晕,而 GLM-Zero-Preview 做到了对多个角色参与的复杂时间关系的准确判断。

数学小能手上线

大模型的数学能力可以为人们在很多数学任务中提供有力支持,比如代数、微积分、概率统计。GLM-Zero-Preview 具备了更强的归纳与演绎能力,比如下面这道序列求解题,它在深度思考过程中观察规律、找出规律、验证规律。

面对经典的青蛙爬井问题,GLM-Zero-Preview 不仅给出了正确的解题思路和答案,还总结了一波经验心得。

再考它一道出自 2024 高考数学北京卷的条件判断题,显然难不倒 GLM-Zero-Preview,它通过等价代换的方式得出了正确答案。

hold 弱智吧

在面对一些弱智吧问题时,GLM-Zero-Preview 一板一眼地进行理论层面以及实际可行性的分析,并展开论证,令人忍俊不禁。

视觉推理多面手

目前,GLM-Zero-Preview 支持上传 png、jpg、jpeg、webp 等多种格式的图片,并能够应对很多类型的推理任务,比如解带有电路图的高考物理题(2024 北京卷):

以下为完整的解题步骤:

还能理解梗图:

推理模型大 PK

谁更胜一筹

接下来,让 GLM-Zero-Preview 与 o1、DeepSeek-R1-Lite 预览版、QwQ-32B-Preview 等竞品模型来了一场对决。

先考它们一道数学组合题,看看哪个模型逻辑性更强。

首先是 GLM-Zero-Preview:

然后是 o1:

接着是 DeepSeek-R1-Lite 预览版:

最后是 QwQ-32B-Preview:

比较下来,我们可以发现,o1 的推理过程最简单,缺少验证的环节。其他三个模型在给出解题思路之后都对步骤和计算进行了确认,其中 DeepSeek-R1-Lite 预览版、QwQ-32B-Preview 的验证相对简单一些,而 GLM-Zero-Preview 不仅解题过程更清晰完整,还展示了自我反思、自我怀疑、自我肯定等拟人化的思维模式。

再来第二轮较量,这次是一道中文陷阱推理题,看看哪个模型头脑更清楚。

首先是 o1 与 QwQ-32B-Preview,思考过程很短:

GLM-Zero-Preview、DeepSeek-R1-Lite 预览版的解释更透彻,充分考虑了条件限制与现实世界的可能性。不过,DeepSeek-R1-Lite 预览版的一些解释又略显重复,不如 GLM-Zero-Preview 明了。

思考过程与思维链路上的优势,足以让 GLM-Zero-Preview 不输其他一众推理大模型。

结语

在对 GLM-Zero-Preview 体验一番后,我们的最大感受是:它的深度思考过程让逻辑推理更加完整、连贯,准确度和说服力更强。从「审题、分析、多方式证明」到「自我怀疑、验证、再验证」到「最后确认」,环环相扣。

当然,智谱表示,目前 GLM-Zero-Preview 与 o3 还有不少的差距,未来会通过强化学习技术的持续优化迭代,让它成为更聪明的推理者。正式版 GLM-Zero 将很快推出,到时候深度思考能力会从数理逻辑扩展到更通用的技术,保证更专精的同时全能性也更强。

回看这一整年,智谱动作不断,GLM 家族更加壮大,包括基座模型、多模态模型、视频生成模型、语音模型、推理模型以及智能体方面火出圈的 AutoGLM、GLM-PC,如今这家大模型独角兽的产品矩阵在完整度层面称得上业界领先。

持续出新的背后是智谱对 AGI 终极目标的追求。智谱形成了一套从 L1 到 L5 阶段的 AGI 路线图,在 AI 分级上注入自己的能力进化思考。在一步步迈向 AGI 的过程中,从低到高在各个 AI 层级做能力填充,夯实语言、多模态、逻辑推理、工具使用等基础能力。GLM-Zero-Preview 代表智谱迈出了 L4 阶段的关键一步,大模型开始内省,并具备自我学习、自我反思、自我改进能力。

现在,市面上的推理大模型已经有了一些,甚至 OpenAI 发布了更强的 o3 系列模型。智谱在年末最后一天这个时间节点推出了自己的 GLM-Zero,可见对于所有以 AGI 为目标的玩家来说,2025 年模型推理能力无疑是被寄予厚望的一年。

#Anthropic总结智能体年度经验

最成功的≠最复杂的

高端的食材,往往需要最朴素的烹饪方式。

AI 发展到后半场「大雾散去」,如何让大模型的智力落实成执行力,智能体似乎成了业界的共同答案。

从元宝到混元,各类智能体平台如雨后春笋般涌现。上个月,智谱发布 AutoGLM 的发布会上,智能体好像突破了次元壁,一句指令,就拿着手机在现场发了一个总计两万块钱的红包。

我们正在见证一个重要的转折点:智能体正在将 AI 的能力从「能说会道」转变为「能做会干」。

作为最强大模型厂商的有力竞争者,Anthropic 推出的智能体功能也着实惊艳了我们一把。Computer Use 甚至已经可以做到跟 Claude 说一声想做一个 90 年代风格的个人网站,剩下的只需要坐在屏幕前看网页自己做自己就好了。

在过去一年中,Anthropic 与数十个行业团队合作,对大模型智能体进行了系统研究。但他们发现,那些表现最出色的 AI 智能体,并非建立在庞大复杂的框架或专业库之上,而是采用了简单、可组合的模式。

Anthropic 将一年的实践经验总结成了这篇博客,在不改变原意的基础上进行了编译。

  • 原文链接:https://www.anthropic/research/building-effective-agents

什么是智能体?

「智能体」有多种定义。有人眼中的智能体是一个「全能管家」,能够独立思考、自主决策,灵活运用各种工具来完成复杂任务;也有人把它理解为一个「规矩员工」,按部就班地执行预设的工作流。

Anthropic 将两者统称为智能系统,但对工作流和智能体做出了区分:

  • 工作流是通过预定代码路径编排 LLM 和工具的系统
  • 智能体则是由 LLM 动态指导自身流程和工具使用的系统,能自主控制任务的完成方式

什么时候该用智能体?

在开发 AI 应用时,Anthropic 的研究团队给出了一个建议:能简单就不要复杂。有时候,根本不需要建造一个智能系统 —— 因为智能系统虽然功能强大,但往往会让响应变慢,成本也会更高。开发者需要权衡这种取舍。

当确实需要更复杂的系统时,工作流适合需要可预测和一致性的明确任务,而智能体则更适合需要灵活性和模型驱动决策的大规模场景。

不过对很多应用来说,配合检索和上下文示例,拿着一个好的 prompt 去问大模型通常就足够了。

何时使用框架以及如何使用

目前,有多个可以帮助开发者更容易地搭建 AI 智能体的框架,包括:

  • LangChain 的 LangGraph
  • 亚马逊 Bedrock 的 AI Agent 框架
  • 拖放式的大模型工作流构建工具 Rivet
  • 用于构建和测试复杂工作流的 GUI 工具 Vellum

这些框架确实简化了 AI 开发流程。但要注意的是,它们会在代码中增加额外的抽象层,这不仅让底层的运行逻辑变得不够透明,也增加了调试的难度。而且,开发者可能会在一些简单的场景中,不自觉地引入过度复杂的解决方案。

Anthropic 建议开发者从直接使用大模型的 API 开始:许多模式只需几行代码就能实现。如果选择使用框架,一定要理解其底层原理。经验表明,对框架底层机制的理解不足,往往是导致开发问题的主要原因。

具体示例请参考 Anthropic 的 cookbook。

  • 手册链接:https://github/anthropics/anthropic-cookbook/tree/main/patterns/agents

构建模块、工作流和智能体

基础构建模块:增强版 LLM

智能系统的基本构建模块是加持检索、记忆等功能,增强过的 LLM。目前,Anthropic 的模型可以主动使用这些能力 —— 生成自己的搜索查询、选择合适的工具,并决定保留哪些信息。

增强过的大模型。

Anthropic 建议做这些拓展功能的过程中大家可以重点关注两点:

  • 根据具体的应用场景来定制功能
  • 确保为模型提供简单且文档完备的接口

除此之外,Anthropic 最近发布的模型上下文协议提供了一种新的实现方式。这个协议让开发者可以通过简洁的客户端代码,轻松地将 AI 模型与持续扩展的第三方工具生态系统进行集成。

工作流:提示链

提示链是一种将复杂任务拆解为多个步骤的方法,每个步骤代表调用一次大模型,后一步将基于前一步的结果继续处理。开发者可以在任意中间环节加入程序化的检查点(比如图中的「gate」),以确保流程按预期推进。

提示链工作流。

什么时候更适合用提示链工作流呢?当一个复杂任务能够被清晰地拆分成一系列固定的子任务时,提示链就是最佳选择。这种方法让每个模型只需专注完成一个简单任务,虽然整体响应时间可能会略长,但准确率会得到显著提升。

典型应用案例:

  • 先生成营销文案,再将其翻译成其他语言
  • 先写文档大纲并进行合规性检查,再基于大纲撰写完整文档

工作流:智能分流

分流技术能够判断输入任务的类型,并将其分配给相应的专门模块。这种设计让每个模块都能针对特定任务进行优化,避免了不同类型任务之间的相互干扰。

如果不采用这种分发机制,仅提升针对某类问题的效果,往往会影响到其他类型问题的处理质量。

智能分流的工作流。

什么时候适合用这种方法呢?当任务有明显的分类特征时,就很比较适合。AI 系统可以通过大语言模型或传统算法,准确识别任务类型并做出分流。

典型应用案例:

  • 在客服系统中,可以将一般咨询、退款申请、技术支持等不同类型的问题,分别引导到相应的处理流程。
  • 将简单 / 常见问题分配到 Claude 3.5 Haiku 等较小模型,将困难 / 罕见问题分配到 Claude 3.5 Sonnet 等更强大的模型,以优化成本和速度。

工作流:并行

大语言模型可以同时处理任务,并以编程方式聚合输出。这种并行化的工作流主要有两个特点:

  • 任务分段:将任务拆分为可并行运行的独立子任务,每个子任务可以同时进行处理,最后再整合结果。
  • 投票机制:对同一任务进行多次运行,获得多个不同版本的输出,从而选择最优结果或综合多个答案。

并行工作流。

当子任务可以并行执行以提高速度,或需要多角度尝试以获得更高置信度的结果时,并行化的方法非常有效。对于涉及多个因素的复杂任务,让每次调用专注处理特定方面,会获得更好的效果。

典型应用案例:

任务分段:

  • 安全防护:一个模型负责处理用户请求,另一个专门负责内容审核,这比单个模型同时处理两项任务效果更好。
  • 性能评估:让不同的模型分别评估系统的各个性能指标,实现全面的自动化评估。

投票机制:

  • 代码安全检查:同时运行多个检测模型,共同发现和标记潜在的代码漏洞。
  • 内容审核:通过多个模型从不同角度评估内容安全性,通过调整投票阈值来平衡误判率。

工作流:领导 — 执行者

在这种工作流中,一个中央大语言模型会动态分解任务,分派给执行者模型,并汇总最终结果。

领导 — 执行者工作流。

这种工作流最适合那些难以提前确定具体步骤的复杂任务。比如在编程中,一个功能需求可能涉及多个文件的修改,而具体要改哪些文件、如何修改,往往要根据实际情况来决定。

虽然这种方式看起来和并行任务很像,但这种工作流更灵活 —— 任务的拆分不是固定的,而是由 AI 系统根据具体情况动态决定的。

典型应用案例:

  • 需要对多个文件进行复杂修改的编程应用。
  • 需要从多个来源收集和分析相关信息的搜索任务。

工作流:评估 — 优化

在评估 — 优化工作流中,一个 LLM 调用生成响应,而另一个提供评估和反馈,形成循环。

评估 - 优化工作流。

何时使用这个工作流:当存在明确的评估标准,并且通过迭代细化可以带来显著价值时,这个工作流特别有效。

有两个显著特点:首先,当人类明确表达他们的反馈时,LLM 的响应可以明显改进;其次,LLM 能够提供这样的反馈。这类似于人类作家在创作一篇精心打磨的文档时所经历的反复修改的写作过程。

典型应用案例:

  • 文学翻译:翻译模型可能在第一次翻译时遗漏一些细微的语言差异,而评估模型能够发现这些问题并提供有价值的修改建议。
  • 复杂搜索:某些信息收集任务需要多轮搜索和分析才能获得全面的结果,评估模型可以判断是否需要继续深入搜索。

智能体

智能体在生产中随着 LLM 在关键能力上的成熟而出现,这些能力包括理解复杂输入、进行推理和规划、可靠地使用工具以及从错误中恢复。

智能体的工作始于人类用户的命令,或与人类用户的互动讨论。一旦任务明确,智能体就会独立规划和操作,中途可能需要向人类索取更多信息或让人类做判断。

在执行过程的每一步,从环境中获得「真实情况」(例如工具调用结果或代码执行)以评估其进度至关重要。然后,智能体可以在检查点或遇到阻塞时暂停以获取人类反馈。任务通常在完成后终止,但也通常包含停止条件(例如最大迭代次数)以保持控制。

智能体能够处理复杂的任务,但其实现通常很简单。它们通常只是循环中根据环境反馈来使用工具的大型语言模型。因此,设计工具集及其文档清晰、周到至关重要。作者在附录 2 中扩展了工具开发的最佳实践。

自动智能体。

何时使用智能体:智能体可以用于开放性问题,这种问题往往难以或不可能预测所需的步骤数量,并且你不能硬编码固定路径。LLM 可能会操作多个回合,你必须对其决策能力有一定程度的信任。智能体的自主性使它们成为在受信任环境中 scaling 任务的理想选择。

智能体的自主性意味着成本更高,并且可能存在错误累积的风险。作者建议在沙盒环境中进行广泛的测试,并设置适当的防护措施。

智能体的用途示例:  

  • 一个代码智能体,用于解决涉及根据任务描述编辑多个文件的 SWE-bench 任务
  • Anthropic 的「Computer use」功能,其中 Claude 使用计算机完成任务。

代码智能体的 High-level flow。

组合、定制这些模式

这些构建块不是规定性的。开发者可以塑造和组合这些构建块以适应不同用例。成功的关键是衡量性能并迭代实现。注意:只有在能够明显改善结果的情况下,你才应该考虑增加复杂性。

总结

在 LLM 领域取得成功并不在于构建最复杂的系统,而是在于为你的需求构建正确的系统。从简单的提示开始,用全面的评估优化它们,同时只有当更简单的解决方案无法实现时才添加多步骤智能体系统。

在部署智能体时,需要尝试遵循三个核心原则:

  • 在智能体设计中保持简单;
  • 要优先确保智能体的透明度,方法是清楚地展示它计划中的每一步;
  • 通过全面的工具文档和测试精心打造你的智能体 - 计算机界面(ACI)。

更多详情,请参考原博客。

#AI教父、诺奖得主Hinton支持起诉OpenAI

阻止「转营利」

上周五,OpenAI 发布了计划拆分为营利机构 + 非营利机构的公告,此举立即引发了 AI 社区的巨大争议。

正在与 OpenAI 打官司的首富马斯克此前已在 11 月提起了联邦诉讼,寻求初步禁令以阻止 OpenAI 转型。这一行动目前获得了更多人的支持。甚至包括诺贝尔奖得主 Geoffrey Hinton。

Geoffrey Hinton 因为对人工神经网络的贡献被认为是「AI 教父」,他目前在加拿大多伦多大学任教,曾在 2018 年获图灵奖,2024 年刚刚获得了诺贝尔物理学奖。

本周一,青年倡导组织 Encode 提交了一份法庭之友陈述,支持伊隆・马斯克正在进行的诉讼,以阻止 OpenAI 的公司转型。

Encode 是一家非营利组织,曾参与发起加州 SB 1047 人工智能安全立法。该组织提供的陈述支持伊隆・马斯克提出的禁令,旨在阻止 OpenAI 向营利性公司转型。

在提交给美国加利福尼亚州北区地方法院的一份拟议陈述中,Encode 的律师表示,OpenAI 向营利性公司转型将「破坏」该公司「以安全和有益于公众的方式开发和部署…… 变革性技术」的使命。

「OpenAI 及其 CEO 山姆・奥特曼声称正在开发改变社会的技术,这些说法应该得到认真对待,」简报中写道。「如果世界真的正处于通用人工智能(AGI)新时代的风口浪尖,那么公众将更有意让这项技术由一家受法律约束、优先考虑安全和公共利益的公共慈善机构控制,而不是由一家专注于为少数特权投资者创造财务回报的组织控制。」

Encode 创始人兼总裁 Sneha Revanur 在一份声明中指责 OpenAI「将人工智能的利润内部化,却将后果外部化给全人类」,并表示「司法必须介入,以确保人工智能发展符合公众利益。」

Encode 的简报获得了人工智能先驱、2024 年诺贝尔奖获得者 Geoffrey Hinton、加州大学伯克利分校计算机科学教授兼人类兼容人工智能中心主任 Stuart Russell 等人的支持。

Hinton 在一份新闻稿中表示:「OpenAI 成立时明确以安全为重点,并在其章程中做出了各种与安全相关的承诺…… 它从其非营利组织的地位获得了包括税收等多方面的好处。当它变得不方便时允许它撕毁所有这些,会向生态系统中的其他参与者发出非常糟糕的信息。」

OpenAI 于 2015 年作为非营利研究实验室成立。但随着其实验进程的加快,公司变得越来越资本密集,它创建了当前的结构,从风险投资公司、包括微软等科技巨头那里获得了外部投资。

2019 年,OpenAI 从一个实验室变成了一家初创公司,具有混合结构:由非营利组织控制的营利性机构,为投资者和员工提供「上限利润」份额。

但在上周五,OpenAI 发布了拆分为营利机构 + 非营利机构的公告,表示计划开始将其现有的营利性公司转变为特拉华州公共利益公司 (PBC),并发行普通股,PBC 的公共利益将是 OpenAI 的使命。

OpenAI 的非营利组织部分将保留,但将放弃控制权以换取 PBC 的股份。

马斯克是这个原始非营利实体的早期捐助者,他于 11 月提起诉讼,要求颁布禁令,停止这项长期以来一直在进行的拟议变更。他指责 OpenAI 放弃了其最初的慈善使命,即让所有人都能获得人工智能研究成果,并通过反竞争手段剥夺竞争对手的资本 —— 包括他的人工智能初创公司 xAI。

OpenAI 称马斯克的抱怨「毫无根据」,只是「吃不到葡萄说葡萄酸」而已。

Encode 的律师表示,OpenAI 计划将其运营控制权移交给 PBC,这将「将一个受法律约束的,以保证发展先进、安全 AI 的组织转变为一个『平衡』考虑对任何公共利益和股东利益的阻止。」

例如,Encode 的律师在简报中指出,OpenAI 的非营利组织已承诺停止与任何「价值一致、具有安全意识的项目」进行竞争,但 OpenAI 作为一个营利性组织情况就会不一样了。

简报还指出,一旦公司重组完成,非营利组织 OpenAI 的董事会将无法再根据安全需要取消投资者的股权。

OpenAI 最近持续出现高级人才外流,人们离职的部分原因是担心该公司以牺牲安全为代价优先考虑商业产品。前雇员 Miles Brundage 是一名长期政策研究员,于 10 月份离开了 OpenAI,他在 X 上的一系列帖子中表示,他担心 OpenAI 的非营利组织会成为一个「副业」,PBC 公司的部分则会作为「正常公司」运营,潜在的问题不会被解决。

Encode 认为,OpenAI 所宣扬的对人类的责任将消失,因为特拉华州法律明确规定,PBC 的董事对公众不承担任何责任。「一个以安全为中心、任务受限的非营利组织不惜任何代价将对如此具有变革性的事物的控制权交给一个对安全没有可执行承诺的营利性企业,这将损害公共利益。」

据悉,关于初步禁令的听证会定于 2025 年 1 月 14 日在美国地区法官 Yvonne Gonzalez Rogers 处进行。

参考内容:

​​https://encodeai/encode-backs-legal-challenge-to-openais-for-profit-switch/​​

​​https://www.courtlistener/docket/69013420/72/1/musk-v-altman/​​

​​https://techcrunch/2024/12/30/nonprofit-group-joins-elon-musks-effort-to-block-openais-for-profit-transition/​​

#ILLUME

理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化

多模态理解与生成一体化模型,致力于将视觉理解与生成能力融入同一框架,不仅推动了任务协同与泛化能力的突破,更重要的是,它代表着对类人智能(AGI)的一种深层探索。通过在单一模型中统一理解与生成,模型能够从语义层面真正 “洞察” 视觉、文本与世界本质之间的深层联系,从而在复杂场景中实现更加智能、灵活的交互与任务执行。

近期,华为诺亚方舟实验室提出了统一多模态大模型 ——ILLUME。这一模型以 LLM 为核心,采用 “连续图像输入 + 离散图像输出” 的架构,巧妙融合了多模态理解与生成的双重能力,并深度挖掘了统一框架下理解与生成能力协同增强的潜力,展示了对多模态任务的全新诠释。

  • 论文标题:ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance
  • 论文地址:https://arxiv/pdf/2412.06673

,时长01:04

总体来说,本文贡献如下:

1、ILLUME 在保持整体架构可扩展与可泛化的前提下,通过合理的视觉词表、训练策略与数据配比策略,成功以仅约 15M 的图文对数据用于图文对齐,实现了在视觉理解(包括自然图像和文档图表)、生成、编辑等多元任务上的出色表现,总体效果优于现有统一模型例如 Chameleon, Show-O 和 Janus,与专用单任务模型相媲美。

2、ILLUME 提出一种自提升式多模态对齐策略,通过让模型对自身生成的负样本进行内省式评估,统一模型在理解和生成两方面的能力可实现协同进化。

ILLUME:理解生成一体的多模态大模型

挑战一:如何高效训练一个统一多模态模型?

现有的统一多模态模型构建方案多集中于在 LLM 基础上拓展视觉词表,以支持视觉生成任务。这些模型通常需要大量的图文对数据来实现图文对齐训练。这种对海量数据的依赖,在一定程度上放缓了这一领域进一步探索与实践的进程。

与此不同的是,我们在 ILLUME 中仅使用约 15M 的图文对数据完成预训练,并在视觉理解(涵盖自然图像与文档图表)、生成与编辑等多类视觉文本任务上达到与专有模型相媲美的水平。这一成果并非仅体现于数据规模的减少,更重要的是在架构、训练策略、数据配比以及视觉词表表征方式上的关键设计,使模型能够更高效地进行图文对齐学习。这种方法为在更广泛和更深层的多模态语义理解与生成融合中奠定了基础。

关键设计 1:视觉词表的表征选择

传统基于 VQGAN 的视觉词表往往通过重建原始像素作为目标,但这种基于底层纹理的表征不利于与文本模态进行高层语义对齐。与此相反,我们采用语义特征重建的方式构造视觉词表,直接在高层语义空间中完成图文对齐的特征学习。实验表明,这一设计可显著加速 MLLM 的预训练过程。

在解码阶段,我们再利用 Diffusion 模型将语义特征还原为高保真像素空间,从而实现高达 32 倍的压缩率。通过这一流程,模型在输入端沿用连续视觉编码器保障精细视觉理解能力,并在输出端通过语义视觉词表完成离散化处理,为视觉生成能力的无缝融合奠定基础。

关键设计 2:三阶段训练策略和数据配比

我们采用 “三阶段” 训练策略,以分层递进的方式逐步强化模型的多模态理解与生成能力:

阶段一:引入图像重建任务,为视觉词表扩展后的新参数进行快速初始化,并对齐连续输入与离散输出的模式;

阶段二:进行图文对齐预训练,进一步强化模型在语义层面将图像与文本联结的能力;

阶段三:对高质量的理解、生成、混合数据进行微调,使模型最终胜任多类型的视觉文本任务(包括理解、生成与编辑)。

挑战二:统一多模态模型的判别能力和生成能力能否相互促进?

当我们构建一个统一模型后,我们最关心的是:联合训练视觉理解和生成任务应该如何促进呢?

自提升多模态对齐方案

针对这一点,我们提出了以自我评估过程为桥梁的自提升多模态对齐策略。通过让模型对自身生成的负样本进行内省式评估,模型在理解和生成两方面的能力可实现协同进化:

  • 生成促进理解:模型以自我评估的方式分析自己产生的负样本,这种内省过程使模型能够查明并解决其自身弱点,从而更准确地理解图像。
  • 理解促进生成:模型可以利用其判别能力来评估其自生成的图像是否与文本一致,并基于此分析进行修正,从而确保模型在推理时更加谨慎和准确,避免在生成图像时出现错误。

我们的自提升多模态对齐方法分为三个步骤:

  • Step 1: 语料自生成。采样训练子集,推理模型生成图像。
  • Step 2: 生成评估数据。从物体、数量、颜色和空间关系多个维度评估图像和文本的一致性,评估数据包括评估得分和相应的分析。
  • Step 3: 多模态对齐。将评估数据重新格式化后加入阶段三训练,使模型在理解与生成层面同时得到强化。

实验结果证明,自提升多模态对齐方法能在理解和生成任务上同时为模型赋能,促使统一多模态模型向更高层次的智能形态稳步迈进。

实验结果

多模态理解任务

在 12 个常用的多模态理解开源综合评测集与文档场景评测集上,ILLUME 均展现出卓越性能,与现有统一多模态模型相比达到 SOTA 水准,尤其在文档理解任务上表现尤为突出。同时,相较多模态理解模型(如 LLaVA-NeXT),ILLUME 的理解能力总体保持相当甚至更优的水平。

文图生成任务

ILLUME 在 3 个文生图评测集上取得与现有生成模型和统一多模态模型相当的表现。

编辑任务

ILLUME 能处理物体删除,风格迁移,图像补充等各种编辑任务。

#DeepSeek V3

DeepSeek V3获竞技场最强开源认证!与Claude 3.5 Sonnet对比实测来了

国产之光DeepSeek V3竞技场排名新鲜出炉

优于o1-mini(总榜第7),获最强开源模型认证(也是唯一闯入前10的开源模型)。

单项上,在困难提示、编程、数学,写作等方面全面超越Claude 3.5 Sonnet

不过,如果设置了风格控制,Claude 3.5 Sonnet在理解困难提示方面还是要略胜一筹。

(风格控制:剔除模型通过长篇且格式良好的回复来迎合人类偏好)

由此也引发两边支持者激烈的争论:

DeepSeek V3在实际编码中真的比Claude 3.5 Sonnet强吗?

带着同款好奇,量子位&网友实测这就奉上。

实测DeepSeek V3和Sonnet 3.5

经典脑筋急转弯

第一关先来个开胃小菜,一道经典脑筋急转弯考查模型理解能力。

小明的妈妈有三个孩子,老大叫一明,老二叫二明,老三叫什么?

DeepSeek V3回答正确。它先明确了题目要求,然后逻辑满分找出了正确答案(甚至还有自我验证)。

相比之下,Claude 3.5 Sonnet既正确又简洁。

当然,考虑到脑筋急转弯这种东西也受东西文化差异影响,我们再来一道。

why are people tired on April Fool’s Day? (为什么人们在愚人节很累?)

答案一般是“Because they have just had a long March”。因为他们刚度过了一个很长的三月(行军),March除了三月还有行军的意思,这里考察对双关的理解。

好嘛,DeepSeek V3果然歇菜了。从部分回答来看,它完全误解了题目意图,一本正经地回答是因为人们感到焦虑、熬夜之类。

而Claude 3.5 Sonnet稳稳守住了主场,也是轻轻松松get了双关。

显而易见,Claude 3.5 Sonnet在第一关小试牛刀中全胜,而DeepSeek V3可能更偏向中文语境。

弱智吧逻辑陷阱+反转诅咒

接下来难度升级,利用弱智吧经典陷阱来考查模型逻辑能力。

台上一分钟,台下十年功,为何不在台上练功?

很好,DeepSeek V3又掉线了,精准踩进人类陷阱。(正能量满满可还行)

不过别担心,你的难兄难弟Claude 3.5 Sonnet来陪你了(doge)。

看来面对充满心机的弱智吧问题,二位选手都不在状态。

Okk,不继续在这上面为难二位了,下面来一道正儿八经的“反转诅咒”(即知道A是B却不知道B是A)问题。

而两位选手都一次性答对了Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的儿子是谁。

考研数学真题

下面进入数学能力测试。比如这道考研数学真题,涉及的知识点是曲面积分、高斯定理等内容:

直接上传截图,DeepSeek V3还是详细按步骤解答,而且也做对了。

而Claude 3.5 Sonnet虽然看起来方法更简单,但最终答案错误,功亏一篑。

编码能力

重头戏来了,最后来考查一下模型编码能力。

刚好有位𝕏网友拿DeepSeek V3和Claude Sonnet 3.5进行了测试,在Scroll Hub中分别用它俩创建网站

,时长03:14

博主在测试之后,认为DeepSeek V3完全胜出

小结一下,从有限测试来看,DeepSeek V3貌似确实能和Claude Sonnet 3.5打得有来有回。

满血版o1空降第一

BTW,随着DeepSeek V3竞技场排名一起变动的,还有OpenAI的o1模型。

估计是“双十二”期间正式上线的满血版o1,此次超越o1-preview 24分,空降总榜第一。

而且除了创意写作,各个单项都是第一。

所以,对于这几家,大家在使用过程中感受如何呢??

竞技场试玩:​​https://lmarena.ai/​​

参考链接:​​https://x/lmarena_ai/status/1873695386323566638​​​

#没有博士学位却开启了GPT时代

奥特曼盛赞Alec Radford,爱因斯坦级天才

《连线》曾在一篇报道中将 Alec Radford 在 OpenAI 扮演的角色,比作 Larry Page 发明 PageRank。PageRank 彻底革新了互联网搜索方式,Radford 的工作(特别是在 Transformer 和后来的 GPT 方面的研究)从根本上改变了 AI 语言模型的工作方式。

几天前,OpenAI 宣布组织结构调整,裂变成了一家营利性公司和一个非营利组织。与此同时,OpenAI CEO 山姆・奥特曼在 X 上用一个系列推文感谢了 OpenAI 的多位元老。

之后,他又单独发了一条推文对一位「爱因斯坦级别的天才」表达了特别感谢:Alec Radford。奥特曼还表示 Radford 是他一直以来最喜欢的人,并指出 AI 领域当今的进步很多都可以追溯到他的研究成果。上个月 20 号,传出了 Radford 即将离开 OpenAI 进行独立研究的消息,详情可参阅报道《刚刚,OpenAI 元老级研究员 Alec Radford 离职,他主导了 GPT-1、GPT-2 的研发》。

根据谷歌学术的数据,Alec Radford 论文的引用量现在已经超过了 19 万,并拥有多篇超过 1 万引用的重要论文。

事实上,早在一年多以前,就已经有人指出了这位当时还声名不显的研究者的巨大贡献:他是 GPT 原始论文等多篇奠基性研究成果的第一作者!而更让人惊讶的是,他并没有博士学位,也没有硕士学位;并且他的许多研究成果最早都是在 Jupyter Notebook 中完成的。

新年伊始,Alec Radford 的故事又再一次火遍了 AI 社交网络。人们在谈到他时莫不称颂。

下面我们就来简单了解下这位谦逊的天才的人生故事吧。

Alec Radford 的人生故事

Alec Radford 是自然语言处理和计算机视觉领域的研究者。曾在 OpenAI 担任机器学习开发者 / 研究员。在此之前,他曾担任 indico 公司的研究主管。

在 OpenAI 担任研究员期间,他参与撰写了多篇关于语言模型生成式预训练(GPT)的论文,并在 NeurIPS、ICLR、ICML 和 Nature 等著名会议和期刊上发表过许多论文。 

他也曾活跃在 X/Twitter 上,在那里分享他对人工智能各个领域的见解和观点。遗憾的是,2021 年 5 月之后他就再未在 X 上现身,最后一条推文是在回复 Anthropic 的研究者 Simon Kornblith,解释 GPT-1 层宽度设置为 768 的原因。

LinkedIn 显示,2011 年 - 2016 年, Alec Radford 就读于富兰克林・W・奥林工程学院,并获得学士学位。这是一所位于美国马萨诸塞州尼达姆(Needham)的私立工程学院,以其非常低的录取率和精英化教育著称。

该校的课程结构非常独特,其学术体系「欧林三角」包括科学和工程基础、创业以及文学。学校也仅提供四种学位:ME(机械工程)、ECE(电子与计算机工程)、CS(计算机科学)、BCE(生物医药工程)。

奥林工程学院非常重视实用教育,将知识和实际生活中的挑战和课题联系起来,鼓励学生追求自己的兴趣和激情。

本科时期,Alec Radford 就对机器学习充满热情,并与同学一起参加 Kaggle 比赛获得了成功,最终拿到风投 。2013 年,Alec Radford 和伙伴在宿舍创立了 indico ,为企业提供机器学习解决方案。

作为公司的研究主管,Alec Radford 主要从事识别、开发和改进有前景的图像和文本机器学习技术,并将其从研究阶段转化为更广泛的行业应用。

在那里,他进行了生成对抗网络(GAN)相关研究,并提出 DCGAN 以改善 GAN 的可训练性,这也是 GAN 领域的一个重要突破。 

由于波士顿地区在 AI 领域的影响力已被西海岸科技巨头超越,加上资源限制,2016 年,Radford 选择加入 OpenAI 。

他形容这份新工作「类似于加入研究生课程」,有一个开放、低压力的 AI 研究环境。

Radford 比较低调,不愿与媒体接触。他通过邮件回应了《连线》关于他在 OpenAI 早期工作的提问。他表示,最感兴趣的是让神经网络与人类进行清晰的对话。

他认为,当时的聊天机器人(从 ELIZA 到 Siri 和 Alexa)都存在局限性。他的目标是探索语言模型在各种任务、设置、领域和场景中的应用可能。

他的第一个实验是使用 20 亿条 Reddit 评论来训练语言模型,虽然失败,但 OpenAI 给予了足够的试错空间,也成为后续一系列革命性突破的开始,如大家熟知的初代 GPT,还主导了 GPT-2 的研发等。

这些工作为现代大语言模型奠定了重要基础,以致于《连线》在一篇报道中将 Alec Radford 在 OpenAI 扮演的角色,比作 Larry Page 发明 PageRank。有趣的是, PageRank 虽然是 Larry Page 在斯坦福攻读博士期间的产物,但他此后再也没有回去完成博士学位。

不仅如此,Alec Radford 还参与了 GPT-3 论文的撰写、以及 GPT-4 的预训练数据和架构研究工作。

2024 年年末,在 OpenAI 赚尽眼球的 12 天连发的最后一天前,Alec Radford 即将离开 OpenAI 的消息传出,但没有任何消息透露这是否与 OpenAI 的组织结构调整有关。

遗憾的是,对于他之后的职业计划,我们所知的仅仅是他将成为一位独立研究者。或许他将进入大学获得一个博士学位,也或许他会在沉寂一段时间之后带着新的震撼性研究成果问世。

不管怎样,Alec Radford 参与创造的未来正在到来。无论今年是否会如奥特曼曾经预测的那样实现 AGI,2025 年注定会是 AI 领域至关重要的一年。

#2024全年值得一读的论文都在这了

2024 年,是 AI 领域让人兴奋的一年。在这一年中,各大科技公司、机构发布了数不胜数的研究。

从年初的 Sora,到年尾 DeepSeek-V3,我们见证了 AI 一轮又一轮的轰炸,AI给我们带来了意想不到的惊喜。

在这一年中,AI 论文被源源不断的产出。对于刚刚过去的 2024 年,有哪些论文值得反复阅读?知名机器学习与 AI 研究者 Sebastian Raschka 整理了一份关于LLM 的阅读清单,清单详细介绍了每个月都有哪些重要论文产出。

原文链接:https://sebastianraschka/blog/2024/llm-research-papers-the-2024-list.html

一月论文

论文标题:Astraios: Parameter-Efficient Instruction Tuning Code Large Language Models

论文链接:https://arxiv/abs/2401.00788

论文标题:A Comprehensive Study of Knowledge Editing for Large Language Models

论文链接:https://arxiv/abs/2401.01286

论文标题:LLM Maybe LongLM: Self-Extend LLM Context Window Without Tuning

论文链接:https://arxiv/abs/2401.01325

论文标题:Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

论文链接:https://arxiv/abs/2401.01335

论文标题:LLaMA Beyond English: An Empirical Study on Language Capability Transfer

论文链接 https://arxiv/abs/2401.01055

论文标题:A Mechanistic Understanding of Alignment Algorithms: A Case Study on DPO and Toxicity

论文链接:https://arxiv/abs/2401.01967

论文标题:LLaMA Pro: Progressive LLaMA with Block Expansion

论文链接:https://arxiv/abs/2401.02415

论文标题:LLM Augmented LLMs: Expanding Capabilities through Composition

论文链接:https://arxiv/abs/2401.02412

论文标题: Blending Is All You Need: Cheaper, Better Alternative to Trillion-Parameters LLM

论文链接: https://arxiv/abs/2401.02994

论文标题:DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

论文链接:https://arxiv/abs/2401.02954

论文标题:Denoising Vision Transformers

论文链接:https://arxiv/abs/2401.02957

论文标题:Long Context Compression with Activation Beacon

论文链接:https://arxiv/abs/2401.03462

论文标题:Mixtral of Experts

论文链接: https://arxiv/abs/2401.04088

论文标题:MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts

论文链接:https://arxiv/abs/2401.04081

论文标题:A Minimaximalist Approach to Reinforcement Learning from Human Feedback

论文链接:https://arxiv/abs/2401.04056

论文标题:RoSA: Accurate Parameter-Efficient Fine-Tuning via Robust Adaptation

论文链接: https://arxiv/abs/2401.04679

论文标题: Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

论文链接:https://arxiv/abs/2401.05566

论文标题:Transformers are Multi-State RNNs

论文链接:https://arxiv/abs/2401.06104

论文标题:A Closer Look at AUROC and AUPRC under Class Imbalance

论文链接:https://arxiv/abs/2401.06091

论文标题:An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models

论文链接:https://arxiv/abs/2401.06692

论文标题:Tuning Language Models by Proxy

论文链接: https://arxiv/abs/2401.08565

论文标题:Scalable Pre-training of Large Autoregressive Image Models

论文链接 https://arxiv/abs/2401.08541

论文标题:Code Generation with AlphaCodium: From Prompt Engineering to Flow Engineering

论文链接https://arxiv/abs/2401.08500

论文标题:RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture

论文链接: https://arxiv/abs/2401.08406

论文标题:ReFT: Reasoning with Reinforced Fine-Tuning

论文链接: https://arxiv/abs/2401.08967

论文标题:DiffusionGPT: LLM-Driven Text-to-Image Generation System

论文链接: https://arxiv/abs/2401.10061

论文标题:Self-Rewarding Language Models

论文链接:https://arxiv/abs/2401.10020

论文标题:VMamba: Visual State Space Model

论文链接: https://arxiv/abs/2401.10166

论文标题:Knowledge Fusion of Large Language Models

论文链接: https://arxiv/abs/2401.10491

论文标题:SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities

论文链接:https://arxiv/abs/2401.12168

论文标题:WARM: On the Benefits of Weight Averaged Reward Models

论文链接: https://arxiv/abs/2401.12187

论文标题: Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text

论文链接: https://arxiv/abs/2401.12070

论文标题:MambaByte: Token-free Selective State Space Model

论文链接:https://arxiv/abs/2401.13660

论文标题:SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection

论文链接:https://arxiv/abs/2401.13160

论文标题:Rethinking Patch Dependence for Masked Autoencoders

论文链接:https://arxiv/abs/2401.14391

论文标题:Pix2gestalt: Amodal Segmentation by Synthesizing Wholes

论文链接:https://arxiv/abs/2401.14398

论文标题:Multimodal Pathway: Improve Transformers with Irrelevant Data from Other Modalities

论文链接:https://arxiv/abs/2401.14405

论文标题:EAGLE: Speculative Sampling Requires Rethinking Feature Uncertainty

论文链接:https://arxiv/abs/2401.15077

论文标题:MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

论文链接:https://arxiv/abs/2401.15947

论文标题:Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

论文链接: https://arxiv/abs/2401.16380

论文标题:KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization

论文链接:https://arxiv/abs/2401.18079

二月论文

论文标题:Efficient Exploration for LLMs

论文链接:https://arxiv/abs/2402.00396

论文标题:OLMo: Accelerating the Science of Language Models

论文链接:https://arxiv/abs/2402.00838

论文标题:Tiny Titans: Can Smaller Large Language Models Punch Above Their Weight in the Real World for Meeting Summarization?

论文链接:https://arxiv/abs/2402.00841

论文标题:Repeat After Me: Transformers are Better than State Space Models at Copying

论文链接:https://arxiv/abs/2402.01032

论文标题:LiPO: Listwise Preference Optimization through Learning-to-Rank

论文链接:https://arxiv/abs/2402.01878

论文标题:FindingEmo: An Image Dataset for Emotion Recognition in the Wild

论文链接: https://arxiv/abs/2402.01355

论文标题:More Agents Is All You Need

论文链接:https://arxiv/abs/2402.05120

论文标题:DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

论文链接: https://arxiv/abs/2402.03300

论文标题:MobileVLM V2: Faster and Stronger Baseline for Vision Language Model

论文链接: https://arxiv/abs/2402.03766

论文标题:A Phase Transition Between Positional and Semantic Learning in a Solvable Model of Dot-Product Attention

论文链接:https://arxiv/abs/2402.03902

论文标题:Scaling Laws for Downstream Task Performance of Large Language Models

论文链接:https://arxiv/abs/2402.04177

论文标题:MOMENT: A Family of Open Time-series Foundation Models

论文链接: https://arxiv/abs/2402.03885

论文标题:Vision Superalignment: Weak-to-Strong Generalization for Vision Foundation Models

论文链接:https://arxiv/abs/2402.03749

论文标题:Self-Discover: Large Language Models Self-Compose Reasoning Structures

论文链接:https://arxiv/abs/2402.03620

论文标题:Grandmaster-Level Chess Without Search

论文链接: https://arxiv/abs/2402.04494

论文标题:Direct Language Model Alignment from Online AI Feedback

论文链接: https://arxiv/abs/2402.04792

论文标题:Buffer Overflow in Mixture of Experts

论文链接: https://arxiv/abs/2402.05526

论文标题:The Boundary of Neural Network Trainability is Fractal

论文链接: https://arxiv/abs/2402.06184

论文标题:ODIN: Disentangled Reward Mitigates Hacking in RLHF

论文链接: https://arxiv/abs/2402.07319

论文标题:Policy Improvement using Language Feedback Models

论文链接: https://arxiv/abs/2402.07876

论文标题:Scaling Laws for Fine-Grained Mixture of Experts

论文链接:https://arxiv/abs/2402.07871

论文标题:Aya Model: An Instruction Finetuned Open-Access Multilingual Language Model

论文链接: https://arxiv/abs/2402.07610

论文标题:Step-On-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping

论文链接: https://arxiv/abs/2402.07610

论文标题:Suppressing Pink Elephants with Direct Principle Feedback

论文链接: https://arxiv/abs/2402.07896

论文标题:World Model on Million-Length Video And Language With RingAttention

论文链接:https://arxiv/abs/2402.08268

论文标题:Mixtures of Experts Unlock Parameter Scaling for Deep RL

论文链接: https://arxiv/abs/2402.08609

论文标题:DoRA: Weight-Decomposed Low-Rank Adaptation

论文链接:https://arxiv/abs/2402.09353

论文标题:Transformers Can Achieve Length Generalization But Not Robustly

论文链接: https://arxiv/abs/2402.09371

论文标题:BASE TTS: Lessons From Building a Billion-Parameter Text-to-Speech Model on 100K Hours of Data

论文链接:https://arxiv/abs/2402.08093

论文标题:Recovering the Pre-Fine-Tuning Weights of Generative Models

论文链接: https://arxiv/abs/2402.10208

论文标题:Generative Representational Instruction Tuning

论文链接: https://arxiv/abs/2402.09906

论文标题:FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

论文链接: https://arxiv/abs/2402.10986

论文标题:OneBit: Towards Extremely Low-bit Large Language Models

论文链接: https://arxiv/abs/2402.11295

论文标题:LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration

论文链接:https://arxiv/abs/2402.11550

论文标题:Reformatted Alignment

论文链接: https://arxiv/abs/2402.12219

论文标题:AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

论文链接: https://arxiv/abs/2402.12226

论文标题:Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs

论文链接: https://arxiv/abs/2402.12030

论文标题:LoRA+: Efficient Low Rank Adaptation of Large Models

论文链接: https://arxiv/abs/2402.12354

论文标题:Neural Network Diffusion

论文链接: https://arxiv/abs/2402.13144

论文标题:YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

论文链接:https://arxiv/abs/2402.13616

论文标题:LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

论文标题:https://arxiv/abs/2402.13753

论文标题:Large Language Models for Data Annotation: A Survey

论文链接:https://arxiv/abs/2402.13446

论文标题:TinyLLaVA: A Framework of Small-scale Large Multimodal Models

论文链接:https://arxiv/abs/2402.14289

论文标题:Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs

论文链接:https://arxiv/abs/2402.14740

论文标题: Genie: Generative Interactive Environments

论文链接:https://arxiv/abs/2402.15391

论文标题:CARTE: Pretraining and Transfer for Tabular Learning

论文链接:https://arxiv/abs/2402.16785

论文标题:The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

论文链接:https://arxiv/abs/2402.17764

论文标题:Sora Generates Videos with Stunning Geometrical Consistency

论文链接:https://arxiv/abs/2402.17403

论文标题:When Scaling Meets LLM Finetuning: The Effect of Data, Model and Finetuning Method

论文链接:https://arxiv/abs/2402.17193

论文标题:Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

论文链接:https://arxiv/abs/2402.19427

三月论文

论文标题:Learning and Leveraging World Models in Visual Representation Learning

论文链接: https://arxiv/abs/2403.00504

论文标题:Improving LLM Code Generation with Grammar Augmentation

论文链接: https://arxiv/abs/2403.01632

论文标题:The Hidden Attention of Mamba Models

论文链接: https://arxiv/abs/2403.01590

论文标题:Training-Free Pretrained Model Merging

论文链接: https://arxiv/abs/2403.01753

论文标题:Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like Architectures

论文链接: https://arxiv/abs/2403.02308

论文标题:The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning

论文链接:https://arxiv/abs/2403.03218

论文标题:Evolution Transformer: In-Context Evolutionary Optimization

论文链接: https://arxiv/abs/2403.02985

论文标题:Enhancing Vision-Language Pre-training with Rich Supervisions

论文链接: https://arxiv/abs/2403.03346

论文标题:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

论文链接:https://arxiv/abs/2403.03206

论文标题:Design2Code: How Far Are We From Automating Front-End Engineering?

论文链接: https://arxiv/abs/2403.03163

论文标题:ShortGPT: Layers in Large Language Models are More Redundant Than You Expect

论文链接: https://arxiv/abs/2403.03853

论文标题:Backtracing: Retrieving the Cause of the Query

论文链接: https://arxiv/abs/2403.03956

论文标题:Learning to Decode Collaboratively with Multiple Language Models

论文链接: https://arxiv/abs/2403.03870

论文标题:SaulLM-7B: A pioneering Large Language Model for Law

论文链接: https://arxiv/abs/2403.03883

论文标题:Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning

论文链接: https://arxiv/abs/2403.03864

论文标题:3D Diffusion Policy

论文链接: https://arxiv/abs/2403.03954

论文标题:MedMamba: Vision Mamba for Medical Image Classification

论文链接: https://arxiv/abs/2403.03849

论文标题:GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection

论文链接: https://arxiv/abs/2403.03507

论文标题:Stop Regressing: Training Value Functions via Classification for Scalable Deep RL

论文链接: https://arxiv/abs/2403.03950

论文标题:How Far Are We from Intelligent Visual Deductive Reasoning?

论文链接:https://arxiv/abs/2403.04732

论文标题:Common 7B Language Models Already Possess Strong Math Capabilities

论文链接:https://arxiv/abs/2403.04706

论文标题:Gemini 1.5: Unlocking Multimodal Understanding Across Millions of Tokens of Context

论文链接: https://arxiv/abs/2403.05530

论文标题:Is Cosine-Similarity of Embeddings Really About Similarity?

论文链接:https://arxiv/abs/2403.05440

论文标题:LLM4Decompile: Decompiling Binary Code with Large Language Models

论文链接: https://arxiv/abs/2403.05286

论文标题:Algorithmic Progress in Language Models

论文链接:https://arxiv/abs/2403.05812

论文标题:Stealing Part of a Production Language Model

论文链接: https://arxiv/abs/2403.06634

论文标题:Chronos: Learning the Language of Time Series

论文链接:https://arxiv/abs/2403.07815

论文标题:Simple and Scalable Strategies to Continually Pre-train Large Language Models

论文链接:https://arxiv/abs/2403.08763

论文标题:Language Models Scale Reliably With Over-Training and on Downstream Tasks

论文链接:https://arxiv/abs/2403.08540

论文标题:BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences

论文链接:https://arxiv/abs/2403.09347

论文标题: LocalMamba: Visual State Space Model with Windowed Selective Scan

论文链接:https://arxiv/abs/2403.09338

论文标题:GiT: Towards Generalist Vision Transformer through Universal Language Interface

论文链接:https://arxiv/abs/2403.09394

论文标题:MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

论文链接: https://arxiv/abs/2403.09611

论文标题: RAFT: Adapting Language Model to Domain Specific RAG

论文链接: https://arxiv/abs/2403.10131

论文标题:TnT-LLM: Text Mining at Scale with Large Language Models

论文链接: https://arxiv/abs/2403.12173

论文标题: Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression

论文链接: https://arxiv/abs/2403.15447

论文标题: PERL: Parameter Efficient Reinforcement Learning from Human Feedback

论文链接: https://arxiv/abs/2403.10704

论文标题:RewardBench: Evaluating Reward Models for Language Modeling

论文链接:https://arxiv/abs/2403.13787

论文标题:LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

论文链接: https://arxiv/abs/2403.13372

论文标题:RakutenAI-7B: Extending Large Language Models for Japanese

论文链接: https://arxiv/abs/2403.15484

论文标题:SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time Series

论文链接:https://arxiv/abs/2403.15360

论文标题:Can Large Language Models Explore In-Context?

论文链接:https://arxiv/abs/2403.15371

论文标题:LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement

论文链接:https://arxiv/abs/2403.15042

论文标题: LLM Agent Operating System

论文链接:https://arxiv/abs/2403.16971

论文标题:The Unreasonable Ineffectiveness of the Deeper Layers

论文链接:https://arxiv/abs/2403.17887

论文标题:BioMedLM: A 2.7B Parameter Language Model Trained On Biomedical Text

论文链接:https://arxiv/abs/2403.18421

论文标题:ViTAR: Vision Transformer with Any Resolution

论文链接:https://arxiv/abs/2403.18361

论文标题:Long-form Factuality in Large Language Models

论文链接:https://arxiv/abs/2403.18802

论文标题:Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models

论文链接: https://arxiv/abs/2403.18814

论文标题:LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning

论文链接:https://arxiv/abs/2403.17919

论文标题:Mechanistic Design and Scaling of Hybrid Architectures

论文链接:https://arxiv/abs/2403.17844

论文标题:MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions

论文链接:https://arxiv/abs/2403.19651

论文标题:Model Stock: All We Need Is Just a Few Fine-Tuned Models

论文链接:https://arxiv/abs/2403.19522

四月论文

论文标题: Do Language Models Plan Ahead for Future Tokens?

论文链接: https://arxiv/abs/2404.00859

论文标题:Bigger is not Always Better: Scaling Properties of Latent Diffusion Models

论文链接:https://arxiv/abs/2404.01367

论文标题:The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis

论文链接: https://arxiv/abs/2404.01204

论文标题:Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models

论文链接:https://arxiv/abs/2404.04478

论文标题:Mixture-of-Depths: Dynamically Allocating Compute in Transformer-Based Language Models

论文链接:https://arxiv/abs/2404.02258

论文标题:Long-context LLMs Struggle with Long In-context Learning

论文链接:https://arxiv/abs/2404.02060

论文标题:Emergent Abilities in Reduced-Scale Generative Language Models

论文链接: https://arxiv/abs/2404.02204

论文标题:Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks

论文链接: https://arxiv/abs/2404.02151

论文标题:On the Scalability of Diffusion-based Text-to-Image Generation

论文链接: https://arxiv/abs/2404.02883

论文标题:BAdam: A Memory Efficient Full Parameter Training Method for Large Language Models

论文链接: https://arxiv/abs/2404.02827

论文标题:Cross-Attention Makes Inference Cumbersome in Text-to-Image Diffusion Models

论文链接: https://arxiv/abs/2404.02747

论文标题:Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

论文链接: https://arxiv/abs/2404.02151

论文标题:Training LLMs over Neurally Compressed Text

论文链接: https://arxiv/abs/2404.03626

论文标题:CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues

论文链接: https://arxiv/abs/2404.03820

论文标题:ReFT: Representation Finetuning for Language Models

论文链接: https://arxiv/abs/2404.03592

论文标题:Verifiable by Design: Aligning Language Models to Quote from Pre-Training Data

论文链接: https://arxiv/abs/2404.03862

论文标题:Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

论文链接: https://arxiv/abs/2404.04256

论文标题:AutoCodeRover: Autonomous Program Improvement

论文链接: https://arxiv/abs/2404.05427

论文标题:Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

论文链接: https://arxiv/abs/2404.05892

论文标题:CodecLM: Aligning Language Models with Tailored Synthetic Data

论文链接: https://arxiv/abs/2404.05875

论文标题:MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

论文链接: https://arxiv/abs/2404.06395

论文标题:Elephants Never Forget: Memorization and Learning of Tabular Data in Large Language Models

论文链接: https://arxiv/abs/2404.06209

论文标题:LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

论文链接: https://arxiv/abs/2404.05961

论文标题:Adapting LLaMA Decoder to Vision Transformer

论文链接: https://arxiv/abs/2404.06773

论文标题: Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

论文链接: https://arxiv/abs/2404.07143

论文标题:LLoCO: Learning Long Contexts Offline

论文链接: https://arxiv/abs/2404.07979

论文标题:JetMoE: Reaching Llama2 Performance with 0.1M Dollars

论文链接: https://arxiv/abs/2404.07413

论文标题: Best Practices and Lessons Learned on Synthetic Data for Language Models

论文链接: https://arxiv/abs/2404.07503

论文标题:Rho-1: Not All Tokens Are What You Need

论文链接: https://arxiv/abs/2404.07965

论文标题:Pre-training Small Base LMs with Fewer Tokens

论文链接: https://arxiv/abs/2404.08634

论文标题:Dataset Reset Policy Optimization for RLHF

论文链接: https://arxiv/abs/2404.08495

论文标题:LLM In-Context Recall is Prompt Dependent

论文链接: https://arxiv/abs/2404.08865

论文标题:State Space Model for New-Generation Network Alternative to Transformers: A Survey

论文链接: https://arxiv/abs/2404.09516

论文标题:Chinchilla Scaling: A Replication Attempt

论文链接: https://arxiv/abs/2404.10102

论文标题:Learn Your Reference Model for Real Good Alignment

论文链接: https://arxiv/abs/2404.09656

论文标题:Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study

论文链接: https://arxiv/abs/2404.10719

论文标题:Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies

论文链接: https://arxiv/abs/2404.08197

论文标题:How Faithful Are RAG Models? Quantifying the Tug-of-War Between RAG and LLMs’ Internal Prior

论文链接: https://arxiv/abs/2404.10198

论文标题:A Survey on Retrieval-Augmented Text Generation for Large Language Models

论文链接:https://arxiv/abs/2404.10981

论文标题:When LLMs are Unfit Use FastFit: Fast and Effective Text Classification with Many Classes

论文链接: https://arxiv/abs/2404.12365

论文标题:Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

论文链接: https://arxiv/abs/2404.12253

论文标题:OpenBezoar: Small, Cost-Effective and Open Models Trained on Mixes of Instruction Data

论文链接: https://arxiv/abs/2404.12195

论文标题:The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

论文链接: https://arxiv/abs/2404.13208

论文标题:An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs

论文链接: https://arxiv/abs/2404.14047

论文标题:Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

论文链接: https://arxiv/abs/2404.14219

论文标题: OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

论文链接: https://arxiv/abs/2404.14619

论文标题: A Survey on Self-Evolution of Large Language Models

论文链接: https://arxiv/abs/2404.14662

论文标题: Multi-Head Mixture-of-Experts

论文链接: https://arxiv/abs/2404.15045

论文标题:NExT: Teaching Large Language Models to Reason about Code Execution

论文链接: https://arxiv/abs/2404.14662

论文标题:Graph Machine Learning in the Era of Large Language Models (LLMs)

论文链接: https://arxiv/abs/2404.14928

论文标题:Retrieval Head Mechanistically Explains Long-Context Factuality

论文链接: https://arxiv/abs/2404.15574

论文标题:Layer Skip: Enabling Early Exit Inference and Self-Speculative Decoding

论文链接: https://arxiv/abs/2404.16710

论文标题:Make Your LLM Fully Utilize the Context

论文链接:https://arxiv/abs/2404.16811

论文标题:LoRA Land: 310 Fine-tuned LLMs that Rival GPT-4, A Technical Report

论文链接: https://arxiv/abs/2405.00732

论文标题:Better & Faster Large Language Models via Multi-token Prediction

论文链接: https://arxiv/abs/2404.19737

论文标题:RAG and RAU: A Survey on Retrieval-Augmented Language Model in Natural Language Processing

论文链接: https://arxiv/abs/2404.19543

论文标题:A Primer on the Inner Workings of Transformer-based Language Models

论文链接: https://arxiv/abs/2405.00208

论文标题:When to Retrieve: Teaching LLMs to Utilize Information Retrieval Effectively

论文链接:https://arxiv/abs/2404.19705

论文标题:KAN: Kolmogorov–Arnold Networks

论文链接: https://arxiv/abs/2404.19756

五月论文

论文标题:Is Bigger Edit Batch Size Always Better? An Empirical Study on Model Editing with Llama-3

论文链接:https://arxiv/abs/2405.00664

论文标题:Self-Play Preference Optimization for Language Model Alignment

论文链接: https://arxiv/abs/2405.00675

论文标题:A Careful Examination of Large Language Model Performance on Grade School Arithmetic

论文链接: https://arxiv/abs/2405.00332

论文标题:Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

论文链接: https://arxiv/abs/2405.01535

论文标题:What Matters When Building Vision-Language Models?

论文链接: https://arxiv/abs/2405.02246

论文标题:Is Flash Attention Stable?

论文链接:https://arxiv/abs/2405.02803

论文标题:vAttention: Dynamic Memory Management for Serving LLMs without PagedAttention

论文链接: https://arxiv/abs/2405.04437

论文标题:xLSTM: Extended Long Short-Term Memory

论文链接:https://arxiv/abs/2405.04517

论文标题:You Only Cache Once: Decoder-Decoder Architectures for Language Models

论文链接: https://arxiv/abs/2405.05254

论文标题:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

论文链接: https://arxiv/abs/2405.04434

论文标题:Fishing for Magikarp: Automatically Detecting Under-trained Tokens in Large Language Models

论文标题: https://arxiv/abs/2405.05417

论文标题:Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

论文链接:https://arxiv/abs/2405.05904

论文标题:Value Augmented Sampling for Language Model Alignment and Personalization

论文标题: https://arxiv/abs/2405.06639

论文标题:PHUDGE: Phi-3 as Scalable Judge

论文链接: https://arxiv/abs/2405.08029

论文标题:RLHF Workflow: From Reward Modeling to Online RLHF

论文链接:https://arxiv/abs/2405.07863

论文标题:LoRA Learns Less and Forgets Less

论文链接:https://arxiv/abs/2405.09673

论文标题:Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

论文链接:https://arxiv/abs/2405.09215

论文标题:Chameleon: Mixed-Modal Early-Fusion Foundation Models

论文链接: https://arxiv/abs/2405.09818

论文标题:Towards Modular LLMs by Building and Reusing a Library of LoRAs

论文链接:https://arxiv/abs/2405.11157

论文标题:SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization

论文链接:https://arxiv/abs/2405.11582

论文标题:MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

论文链接:https://arxiv/abs/2405.12130

论文标题:Attention as an RNN

论文链接:https://arxiv/abs/2405.13956

论文标题:Dense Connector for MLLMs

论文链接: https://arxiv/abs/2405.13800

论文标题:AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability

论文链接: https://arxiv/abs/2405.14129

论文标题: SimPO: Simple Preference Optimization with a Reference-Free Reward

论文链接: https://arxiv/abs/2405.14734

论文标题:Instruction Tuning With Loss Over Instructions

论文链接:https://arxiv/abs/2405.14394

论文标题:The Road Less Scheduled

论文链接:https://arxiv/abs/2405.15682

论文标题:Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training

论文链接: https://arxiv/abs/2405.15319

论文标题:gzip Predicts Data-dependent Scaling Laws

论文链接:https://arxiv/abs/2405.16684

论文标题:Trans-LoRA: Towards Data-free Transferable Parameter Efficient Finetuning

论文链接: https://arxiv/abs/2405.17258

论文标题:VeLoRA: Memory Efficient Training using Rank-1 Sub-Token Projections

论文链接:https://arxiv/abs/2405.17991

论文标题:LLaMA-NAS: Efficient Neural Architecture Search for Large Language Models

论文链接: https://arxiv/abs/2405.18377

论文标题:Contextual Position Encoding: Learning to Count What’s Important

论文链接:https://arxiv/abs/2405.18719

六月论文

论文标题:Show, Don’t Tell: Aligning Language Models with Demonstrated Feedback

论文链接: https://arxiv/abs/2406.00888

论文标题:Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models

论文链接:https://arxiv/abs/2406.06563

论文标题:OLoRA: Orthonormal Low-Rank Adaptation of Large Language Models

论文链接:https://arxiv/abs/2406.01775

论文标题:The Geometry of Categorical and Hierarchical Concepts in Large Language Models

论文链接: https://arxiv/abs/2406.01506

论文标题:Towards Scalable Automated Alignment of LLMs: A Survey

论文链接:https://arxiv/abs/2406.01252

论文标题:Scalable MatMul-free Language Modeling

论文链接:https://arxiv/abs/2406.02528

论文标题:Block Transformer: Global-to-Local Language Modeling for Fast Inference

论文链接: https://arxiv/abs/2406.02657

论文标题:Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

 论文链接:https://arxiv/abs/2406.04271

论文标题:The Prompt Report: A Systematic Survey of Prompting Techniques

论文链接: https://arxiv/abs/2406.06608

论文标题:Transformers Need Glasses! Information Over-Squashing in Language Tasks

论文链接: https://arxiv/abs/2406.04267

论文标题:Are We Done with MMLU?

论文链接:https://arxiv/abs/2406.04127

论文标题:Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step

论文链接: https://arxiv/abs/2406.04314

论文标题:Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach

论文链接: https://arxiv/abs/2406.04594

论文标题:CRAG – Comprehensive RAG Benchmark

论文链接:https://arxiv/abs/2406.04744

论文标题:WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

论文链接: https://arxiv/abs/2406.04770

论文标题:Mixture-of-Agents Enhances Large Language Model Capabilities

论文链接:https://arxiv/abs/2406.04692

论文标题:BERTs are Generative In-Context Learners

论文链接:https://arxiv/abs/2406.04823

论文标题:3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination

论文链接: https://arxiv/abs/2406.05132

论文标题:Creativity Has Left the Chat: The Price of Debiasing Language Models

论文链接:https://arxiv/abs/2406.05587

论文标题:Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation

论文链接: https://arxiv/abs/2406.06525

论文标题:Margin-aware Preference Optimization for Aligning Diffusion Models Without Reference

论文链接: https://arxiv/abs/2406.06424

论文标题:Husky: A Unified, Open-Source Language Agent for Multi-Step Reasoning

论文链接: https://arxiv/abs/2406.06469

论文标题: Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters

论文链接: https://arxiv/abs/2406.05955

论文标题:Self-Tuning: Instructing LLMs to Effectively Acquire New Knowledge through Self-Teaching

论文链接: https://arxiv/abs/2406.06326

论文标题:An Image is Worth 32 Tokens for Reconstruction and Generation

论文链接: https://arxiv/abs/2406.07550

论文标题:TextGrad: Automatic “Differentiation” via Text

论文链接:https://arxiv/abs/2406.07496

论文标题:Simple and Effective Masked Diffusion Language Models

论文链接:https://arxiv/abs/2406.07524

论文标题:Never Miss A Beat: An Efficient Recipe for Context Window Extension of Large Language Models with Consistent “Middle” Enhancement

论文链接:https://arxiv/abs/2406.07138

论文标题:Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling

论文链接: https://arxiv/abs/2406.07522

论文标题:Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

论文链接: https://arxiv/abs/2406.08464

论文标题:What If We Recaption Billions of Web Images with LLaMA-3?

论文链接:https://arxiv/abs/2406.08478

论文标题:Large Language Model Unlearning via Embedding-Corrupted Prompts

论文链接:https://arxiv/abs/2406.07933

论文标题:Large Language Models Must Be Taught to Know What They Don’t Know

论文链接: https://arxiv/abs/2406.08391

论文标题:An Empirical Study of Mamba-based Language Models

论文链接:https://arxiv/abs/2406.07887

论文标题: Discovering Preference Optimization Algorithms with and for Large Language Models

论文链接: https://arxiv/abs/2406.08414

论文标题:Transformers Meet Neural Algorithmic Reasoners

论文链接: https://arxiv/abs/2406.09308

论文标题:MLKV: Multi-Layer Key-Value Heads for Memory Efficient Transformer Decoding

论文链接: https://arxiv/abs/2406.09297

论文标题:An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels

论文链接: https://arxiv/abs/2406.09415

论文标题:FouRA: Fourier Low Rank Adaptation

论文链接:https://arxiv/abs/2406.08798

论文标题: Bootstrapping Language Models with DPO Implicit Rewards

论文链接:https://arxiv/abs/2406.09760

论文标题:Be like a Goldfish, Don’t Memorize! Mitigating Memorization in Generative LLMs

论文链接: https://arxiv/abs/2406.10209

论文标题:Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs

论文链接: https://arxiv/abs/2406.10216

论文标题:THEANINE: Revisiting Memory Management in Long-term Conversations with Timeline-augmented Response Generation

论文链接:https://arxiv/abs/2406.10996

论文标题:Task Me Anything

论文链接: https://arxiv/abs/2406.11775

论文标题:How Do Large Language Models Acquire Factual Knowledge During Pretraining?

论文链接: https://arxiv/abs/2406.11813

论文标题:mDPO: Conditional Preference Optimization for Multimodal Large Language Models

论文链接: https://arxiv/abs/2406.11839

论文标题:Nemotron-4 340B Technical Report

论文链接:https://arxiv/abs/2406.11704

论文标题:DataComp-LM: In Search of the Next Generation of Training Sets for Language Models

论文链接:https://arxiv/abs/2406.11794

论文标题:Tokenization Falling Short: The Curse of Tokenization

论文链接: https://arxiv/abs/2406.11687

论文标题: DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

论文链接: https://arxiv/abs/2406.11931

论文标题:Unveiling Encoder-Free Vision-Language Models

论文链接:https://arxiv/abs/2406.11832

论文标题:Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level

论文链接: https://arxiv/abs/2406.11817

论文标题:HARE: HumAn pRiors, a key to small language model Efficiency

论文链接:https://arxiv/abs/2406.11410

论文标题:Measuring memorization in RLHF for code completion

论文链接: https://arxiv/abs/2406.11715

论文标题:Self-MoE: Towards Compositional Large Language Models with Self-Specialized Experts

论文链接: https://arxiv/abs/2406.12034

论文标题:From RAGs to Rich Parameters: Probing How Language Models Utilize External Knowledge Over Parametric Information for Factual Queries

论文链接: https://arxiv/abs/2406.12824

论文标题:Judging the Judges: Evaluating Alignment and Vulnerabilities in LLMs-as-Judges

论文链接: https://arxiv/abs/2406.12624

论文标题:Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

论文链接: https://arxiv/abs/2406.13121

论文标题:Instruction Pre-Training: Language Models are Supervised Multitask Learners

论文链接: https://arxiv/abs/2406.14491

论文标题:Can LLMs Learn by Teaching? A Preliminary Study

论文链接:https://arxiv/abs/2406.14629

论文标题:A Tale of Trust and Accuracy: Base vs. Instruct LLMs in RAG Systems

论文链接:https://arxiv/abs/2406.14972

论文标题: LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs

论文链接: https://arxiv/abs/2406.15319

论文标题:MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression

论文链接: https://arxiv/abs/2406.14909

论文标题:Efficient Continual Pre-training by Mitigating the Stability Gap

论文链接:https://arxiv/abs/2406.14833

论文标题:Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers

论文链接: https://arxiv/abs/2406.16747

论文标题:WARP: On the Benefits of Weight Averaged Rewarded Policies

论文链接:https://arxiv/abs/2406.16768

论文标题:Adam-mini: Use Fewer Learning Rates To Gain More

论文链接:https://arxiv/abs/2406.16793

论文标题:The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

论文链接: https://arxiv/abs/2406.17557

论文标题:LongIns: A Challenging Long-context Instruction-based Exam for LLMs

论文链接: https://arxiv/abs/2406.17588

论文标题:Following Length Constraints in Instructions

论文链接:https://arxiv/abs/2406.17744

论文标题:A Closer Look into Mixture-of-Experts in Large Language Models

论文链接:https://arxiv/abs/2406.18219

论文标题: RouteLLM: Learning to Route LLMs with Preference Data

论文链接: https://arxiv/abs/2406.18665

论文标题:Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs

论文链接: https://arxiv/abs/2406.18629

论文标题:Dataset Size Recovery from LoRA Weights

论文链接: https://arxiv/abs/2406.19395

论文标题:From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data

论文链接: https://arxiv/abs/2406.19292

论文标题:Changing Answer Order Can Decrease MMLU Accuracy

论文链接: https://arxiv/abs/2406.19470

论文标题:Direct Preference Knowledge Distillation for Large Language Models

论文链接: https://arxiv/abs/2406.19774

论文标题:LLM Critics Help Catch LLM Bugs

论文链接:https://arxiv/abs/2407.00215

论文标题:Scaling Synthetic Data Creation with 1,000,000,000 Personas

论文链接: https://arxiv/abs/2406.20094

七月论文

论文标题:LLM See, LLM Do: Guiding Data Generation to Target Non-Differentiable Objectives

论文链接:https://arxiv/abs/2407.01490

论文标题:Searching for Best Practices in Retrieval-Augmented Generation

论文链接:https://arxiv/abs/2407.01219

论文标题:Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

论文链接:https://arxiv/abs/2407.01906

论文标题:Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

论文链接:https://arxiv/abs/2407.01392

论文标题:Eliminating Position Bias of Language Models: A Mechanistic Approach

论文链接:https://arxiv/abs/2407.01100

论文标题:JMInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention

论文链接:https://arxiv/abs/2407.02490

论文标题:TokenPacker: Efficient Visual Projector for Multimodal LLM

论文链接:https://arxiv/abs/2407.02392

论文标题:Reasoning in Large Language Models: A Geometric Perspective

论文链接:https://arxiv/abs/2407.02678

论文标题:RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

论文链接:https://arxiv/abs/2407.02485

论文标题:AgentInstruct: Toward Generative Teaching with Agentic Flows

论文链接:https://arxiv/abs/2407.03502

论文标题:HEMM: Holistic Evaluation of Multimodal Foundation Models

论文链接:https://arxiv/abs/2407.03418

论文标题:Mixture of A Million Experts

论文链接:https://arxiv/abs/2407.04153

论文标题:Learning to (Learn at Test Time): RNNs with Expressive Hidden States

论文链接:https://arxiv/abs/2407.04620

论文标题:Vision Language Models Are Blind

论文链接:https://arxiv/abs/2407.06581

论文标题:Self-Recognition in Language Models

论文链接:https://arxiv/abs/2407.06946

论文标题:Inference Performance Optimization for Large Language Models on CPUs

论文链接:https://arxiv/abs/2407.07304

论文标题:Gradient Boosting Reinforcement Learning

论文链接:https://arxiv/abs/2407.08250

论文标题:FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision

论文链接:https://arxiv/abs/2407.08608

论文标题:SpreadsheetLLM: Encoding Spreadsheets for Large Language Models

论文链接:https://arxiv/abs/2407.09025

论文标题:New Desiderata for Direct Preference Optimization

论文链接:https://arxiv/abs/2407.09072

论文标题:Context Embeddings for Efficient Answer Generation in RAG

论文链接:https://arxiv/abs/2407.09252

论文标题:Qwen2 Technical Report

论文链接:https://arxiv/abs/2407.10671

论文标题:The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism

论文链接:https://arxiv/abs/2407.10457

论文标题:From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients

论文链接:https://arxiv/abs/2407.11239

论文标题:GoldFinch: High Performance RWKV/Transformer Hybrid with Linear Pre-Fill and Extreme KV-Cache Compression

论文链接:https://arxiv/abs/2407.12077

论文标题:Scaling Diffusion Transformers to 16 Billion Parameters

论文链接:https://arxiv/abs/2407.11633

论文标题:NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

论文链接:https://arxiv/abs/2407.11963

论文标题:Patch-Level Training for Large Language Models

论文链接:https://arxiv/abs/2407.12665

论文标题:LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models

论文链接:https://arxiv/abs/2407.12772

论文标题:A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks

论文链接:https://arxiv/abs/2407.12994

论文标题:Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models

论文链接:https://arxiv/abs/2407.12327

论文标题:Attention Overflow: Language Model Input Blur during Long-Context Missing Items Recommendation

论文链接:https://arxiv/abs/2407.13481

论文标题:Weak-to-Strong Reasoning

论文链接:https://arxiv/abs/2407.13647

论文标题:Understanding Reference Policies in Direct Preference Optimization

论文链接:https://arxiv/abs/2407.13709

论文标题:Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

论文链接:https://arxiv/abs/2407.13623

论文标题:BOND: Aligning LLMs with Best-of-N Distillation

论文链接:https://arxiv/abs/2407.14622

论文标题:Compact Language Models via Pruning and Knowledge Distillation

论文链接:https://arxiv/abs/2407.14679

论文标题:LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

论文链接:https://arxiv/abs/2407.14057

论文标题:Mini-Sequence Transformer: Optimizing Intermediate Memory for Long Sequences Training

论文链接:https://arxiv/abs/2407.15892

论文标题:DDK: Distilling Domain Knowledge for Efficient Large Language Models

论文链接:https://arxiv/abs/2407.16154

论文标题:Generation Constraint Scaling Can Mitigate Hallucination

论文链接:https://arxiv/abs/2407.16908

论文标题:Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

论文链接:https://arxiv/abs/2407.16833

论文标题:Course-Correction: Safety Alignment Using Synthetic Preferences

论文链接:https://arxiv/abs/2407.16637

论文标题:Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data?

论文链接:https://arxiv/abs/2407.16607

论文标题:Meta-Rewarding Language Models: Self-Improving Alignment with LLM-as-a-Meta-Judge

论文链接:https://arxiv/abs/2407.19594

论文标题:Improving Retrieval Augmented Language Model with Self-Reasoning

论文链接:https://arxiv/abs/2407.19813

论文标题:Apple Intelligence Foundation Language Models

论文链接:https://arxiv/abs/2407.21075

论文标题:ThinK: Thinner Key Cache by Query-Driven Pruning

论文链接:https://arxiv/abs/2407.21018

论文标题:The Llama 3 Herd of Models

论文链接:https://arxiv/abs/2407.21783

论文标题:Gemma 2: Improving Open Language Models at a Practical Size

论文链接:https://arxiv/abs/2408.00118

八月论文

论文标题:SAM 2: Segment Anything in Images and Videos

论文链接:https://arxiv/abs/2408.00714

论文标题:POA: Pre-training Once for Models of All Sizes

论文链接:https://arxiv/abs/2408.01031

论文标题:RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

论文链接:https://arxiv/abs/2408.01262

论文标题:A Survey of Mamba

论文链接:https://arxiv/abs/2408.01129

论文标题:MiniCPM-V: A GPT-4V Level MLLM on Your Phone

论文链接:https://arxiv/abs/2408.01800

论文标题:RAG Foundry: A Framework for Enhancing LLMs for Retrieval Augmented Generation

论文链接:https://arxiv/abs/2408.02545

论文标题:Self-Taught Evaluators

论文链接:https://arxiv/abs/2408.02666

论文标题:BioMamba: A Pre-trained Biomedical Language Representation Model Leveraging Mamba

论文链接:https://arxiv/abs/2408.02600

论文标题:EXAONE 3.0 7.8B Instruction Tuned Language Model

论文链接:https://arxiv/abs/2408.03541

论文标题:1.5-Pints Technical Report: Pretraining in Days, Not Months – Your Language Model Thrives on Quality Data

论文链接:https://arxiv/abs/2408.03506

论文标题:Conversational Prompt Engineering

论文链接:https://arxiv/abs/2408.04560

论文标题:Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP

论文链接:https://arxiv/abs/2408.04303

论文标题:The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

论文链接:https://arxiv/abs/2408.06292

论文标题:Hermes 3 Technical Report

论文链接:https://arxiv/abs/2408.12570

论文标题:Customizing Language Models with Instance-wise LoRA for Sequential Recommendation

论文链接:https://arxiv/abs/2408.10159

论文标题:Enhancing Robustness in Large Language Models: Prompting for Mitigating the Impact of Irrelevant Information

论文链接:https://arxiv/abs/2408.10615

论文标题:To Code, or Not To Code? Exploring Impact of Code in Pre-training

论文链接:https://arxiv/abs/2408.10914

论文标题:LLM Pruning and Distillation in Practice: The Minitron Approach

论文链接:https://arxiv/abs/2408.11796

论文标题:Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

论文链接:https://arxiv/abs/2408.12570

论文标题:Controllable Text Generation for Large Language Models: A Survey

论文链接:https://arxiv/abs/2408.12599

论文标题:Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time

论文链接:https://arxiv/abs/2408.13233

论文标题:A Practitioner's Guide to Continual Multimodal Pretraining

论文链接:https://arxiv/abs/2408.14471

论文标题:Building and better understanding vision-language models: insights and future directions

论文链接:https://arxiv/abs/2408.12637

论文标题:CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation

论文链接:https://arxiv/abs/2408.14572

论文标题:The Mamba in the Llama: Distilling and Accelerating Hybrid Models

论文链接:https://arxiv/abs/2408.15237

论文标题:ReMamba: Equip Mamba with Effective Long-Sequence Modeling

论文链接:https://arxiv/abs/2408.15496

论文标题:Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling

论文链接:https://arxiv/abs/2408.16737

论文标题:LongRecipe: Recipe for Efficient Long Context Generalization in Large Languge Models

论文链接:https://arxiv/abs/2409.00509

九月论文

论文标题:OLMoE: Open Mixture-of-Experts Language Models

论文链接:https://arxiv/abs/2409.02060

论文标题:In Defense of RAG in the Era of Long-Context Language Models

论文链接:https://arxiv/abs/2409.01666

论文标题:Attention Heads of Large Language Models: A Survey

论文链接:https://arxiv/abs/2409.03752

论文标题:LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

论文链接:https://arxiv/abs/2409.02897

论文标题:How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data

论文链接:https://arxiv/abs/2409.03810

论文标题:Theory, Analysis, and Best Practices for Sigmoid Self-Attention

论文链接:https://arxiv/abs/2409.04431

论文标题:LLaMA-Omni: Seamless Speech Interaction with Large Language Models

论文链接:https://arxiv/abs/2409.06666

论文标题:What is the Role of Small Models in the LLM Era: A Survey

论文链接:https://arxiv/abs/2409.06857

论文标题:Policy Filtration in RLHF to Fine-Tune LLM for Code Generation

论文链接:https://arxiv/abs/2409.06957

论文标题:RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

论文链接:https://arxiv/abs/2409.10516

论文标题:Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement

论文链接:https://arxiv/abs/2409.12122

论文标题:Qwen2.5-Coder Technical Report

论文链接:https://arxiv/abs/2409.12186

论文标题:Instruction Following without Instruction Tuning

论文链接:https://arxiv/abs/2409.14254

论文标题:Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis

论文链接:https://arxiv/abs/2409.20059

论文标题:The Perfect Blend: Redefining RLHF with Mixture of Judges

论文链接:https://arxiv/abs/2409.20370

十月论文

论文标题:Addition is All You Need for Energy-efficient Language Models

论文链接:https://arxiv/abs/2410.00907

论文标题:Quantifying Generalization Complexity for Large Language Models

论文链接:https://arxiv/abs/2410.01769

论文标题:When a language model is optimized for reasoning, does it still show embers of autoregression? An analysis of OpenAI o1

论文链接:https://arxiv/abs/2410.01792

论文标题:Were RNNs All We Needed?

论文链接:https://arxiv/abs/2410.01201

论文标题:Selective Attention Improves Transformer

论文链接:https://arxiv/abs/2410.02703

论文标题:LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations

论文链接:https://arxiv/abs/2410.02707

论文标题:LLaVA-Critic: Learning to Evaluate Multimodal Models

论文链接:https://arxiv/abs/2410.02712

论文标题:Differential Transformer

论文链接:https://arxiv/abs/2410.05258

论文标题:GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

论文链接:https://arxiv/abs/2410.05229

论文标题:ARIA: An Open Multimodal Native Mixture-of-Experts Model

论文链接:https://arxiv/abs/2410.05993

论文标题:O1 Replication Journey: A Strategic Progress Report – Part 1

论文链接:https://arxiv/abs/2410.18982

论文标题:Long-Context LLMs Meet RAG: Overcoming Challenges for Long Inputs in RAG

论文链接:https://arxiv/abs/2410.05983

论文标题:From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

论文链接:https://arxiv/abs/2410.06456

论文标题:KV Prediction for Improved Time to First Token

论文链接:https://arxiv/abs/2410.08391

论文标题:Baichuan-Omni Technical Report

论文链接:https://arxiv/abs/2410.08565

论文标题:MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models

论文链接:https://arxiv/abs/2410.10139

论文标题:LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models

论文链接:https://arxiv/abs/2410.09732

论文标题:AFlow: Automating Agentic Workflow Generation

论文链接:https://arxiv/abs/2410.10762

论文标题:Toward General Instruction-Following Alignment for Retrieval-Augmented Generation

论文链接:https://arxiv/abs/2410.09584

论文标题:Pre-training Distillation for Large Language Models: A Design Space Exploration

论文链接:https://arxiv/abs/2410.16215

论文标题:MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models

论文链接:https://arxiv/abs/2410.17637

论文标题:Scalable Ranked Preference Optimization for Text-to-Image Generation

论文链接:https://arxiv/abs/2410.18013

论文标题:Scaling Diffusion Language Models via Adaptation from Autoregressive Models

论文链接:https://arxiv/abs/2410.17891

论文标题:Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback

论文链接:https://arxiv/abs/2410.19133

论文标题:Counting Ability of Large Language Models and Impact of Tokenization

论文链接:https://arxiv/abs/2410.19730

论文标题:A Survey of Small Language Models

论文链接:https://arxiv/abs/2410.20011

论文标题:Accelerating Direct Preference Optimization with Prefix Sharing

论文链接:https://arxiv/abs/2410.20305

论文标题:Mind Your Step (by Step): Chain-of-Thought can Reduce Performance on Tasks where Thinking Makes Humans Worse

论文链接:https://arxiv/abs/2410.21333

论文标题:LongReward: Improving Long-context Large Language Models with AI Feedback

论文链接:https://arxiv/abs/2410.21252

论文标题:ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference

论文链接:https://arxiv/abs/2410.21465

论文标题:Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications

论文链接:https://arxiv/abs/2410.21943

论文标题:CORAL: Benchmarking Multi-turn Conversational Retrieval-Augmentation Generation

论文链接:https://arxiv/abs/2410.23090

论文标题:What Happened in LLMs Layers when Trained for Fast vs. Slow Thinking: A Gradient Perspective

论文链接:https://arxiv/abs/2410.23743

论文标题:GPT or BERT: why not both?

论文链接:https://arxiv/abs/2410.24159

论文标题:Language Models can Self-Lengthen to Generate Long Texts

论文链接:https://arxiv/abs/2410.23933

十一月论文

论文标题:Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations

论文链接:https://arxiv/abs/2411.00640

论文标题:Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation

论文链接:https://arxiv/abs/2411.00412

论文标题:Multi-expert Prompting Improves Reliability, Safety, and Usefulness of Large Language Models

论文链接:https://arxiv/abs/2411.00492

论文标题:Sample-Efficient Alignment for LLMs

论文链接:https://arxiv/abs/2411.01493

论文标题:A Comprehensive Survey of Small Language Models in the Era of Large Language Models: Techniques, Enhancements, Applications, Collaboration with LLMs, and Trustworthiness

论文链接:https://arxiv/abs/2411.03350

论文标题:"Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization

论文链接:https://arxiv/abs/2411.02355

论文标题:Parameter-Efficient Fine-Tuning of Large Language Models for Unit Test Generation: An Empirical Study

论文链接:https://arxiv/abs/2411.02462

论文标题:HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systems

论文链接:https://arxiv/abs/2411.02959

论文标题:Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

论文链接:https://arxiv/abs/2411.03823

论文标题:Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding

论文链接:https://arxiv/abs/2411.04282

论文标题:Number Cookbook: Number Understanding of Language Models and How to Improve It

论文链接:https://arxiv/abs/2411.03766

论文标题:Mixture-of-Transformers: A Sparse and Scalable Architecture for Multi-Modal Foundation Models

论文链接:https://arxiv/abs/2411.04996

论文标题:BitNet a4.8: 4-bit Activations for 1-bit LLMs

论文链接:https://arxiv/abs/2411.04965

论文标题:Scaling Laws for Precision

论文链接:https://arxiv/abs/2411.04330

论文标题:Energy Efficient Protein Language Models: Leveraging Small Language Models with LoRA for Controllable Protein Generation

论文链接:https://arxiv/abs/2411.05966

论文标题:Balancing Pipeline Parallelism with Vocabulary Parallelism

论文链接:https://arxiv/abs/2411.05288

论文标题:Toward Optimal Search and Retrieval for RAG

论文链接:https://arxiv/abs/2411.07396

论文标题:Large Language Models Can Self-Improve in Long-context Reasoning

论文链接:https://arxiv/abs/2411.08147

论文标题:Stronger Models are NOT Stronger Teachers for Instruction Tuning

论文链接:https://arxiv/abs/2411.07133

论文标题:Direct Preference Optimization Using Sparse Feature-Level Constraints

论文链接:https://arxiv/abs/2411.07618

论文标题:Cut Your Losses in Large-Vocabulary Language Models

论文链接:https://arxiv/abs/2411.09009

论文标题:Does Prompt Formatting Have Any Impact on LLM Performance?

论文链接:https://arxiv/abs/2411.10541

论文标题:SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization

论文链接:https://arxiv/abs/2411.11909

论文标题:SageAttention2 Technical Report: Accurate 4 Bit Attention for Plug-and-play Inference Acceleration

论文链接:https://arxiv/abs/2411.10958

论文标题:Bi-Mamba: Towards Accurate 1-Bit State Space Models

论文链接:https://arxiv/abs/2411.11843

论文标题:RedPajama: an Open Dataset for Training Large Language Models

论文链接:https://arxiv/abs/2411.12372

论文标题:Hymba: A Hybrid-head Architecture for Small Language Models

论文链接:https://arxiv/abs/2411.13676

论文标题:Loss-to-Loss Prediction: Scaling Laws for All Datasets

论文链接:https://arxiv/abs/2411.12925

论文标题:When Precision Meets Position: BFloat16 Breaks Down RoPE in Long-Context Training

论文链接:https://arxiv/abs/2411.13476

论文标题:Multimodal Autoregressive Pre-training of Large Vision Encoders

论文链接:https://arxiv/abs/2411.14402

论文标题:Natural Language Reinforcement Learning

论文链接:https://arxiv/abs/2411.14251

论文标题:Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

论文链接:https://arxiv/abs/2411.14982

论文标题:TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

论文链接:https://arxiv/abs/2411.15124

论文标题:MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs

论文链接:https://arxiv/abs/2411.15296

论文标题:LLMs Do Not Think Step-by-step In Implicit Reasoning

论文链接:https://arxiv/abs/2411.15862

论文标题:O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation, Big Progress or Bitter Lesson?

论文链接:https://arxiv/abs/2411.16489

论文标题:Star Attention: Efficient LLM Inference over Long Sequences

论文链接:https://arxiv/abs/2411.17116

论文标题:Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens

论文链接:https://arxiv/abs/2411.17691

论文标题:Rethinking Token Reduction in MLLMs: Towards a Unified Paradigm for Training-Free Acceleration

论文链接:https://arxiv/abs/2411.17686

论文标题:Reverse Thinking Makes LLMs Stronger Reasoners

论文链接:https://arxiv/abs/2411.19865

论文标题:Critical Tokens Matter: Token-Level Contrastive Estimation Enhances LLM's Reasoning Capability

论文链接:https://arxiv/abs/2411.19943

十二月论文

论文标题:Designing Scale-Wise Transformers for Text-to-Image Synthesis

论文链接:https://arxiv/abs/2412.01819

论文标题:X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models

论文链接:https://arxiv/abs/2412.01824

论文标题:Free Process Rewards without Process Labels

论文链接:https://arxiv/abs/2412.01981

论文标题:Scaling Image Tokenizers with Grouped Spherical Quantization

论文链接:https://arxiv/abs/2412.02632

论文标题:RARE: Retrieval-Augmented Reasoning Enhancement for Large Language Models

论文链接:https://arxiv/abs/2412.02830

论文标题:Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

论文链接:https://arxiv/abs/2412.03548

论文标题:Evaluating Language Models as Synthetic Data Generators

论文链接:https://arxiv/abs/2412.03679

论文标题:Best-of-N Jailbreaking

论文链接:https://arxiv/abs/2412.03556

论文标题:PaliGemma 2: A Family of Versatile VLMs for Transfer

论文链接:https://arxiv/abs/2412.03555

论文标题:VisionZip: Longer is Better but Not Necessary in Vision Language Models

论文链接:https://arxiv/abs/2412.04467

论文标题:Evaluating and Aligning CodeLLMs on Human Preference

论文链接:https://arxiv/abs/2412.05210

论文标题:MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

论文链接:https://arxiv/abs/2412.05237

论文标题:Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

论文链接:https://arxiv/abs/2412.05271

论文标题:LLMs-as-Judges: A Comprehensive Survey on LLM-based Evaluation Methods

论文链接:https://arxiv/abs/2412.05579

论文标题:Does RLHF Scale? Exploring the Impacts From Data, Model, and Method

论文链接:https://arxiv/abs/2412.06000

论文标题:Unraveling the Complexity of Memory in RL Agents: An Approach for Classification and Evaluation

论文链接:https://arxiv/abs/2412.06531

论文标题:Training Large Language Models to Reason in a Continuous Latent Space

论文链接:https://arxiv/abs/2412.06769

论文标题:AutoReason: Automatic Few-Shot Reasoning Decomposition

论文链接:https://arxiv/abs/2412.06975

论文标题:Large Concept Models: Language Modeling in a Sentence Representation Space

论文链接:https://arxiv/abs/2412.08821

论文标题:Phi-4 Technical Report

论文链接:https://arxiv/abs/2412.08905

论文标题:Byte Latent Transformer: Patches Scale Better Than Tokens

论文链接:https://arxiv/abs/2412.09871

论文标题:SCBench: A KV Cache-Centric Analysis of Long-Context Methods

论文链接:https://arxiv/abs/2412.10319

论文标题:Cultural Evolution of Cooperation among LLM Agents

论文链接:https://arxiv/abs/2412.10270

论文标题:DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding

论文链接:https://arxiv/abs/2412.10302

论文标题:No More Adam: Learning Rate Scaling at Initialization is All You Need

论文链接:https://arxiv/abs/2412.11768

论文标题:Precise Length Control in Large Language Models

论文链接:https://arxiv/abs/2412.11937

论文标题:The Open Source Advantage in Large Language Models (LLMs)

论文链接:https://arxiv/abs/2412.12004

论文标题:A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges

论文链接:https://arxiv/abs/2412.11936

论文标题:Are Your LLMs Capable of Stable Reasoning?

论文链接:https://arxiv/abs/2412.13147

论文标题:LLM Post-Training Recipes, Improving Reasoning in LLMs

论文链接:https://arxiv/abs/2412.14135

论文标题:Hansel: Output Length Controlling Framework for Large Language Models

论文链接:https://arxiv/abs/2412.14033

论文标题:Mind Your Theory: Theory of Mind Goes Deeper Than Reasoning

论文链接:https://arxiv/abs/2412.1363

论文标题:Alignment Faking in Large Language Models

论文链接:https://arxiv/abs/2412.14093

论文标题:SCOPE: Optimizing Key-Value Cache Compression in Long-Context Generation

论文链接:https://arxiv/abs/2412.13649

论文标题:LongBench v2: Towards Deeper Understanding and Reasoning on Realistic Long-Context Multitasks

论文链接:https://arxiv/abs/2412.15204

论文标题:Offline Reinforcement Learning for LLM Multi-Step Reasoning

论文链接:https://arxiv/abs/2412.16145

论文标题:Mulberry: Empowering MLLM with O1-like Reasoning and Reflection via Collective Monte Carlo Tree Search

论文链接:https://arxiv/abs/2412.18319

#上交大揭露大模型审稿风险

一句话就能让论文评分飞升

大语言模型(LLMs)正以前所未有的方式,深刻影响着学术同行评审的格局。同行评审作为科学研究的基石,其重要性毋庸置疑。然而,随着大语言模型逐渐渗透到这一核心过程,我们是否已经准备好面对它可能带来的深远影响?在这场变革之前,我们必须清醒地认识到其中潜藏的风险,并采取切实可行的防范措施。

近年来,大语言模型在多个领域展现出了令人惊叹的潜力。同行评审作为一项既繁琐又至关重要的任务,正在引起越来越多学者的关注并尝试利用大语言模型来辅助甚至替代审稿,力图提高这一传统流程的效率。

斯坦福大学的研究团队便在《NEJM AI》子刊上发布了相关研究,指出大语言模型能够生成与人类审稿人相似的审稿意见。而根据斯坦福团队的估算,最近的若干个 AI 顶会中,竟有高达 6.5% 至 16.9% 的论文内容由大语言模型显著调整过!同样,瑞士洛桑联邦理工大学(EPFL)的研究发现,ICLR 2024 的审稿过程中,约 15.8% 的评审意见是 AI 辅助生成的!与此同时,越来越多的人开始在社交媒体上抱怨审稿人利用大语言模型进行审稿。

种种现象表明,大语言模型已经悄然渗透到了学术审稿的最前线,显现出一种不容忽视的趋势。然而,在其大规模使用之前,我们对其潜在的风险却没有一个清醒的认知。这无疑给同行评议的可靠性带来了巨大的风险。

在此背景下,上海交通大学、佐治亚理工学院、上海市人工智能实验室、佐治亚大学与牛津大学的科研团队联合展开了深入研究,发表了最新论文《Are we there yet? Revealing the risks of utilizing large language models in scholarly peer review》,揭示了大语言模型在审稿中潜藏的风险。研究表明:

  1. 操控风险:作者可能通过在文章中巧妙插入肉眼无法察觉的文本,直接操控大语言模型生成的审稿意见,甚至操控最终的论文评分。
  2. 隐性操控:大语言模型倾向于复述作者主动在文章中揭示的局限性,令作者可以通过有意暴露轻微缺陷,从而隐秘地操控审稿过程。
  3. 幻觉问题:更为严重的是,大语言模型可能对空白文章生成虚构的审稿意见,揭示了「模型幻觉」问题在审稿中的潜在威胁。
  4. 偏见问题:大语言模型在审稿过程中也暴露了明显的偏好,尤其对文章长度和著名作者及机构的偏爱,极大影响评审的公正性。

这些发现暴露出了我们在拥抱新技术的同时,可能忽视的重大风险。为此,研究者们发出了警示:学界应当暂停使用大语言模型替代审稿工作,并呼吁制定有效的防范措施,确保科技进步能够在更加健康、透明的框架内进行。

  • 论文链接:https://arxiv/pdf/2412.01708
  • 项目主页:https://rui-ye.github.io/BadLLMReviewer
  • 调查问卷:https://forms.gle/c9tH3sXrVFtnDgjQ6

显式操纵

研究者们首先揭示了一种低成本却十分有效操纵手段:文章的作者可以通过在文中插入微小、几乎不可见的指令性文字,即可轻松引导审稿模型强调文章的创新性与影响力,同时弱化文章的缺陷(如语法错误等)!插入的文字,尽管在常规人工审稿过程中几乎不可见,但在当前常见的自动化的 LLM 审稿过程中,依然会被提取并与文章内容一同解析,能够被审稿模型误认为提示词,进而操纵模型生成高度正面的反馈,极大提高文章接收概率,危害审稿系统的公平可靠性。

图 1. 作者可在文章中插入肉眼不可见、极小的白色文字

研究团队对三款主流大语言模型审稿系统进行了测试,结果令人震惊:在面对这种显式操控时,所有模型都未能幸免。测试前,文章的评分仅接近边界分数(Borderline);然而,插入操控文字后,文章的评分暴涨,甚至高达 8 分!—— 这一分数在 ICLR 等顶级会议中,意味着论文被接收概率极大。

这一现象清晰地表明,操控手段能够以惊人的效率扭曲审稿系统的判断,显著改变文章的最终命运。如果没有强有力的防范机制,这种操控行为可能会极大地影响学术评审的公平性,甚至对整个科研环境的可信度造成无法估量的损害。

图 2. 显式操纵可使论文评分飞涨

隐式操纵

然而,显式操控虽然有效,却也容易被学术界视为不道德甚至作弊行为,因此一些 「谨慎」的作者可能会选择回避这种方法。那么,是否还有一种更为微妙、隐蔽且更具潜在威胁的操控方式呢?答案是肯定的。

研究者们发现了一种更为隐蔽的操控方式:作者主动披露文章的局限性,尤其是在论文的「Limitations」章节中。这种做法,甚至是学术会议的推荐做法。然而,研究显示,大语言模型审稿时,生成的审稿内容与论文局限性部分的内容竟高度一致!

图 3. 大语言模型容易复述作者在文章中主动揭露的 Limitations

研究者们接着系统对比了人类审稿与论文局限性内容之间的一致性,以及大语言模型审稿与局限性内容之间的一致性。结果显示大语言模型审稿与局限性内容之间的一致性远远高于人类审稿与局限性内容之间的一致性。这意味着,不同于人类审稿人,大语言模型容易被文章本身的信息所左右,缺乏独立批判性思维,而这正是合格审稿人需具备的基本条件。

这一发现揭示了一个深刻的风险:学术作者可以故意暴露一些微不足道的问题,从而间接引导大语言模型产生有利于论文的审稿意见。更严重的是,与显式操控相比,隐式操控更难察觉,更难防范,也更难定性,却能对学术评审的公平性构成严重威胁。

图 4. 大语言模型比真人更容易复述作者在文章中主动揭露的 Limitations

内在缺陷:幻觉

更令人震惊的是,研究者们还发现了大语言模型审稿过程中的一个根本性缺陷 —— 幻觉问题。有时,即使一篇文章根本没有内容,审稿模型依然能生成长篇大论的审稿意见。在测试中,研究者们输入了一个空白文章,结果发现其中一款审稿模型竟然对这篇空白文章生成了完整的审稿意见!虽然另外两款模型识别出了输入为空白并未作出评价,但这种「无中生有」的现象依然令人不寒而栗。

图 5. 大语言模型可能无中生有的审稿内容

更进一步,研究者们不断增加输入给审稿模型的内容(空白 -> 仅标题 -> 标题摘要引言 -> 全篇),发现当进一步加入摘要和引言部分后,所有三种审稿系统的评分竟几乎与完整论文一致。

这一发现揭示了大语言模型在同行评审中的巨大不可靠性:即使文章内容尚未完善,模型仍可能生成似是而非的评审意见,给出与完整论文相似的评分,严重扭曲了评审的实际质量。

图 6. 大语言模型可能给不完整的文章高分

内在缺陷:偏好

除了幻觉问题,大语言模型在同行评审中还可能表现出令人担忧的偏见。研究者们深入探讨了大语言模型评分与文章长度之间的关系,结果发现:大部分审稿系统对论文长度有显著的偏好:论文越长,接受的概率越高。这一偏好无疑会使得那些写得更长、更繁复的文章在评审中占得先机,极大削弱了评审的公正性。

图 7. 大语言模型偏向于更长的文章

此外,研究者们还对大语言模型是否会受到作者机构的影响进行了测试。在单盲审稿模式下,他们尝试将作者的机构名替换为计算机科学领域顶尖的大学(如 MIT 等)或 LLMs 领域的领先公司(如 OpenAI 等),并将作者名字替换为图灵奖得主。结果令人惊讶,所有这些替换均显著提高了文章的接受概率,揭示了大语言模型在审稿过程中存在的系统性偏见。

这一现象表明,若大语言模型成为同行评审的一部分,它将极有可能加剧现有学术评价体系中的不公平问题,进一步放大「名校效应」和「名人效应」。

图 8. 大语言模型审稿被作者机构显著影响

倡议与总结

随着大语言模型(LLM)在学术同行评审中的应用日益增多,研究者们深入分析了其潜在风险,并提出了相应的建议,旨在确保学术审稿过程的公正性和严谨性。基于研究结果,研究者们提出以下倡议:

  • 暂停 LLM 在同行评审中的替代性使用:研究者们呼吁在充分了解 LLM 的风险并采取有效防范措施之前,暂停其在同行评审中的替代式应用。
  • 引入检测工具与问责机制:研究者们呼吁期刊和会议组织者引入全面的检测工具与问责机制,以识别并应对审稿过程中可能的操控行为;并引入惩罚措施来遏制这些行为的发生。
  • 将 LLM 作为辅助工具使用:展望未来,研究者们认为随着投稿数量的持续增加,LLM 在审稿过程中的自动化潜力不可忽视。尽管 LLM 目前还无法完全取代人类审稿,但其仍有潜力作为审稿过程的补充工具,提供额外反馈以提升审稿质量。
  • 增强 LLM 审稿系统的稳健性与安全性:未来应致力于开发一种能够有效整合 LLM 的同行评审流程,既能最大化它们的潜力,又能有效防范我们已识别的风险,增强其稳健性和安全性。

总结而言,虽然 LLM 在提升审稿效率和质量方面有潜力,研究者们强调必须谨慎推进其应用。只有在确保其风险可控且有有效的防范机制后,才能负责任地将 LLM 整合进学术同行评审中,避免破坏学术出版的公正性和严谨性。

(最后研究者们仍在做进一步的问卷调查,邀请广大有投稿 / 审稿经历的同行参与,共同探讨这一新兴技术对学术审稿流程的影响。可点击如下 Google 问卷 [2-5 mins]:https://forms.gle/c9tH3sXrVFtnDgjQ6)

#2024年大模型领域进展全复盘

全面打破GPT-4垄断、DeepSeek打下训练成本..

2024年,我们居然进步这么大。

刚刚过去的 2024 年是生成式 AI 大发展的一年,我们见证了 OpenAI Sora 的崛起,大模型服务价格的飞速下降,以及国内开源大模型的奋起直追。这全方位的快速发展让我们对下一波 AI 的新技术大规模应用充满了信心。

对于身在 AI 领域的工程师和学者们来说,他们看待这一年的观点会有不同吗?

新年伊始,就有人对过去一年里大模型技术的发展进行了详尽的总结。本文的作者 Simon Willison 是英国知名独立研究员和开放源代码创建者。

让我们看看他是怎么说的。

2024 年,大型语言模型领域发生了很多事情。以下是过去 12 个月我们对该领域的研究成果的回顾,以及我尝试确定的关键主题和关键时刻。

2023 年的总结在这里:https://simonwillison/2023/Dec/31/ai-in-2023/

在 2024 年,我们可以看到:

  • GPT-4 垄断被全面打破
  • 一些 GPT-4 级模型可以在笔记本电脑上运行
  • 由于竞争和优化,大模型服务的价格崩盘
  • 多模态视觉已经变得常见,音频和视频模型开始出现
  • 语音和实时摄像头模式正从科幻小说变成现实
  • 一个提示词做出一个 APP,已经很普遍了
  • 对最佳模型的普遍访问仅持续了短短几个月
  • AI 「智能体」可能还有点远
  • 评估真的很重要
  • Apple Intelligence 很糟糕,但 MLX 库很出色
  • 正在崛起的「推理」模型
  • 目前最好的 LLM 来自中国,训练成本不到 600 万美元?
  • 环境影响变好了,但也在变得越来越严重
  • 合成训练数据效果很好
  • LLM 不知何故变得更难用了
  • 知识分布不均匀
  • LLM 需要更好的批评

GPT-4 垄断被全面打破

在 2023 年 12 月的评论中,我写了关于我们还不知道如何构建 GPT-4——OpenAI 提出的领先大模型当时已经有近一年的历史了,但没有其他人工智能实验室能做出更好的模型。OpenAI 的做法里面有什么过人之处吗?

令人欣慰的是,这种情况在过去十二个月里完全改变了。现在有 18 个公司、机构在 Chatbot Arena 排行榜上的模型排名高于 2023 年 3 月的原始 GPT-4(排行榜上的 GPT-4-0314)—— 总共有 70 个模型。

其中最早的是谷歌于 2 月发布的 Gemini 1.5 Pro。除了产生 GPT-4 级别的输出外,它还为该领域引入了几项全新的功能 —— 最值得注意的是其 100 万(后来是 200 万)个 token 输入上下文长度,以及接收视频的能力。

我当时在《The killer app of Gemini Pro 1.5 is video》中写到了这一点,这让我在 5 月的谷歌 I/O 开幕主题演讲中作为主持人短暂露面。

Gemini 1.5 Pro 还展示了 2024 年的一个关键主题:增加上下文长度。去年,大多数模型接收 4096 或 8192 个 token,但 Claude 2.1 是个值得注意的例外,它能接收 20 万个 token。如今,每个严肃的提供商都有一个 10 万以上的 token 模型,而谷歌的 Gemini 系列最多可以接受 200 万个 token。

更长的输入极大地增加了使用 LLM 可以解决的问题范围:你现在可以投入一整本书并询问有关其内容的问题。但更重要的是,你可以输入大量示例代码来帮助模型正确解决编码问题。涉及长输入的 LLM 用例对我来说比纯粹依赖模型权重中已经嵌入的信息的短提示更有趣。我的许多工具都是使用这种模式构建的。

回到击败 GPT-4 的模型:Anthropic 的 Claude 3 系列于 3 月推出,Claude 3 Opus 很快成为我最喜欢的日常大模型。他们在 6 月进一步提高了赌注,推出了 Claude 3.5 Sonnet—— 六个月后,这个模型仍然是我的最爱(尽管它在 10 月 22 日进行了重大升级,令人困惑的是保留了相同的 3.5 版本号。Anthropic 粉丝从那时起就喜欢称它为 Claude 3.6)。

然后是其余的大模型。如果你今天浏览 Chatbot Arena 排行榜(仍然是获得基于情绪的模型评估的最有用的地方),你会发现 GPT-4-0314 已经跌至第 70 位左右。拥有得分较高的模型的 18 家组织分别是 Google、OpenAI、阿里、Anthropic、Meta、Reka AI、01 AI、亚马逊、Cohere、DeepSeek、英伟达、Mistral、NexusFlow、Zhipu AI、xAI、AI21 Labs、普林斯顿和腾讯。

一些 GPT-4 级模型可以在笔记本电脑上运行

我的个人笔记本电脑是 2023 年的 64GB M2 MacBook Pro。这是一台功能强大的机器,但它也已经有近两年的历史了 —— 而且至关重要的是,我自 2023 年 3 月第一次在电脑本地上运行 LLM 以来,一直在使用的是同一台笔记本电脑。

去年 3 月,同一台笔记本电脑几乎可以运行 GPT-3 类模型,现在已经运行了多个 GPT-4 类模型!我对此的一些注释:

Qwen2.5-Coder-32B 是一款可以很好地编码的 LLM,可在我的 Mac 上运行,11 月份,我谈到了 Qwen2.5-Coder-32B——Apache 2.0 许可模型。

我现在可以在我的笔记本电脑上运行 GPT-4 类模型,运行 Meta 的 Llama 3.3 70B(12 月发布)。

这对我来说仍然很令人惊讶。我们原本会想当然地认为具有 GPT-4 功能和输出质量的模型需要一台数据中心级服务器,该服务器具有一个或多个价值 4 万美元以上的 GPU。

事实上,这些模型占用了我 64GB 的内存空间,所以我不经常运行它们 —— 运行的时候就不能干其他的事了。

它们能够运行的事实证明了 AI 领域在过去一年中取得了令人难以置信的训练和推理性能提升。事实证明,在模型效率方面,还有很多唾手可得的成果。我预计未来还会有更多。

Meta 的 Llama 3.2 模型值得特别提及。它们可能不是 GPT-4 级别,但在 1B 和 3B 大小下,它们的性能远远超出了参数量的水平。我使用免费的 MLC Chat iOS 应用程序在 iPhone 上运行 Llama 3.2 3B,对于其微小(<2GB)的参数量来说,这是一个功能惊人的模型。尝试启动它并要求它提供「Netflix 圣诞电影的情节大纲,其中一位数据记者爱上了一位当地的陶瓷师」。这是我得到的结果,每秒 20 个 token 的速度相当可观:

它平淡而普通,但我的手机现在可以向 Netflix 推荐平淡而普通的圣诞电影了!

由于竞争和优化

大模型服务的价格崩盘

在过去的 12 个月中,通过顶级托管服务的 LLM 运行 token 的成本急剧下降。

2023 年 12 月(这是 OpenAI 定价页面的互联网快照),OpenAI 对 GPT-4 收取 30 美元 / 百万输入 token,对当时新推出的 GPT-4 Turbo 收取 10 美元 /mTok,对 GPT-3.5 Turbo 收取 1 美元 /mTok。

今天 30 美元 /mTok 可以让你获得 OpenAI 最昂贵的模型 o1。GPT-4o 售价 2.50 美元(比 GPT-4 便宜 12 倍),GPT-4o mini 售价 0.15 美元 /mTok—— 比 GPT-3.5 便宜近 7 倍,功能强大得多。

其他模型提供商的收费甚至更低。Anthropic 的 Claude 3 Haiku(从 3 月开始,但仍然是他们最便宜的型号)为 0.25 美元 /mTok。Google 的 Gemini 1.5 Flash 为 0.075 美元 /mTok,而他们的 Gemini 1.5 Flash 8B 为 0.0375 美元 /mTok—— 比去年的 GPT-3.5 Turbo 便宜 27 倍。

我一直在我的 llm 定价标签下跟踪这些价格变化。

这些价格下降是由两个因素驱动的:竞争加剧和效率提高。对于每个关心 LLM 对环境影响的人来说,效率真的很重要。这些价格下降与运行提示所消耗的能源量直接相关。

关于大型 AI 数据中心建设对环境的影响,仍然有很多值得担心的地方,但许多对单个提示的能源成本的担忧已不再可信。

这里有一个有趣的简单计算:使用 Google 最便宜的型号 Gemini 1.5 Flash 8B(10 月发布)为我个人照片库中的每 6.8 万张照片生成简短描述需要花费多少钱?

每张照片需要 260 个输入 token 和大约 100 个输出 token。

  • 260×68,000 = 17,680,000 个输入 token
  • 17,680,000×0.0375 美元 / 百万 = 0.66 美元
  • 100×68,000 = 6,800,000 个输出 token
  • 6,800,000×0.15 美元 / 百万 = 1.02 美元

处理 68,000 张图片的总成本为 1.68 美元。这太便宜了,我不得不计算了三次才能确认我做对了。

这些描述有多美好?这是我从一行命令中得到的结果:

llm -m gemini-1.5-flash-8b-latest describe -a IMG_1825.jpeg

处理在加州科学院照的这张蝴蝶照片:

输出内容:

一个浅盘,可能是蜂鸟或蝴蝶喂食器,是红色的。盘内可见橙色水果片。喂食器中有两只蝴蝶,一只深棕色/黑色蝴蝶,带有白色/奶油色斑纹。另一只大号棕色蝴蝶,带有浅棕色、米色和黑色斑纹,包括明显的眼斑。较大的棕色蝴蝶似乎正在吃水果。

260 个输入 token,92 个输出 token。成本约为 0.0024 美分(不到 400 分之一美分)。效率的提高和价格的降低是我最喜欢的 2024 年趋势。我希望以极低的能源成本获得 LLM 的效用,看起来这就是我们得到的。

多模态视觉已经变得常见

音频和视频模型开始出现

上面的蝴蝶示例说明了 2024 年的另一个关键趋势:多模态 LLM 正在兴起。

一年前,其中最引人注目的例子是 GPT-4 Vision,于 2023 年 11 月在 OpenAI 的 DevDay 上发布。谷歌的多模态 Gemini 1.0 于 2023 年 12 月 7 日发布,因此它也(刚好)进入了 2023 年的窗口。

2024 年,几乎每个重要的模型供应商都发布了多模态模型。我们在 3 月看到了 Anthropic 的 Claude 3 系列,4 月看到了 Gemini 1.5 Pro(图像、音频和视频),然后 9 月各家带来了 Qwen2-VL 和 Mistral 的 Pixtral 12B 以及 Meta 的 Llama 3.2 11B 和 90B 视觉模型。

10 月份,我们从 OpenAI 获得了音频输入和输出,11 月份,我们从 Hugging Face 获得了 SmolVLM,12 月份,我们从 Amazon Nova 获得了图像和视频模型。

10 月份,我也升级了我的 LLM CLI 工具,以通过附件支持多模态模型。它现在拥有一系列不同视觉模型的插件。

我认为,抱怨 LLM 改进速度放缓的人往往忽略了这些多模态模型的巨大进步。能够针对图像(以及音频和视频)运行提示是一种应用这些模型的迷人新方法。

语音和实时摄像头模式

正从科幻小说变成现实

新兴的音频和实时视频模式值得特别关注。

与 ChatGPT 对话的功能首次出现在 2023 年 9 月,但当时还没真正实现:OpenAI 要用旗下的 Whisper 语音转文本模型和一个新的文本转语音模型(名为:tts-1)来实现与 ChatGPT 对话,但实际的模型还只能看到文本。

5 月 13 日,OpenAI 春季发布会推出了 GPT-4o。多模态模型 GPT-4o(o 代表「omni」,是全能的意思)能直接「听懂」你说的每一句话 —— 接受音频输入并输出令人难以置信的逼真语音,也不再需要 TTS 或 STT 模型在其中转化。

这个演示中的声音与斯嘉丽・约翰逊惊人地相似...... 在斯嘉丽投诉之后,这个声音 Skye 从未在任何正式产品中亮相。

不过,发布会上那个让人眼前一亮的 GPT-4o 高级语音功能在产品端上线的计划一再推迟,这引起了不少讨论。

当 2024 年 8 月至 9 月期间,ChatGPT 高级语音模式最终上线时,效果真的惊艳到我了。

我经常在遛狗时使用它,更拟人的语调,让 AI 生成的内容听起来更生动。试验 OpenAI 的音频 API 也很有趣。

更有趣的是:高级语音模式可以模仿口音!比如,我让它「假装你是一只带着浓重俄罗斯口音的加利福尼亚棕鹈鹕,但只用西班牙语和我交谈」:

棕鹦鹉,33秒

OpenAI 不是唯一一家在搞多模态音频模型的公司,Google 的 Gemini 也能接收语音输入,而且 Gemini 应用现在也能像 ChatGPT 一样说话了。亚马逊也提前宣布了他们的 Amazon Nova 会有语音模式,不过得等到 2025 年第一季度才能用上。

Google 在 9 月份发布的 NotebookLM 把音频输出玩出了新花样 —— 它能生成超级逼真的「播客主持人」对话,不管你给它什么内容都行。后来他们还加入了自定义指令功能,我当然二话不说就把主持人都变成了鹈鹕:

video-scraping-pelicans鹈鹕,7分钟

最新的转折出现在 12 月(这个月可真是热闹),就是实时视频功能。ChatGPT 的语音模式现在让你可以直接和模型分享摄像头画面,实时聊聊你看到的东西。Google Gemini 也推出了类似的预览功能,这次终于抢在 ChatGPT 前一天发布了。

,时长00:56

这些功能才刚出来几个星期,我觉得它们的影响力还没完全显现出来。如果你还没试过,真的要体验一下!

Gemini 和 OpenAI 都提供这些功能的 API 接口。OpenAI 最开始用的是比较难搞的 WebSocket API,不过在 12 月他们推出了新的 WebRTC API,用起来简单多了。现在,要开发一个能和用户语音对话的网页应用已经变得超级容易了。

一个提示词做出一个 APP

已经很普遍了

这在 2023 年就可以通过 GPT-4 实现了,但直到 2024 年它的价值才真正凸显。

我们早就知道大语言模型在写代码方面有着惊人的能力。如果你给出恰当的提示词,它们能用 HTML、CSS 和 JavaScript(如果配置好相关环境,还能用上 React 这样的工具)为你构建一个完整的交互式应用程序 —— 通常只需要一个提示词就够了。

Anthropic 在发布 Claude 3.5 Sonnet 的公告中,顺带介绍了一个突破性的新功能:Claude Artifacts。这个功能起初并没有引起太大关注,因为它只是在公告中写了一下。

有了 Artifacts,Claude 可以为你写一个即时交互式应用,然后让你直接在 Claude 界面中使用它。

这就是我用 Claude 生成的一个提取网页 URL 的应用:

现在 Claude Artifacts 已经成为了我的依靠。很多其他团队也开发了类似的系统,例如,GitHub 在 10 月份推出了他们的版本:GitHub Spark。Mistral Chat 在 11 月份添加了一个叫 Canvas 的类似功能。

来自 Val Town 的 Steve Krause 基于 Cerebras 构建了一个版本,展示了一个每秒处理 2000 个 token 的大语言模型如何能在不到一秒的时间内对应用进行迭代更新。

到了 12 月,Chatbot Arena 团队为此类功能推出了一个全新的排行榜,用户可以用两个不同的模型构建相同的交互式应用,然后对结果进行投票。

排行榜前六位

很难找到比这更有说服力的证据,这项功能现在已经成为能在所有主流模型上有效实现的通用功能了。

我自己也在为 Datasette 项目开发类似的功能,目标是让用户能够通过提示来构建和迭代针对自己数据的自定义小部件和数据可视化。我还通过 uv 找到了一种编写一次性 Python 程序的类似模式。

这种提示驱动的自定义界面功能非常强大,而且构建起来也很容易(只要你搞定了浏览器沙箱的那些棘手细节),我预计在 2025 年会有一大波产品都会推出类似功能。

对最佳模型的普遍访问仅持续了短短几个月

今年有几个月的时间,三个最好的可用模型:GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5 Pro,都可以被世界上大多数人免费使用。

OpenAI 在 5 月份向所有用户开放了 GPT-4o 的免费使用权限,而 Claude 3.5 Sonnet 从 6 月份发布起就是免费的。

这是一个重大的改变,因为在之前的一年里,免费用户主要只能使用 GPT-3.5 级别的模型,这导致新用户对大语言模型的实际能力形成了很不准确的认识。

不过,这个时代似乎已经结束了,而且很可能是永久性的,标志是 OpenAI 推出了 ChatGPT Pro。这项每月 200 美元的订阅服务是访问他们最强大的新模型(o1 Pro)的唯一途径。

由于 o1 系列(以及「o 系列」未来的模型)背后的诀窍是投入更多的计算时间来获得更好的结果,我认为那些能免费就能访问到最顶级的模型的日子,应该不会再回来了。

AI 「智能体」可能还有点远

说实话,AI Agents 这个词让我很头疼。它没有一个统一、清晰且被广泛认可的定义。更糟的是,用这个词的人似乎从来不承认这一点。

如果你告诉我你在开发 AI Agents,这基本上等于什么都没说。除非我能读心,否则我根本不知道,AI Agents 定义有几十种,你到底在造哪一种?

我看到的 AI Agents 开发者主要有两类:一类认为 AI Agents 显然就是替你做事的东西,就像旅行社那样;另一类人则在想象为大语言模型配备各种工具,让大模型能够自主驱动,执行任务。

人们还经常提到「autonomy」这个词,但同样也没说清楚是什么意思。

(几个月前我在推特上收集了 211 个定义,我还让 gemini-exp-1206 试着总结了一下这些定义。)

  • 文档链接:https://lite.datasette.io/?jsnotallow=https://gist.github/simonw/bdc7b894eedcfd54f0a2422ea8feaa80#/data/raw

不管这个词到底是什么意思,AI Agents 总会给人一种「即将成真」的感觉。

撇开术语不谈,我对它们的实用性持怀疑态度,原因还是一个老问题:大语言模型很容易「轻信」,它会照单全收你告诉它的一切。

这就暴露出一个关键问题:如果一个决策辅助系统连真假都分不清,它还能发挥多大作用?无论是旅行顾问、生活助手,还是研究工具,都会因为这个缺陷而大打折扣。

最近就有一个现成的例子:就在前几天,谷歌搜索闹了个大乌龙。它把粉丝创作网站上一个虚构的《魔法满屋 2》剧情,当成了真实电影来介绍。

提示注入就是这种「轻信」的必然结果。自 2022 年 9 月以来我们一直在讨论这个问题,但 2024 年在解决这个问题上,几乎没有什么进展。

我开始觉得,最流行的 AI Agents 概念其实依赖于通用人工智能的实现。要让一个模型能够抵抗「轻信」,这真是个艰巨的任务。

评估真的很重要

Anthropic 的 Amanda Askell(负责 Claude 性格塑造的主要工作者)说:

系统提示背后那个无聊但至关重要的秘密就是用测试驱动开发。你不是先写一个系统提示,然后再想办法测试它,而是先写好测试,然后找到一个能通过这些测试的系统提示。

2024 年的经验告诉我们:在大语言模型应用领域,最重要的核心竞争力是什么?是一套完善的自动化评估系统。

为什么这么说?因为有了它,你就能:抢占先机,快人一步采用新模型,加速迭代,不断优化产品,确保功能既可靠又实用。

Vercel 的 Malte Ubl 说:

当 @v0 刚推出时,我们非常担心要用各种预处理和后处理的复杂操作来保护提示。

于是我们彻底转变思路,给了它充分的发挥空间。但很快就发现:没有评估标准、没有模型指导、更没有用户体验的提示,就像拿到一台没说明书的 ASML 机器 —— 就算再先进,也无从下手。

我还在探索最适合自己的工作模式。评估的重要性已是共识,但「如何做好评估」这个问题却仍然缺乏系统性的指导。我一直在通过评估标签追踪这方面的进展。我现在用的「鹈鹕骑自行车」SVG 基准测试,与那些成熟的评估套件相比,还有很长的路要走。

Apple Intelligence 很糟糕

但 MLX 库很出色

去年,因为没有配备 NVIDIA GPU 的 Linux/Windows 机器,我在尝试新模型的时候遇到了不少阻碍。

从配置上看,64GB 的 Mac 本应该是运行 AI 模型的理想之选 —— CPU 和 GPU 共享内存的设计堪称完美。

但现实很残酷:当下的 AI 模型在发布时,基本都是以模型权重和开发库的形式推出,而这些几乎只适配 NVIDIA 的 CUDA 平台。

llama.cpp 生态系统在这方面帮了大忙,但真正的突破是苹果的 MLX 库,这是一个「专为 Apple Silicon 设计的数组框架」。它真的很棒。

苹果的 mlx-lm Python 支持在我的 Mac 上运行各种 MLX 兼容的模型,性能非常出色。Hugging Face 上的 mlx-community 提供了超过 1000 个已转换为必要格式的模型。

Prince Canuma 开发的优秀且发展迅速的 mlx-vlm 项目也把视觉大语言模型带到了 Apple Silicon 上。我最近用它运行了 Qwen 的 QvQ。

虽然 MLX 是个改变游戏规则的东西,但苹果自己的 Apple Intelligence 功能大多令人失望。我本来非常期待 Apple Intelligence,在我的预测中,我认为苹果绘专注于做能保护用户隐私,打造让用户清晰明了、不会误解的大语言模型应用。

现在这些功能已经推出,效果相当差。作为一个大语言模型的重度用户,我知道这些模型能做什么,而苹果的大语言模型功能只是提供了一个苍白的模仿。我们得到的是曲解新闻标题的通知摘要,以及完全没用的写作助手工具,不过 emoji 生成器还是挺有意思的。

正在崛起的「推理」模型

2024 年最后一个季度最有趣的进展是一种新型 LLM 的出现,以 OpenAI 的 o1 模型为代表。

要理解这些模型,可以把它们看作是「思维链提示」技巧的延伸。这个技巧最早出现在 2022 年 5 月的论文《Large Language Models are Zero-Shot Reasoners》中。

这个技巧主要在说,如果你让模型在解决问题时「大声思考」,它往往能得到一些原本想不到的结果。

o1 把这个过程进一步融入到了模型本身。具体细节有点模糊:o1 模型会花费一些「推理 token」来思考问题(用户看不到这个过程,不过 ChatGPT 界面会显示一个总结),然后给出最终答案。

这里最大的创新在于,它开创了一种新的扩展模型的方式:不单纯地通过增加训练时的计算量来提升模型性能,而是让模型在推理时投入更多计算资源来解决更难的问题。

o1 的续作 o3 在 12 月 20 日发布,o3 在 ARC-AGI 基准测试上取得了惊人成绩。不过,从 o3 的巨额推理成本来看,它可能花掉了超过 100 万美元的计算成本!

o3 预计将在 1 月份推出。但我觉得很少有人的实际问题需要这么大的计算开销,o3 也标志着 LLM 架构在处理复杂问题时迈出了实质性的一步。

OpenAI 并不是这个领域的「独角戏」。谷歌在 12 月 19 日也推出了他们的第一个类似产品:gemini-2.0-flash-thinking-exp。

阿里巴巴的 Qwen 团队在 11 月 28 日发布了他们的 QwQ 模型,我在自己电脑上就能跑。他们在 12 月 24 日又推出了一个叫 QvQ 的视觉推理模型,我也在本地运行过。

DeepSeek 在 11 月 20 日通过他们的聊天界面提供了 DeepSeek-R1-Lite-Preview 模型试用。

要深入了解推理扩展,我推荐看看 Arvind Narayanan 和 Sayash Kapoor 写的《Is AI progress slowing down?》这篇文章。

Anthropic 和 Meta 还没什么动静,不过我赌他们肯定也在开发自己的推理扩展模型。Meta 在 12 月发表了一篇相关论文《Training Large Language Models to Reason in a Continuous Latent Space》。

目前最好的 LLM 来自中国

训练成本不到 600 万美元?

不完全是,但差不多是。这的确是个吸引眼球的好标题。

今年年底的大新闻是 DeepSeek v3 的发布,它在圣诞节当天连 README 文件都没有就被放到了 Hugging Face 上,第二天就发布了文档和论文。

DeepSeek v3 是一个庞大的 685B 参数模型,是目前最大的公开授权模型之一,比 Meta 公司最大的 Llama 系列模型 Llama 3.1 405B 还要大得多。

基准测试结果表明,它与 Claude 3.5 Sonnet 不相上下。Vibe 基准测试(又称聊天机器人竞技场)目前将其排在第 7 位,仅次于 Gemini 2.0 和 OpenAI 4o/o1 型号。这是迄今为止排名最高的公开授权模型。

DeepSeek v3 真正令人印象深刻的是其训练成本。该模型在 2,788,000 个 H800 GPU 时内完成了训练,估计成本为 5,576,000 美元。Llama 3.1 405B 训练了 30,840,000 个 GPU 小时,是 DeepSeek v3 的 11 倍,但模型的基准性能却略逊一筹。

美国对中国出口 GPU 的规定似乎激发了一些非常有效的训练优化。

环境影响得到改善

模型(包括托管模型和我可以在本地运行的模型)效率的提高带来了一个可喜的结果,那就是在过去几年中,运行 Prompt 的能耗和对环境的影响大大降低了。

与 GPT-3 时代相比,OpenAI 自己的提示词器收费也降低了 100 倍。我有可靠消息称,Google Gemini 和 Amazon Nova(两家最便宜的模型提供商)都没有亏本运行提示词器。

我认为这意味着,作为个人用户,我们完全不必为绝大多数提示词消耗的能源感到内疚。与在街上开车,甚至在 YouTube 上看视频相比,其影响可能微乎其微。

同样,训练也是如此。DeepSeek v3 的训练费用不到 600 万美元,这是一个非常好的迹象,表明训练成本可以而且应该继续下降。

对于效率较低的模型,我认为将其能源使用量与商业航班进行比较是非常有用的。最大的 Llama 3 模型的成本约等于从纽约到伦敦的一位数满载乘客航班。这当然不是一无是处,但一旦经过训练,该模型就可以供数百万人使用,而无需额外的训练成本。

环境影响也变得越来越严重

更大的问题在于,未来这些模式所需的基础设施建设将面临巨大的竞争压力。

谷歌、Meta、微软和亚马逊等公司都在斥资数十亿美元建设新的数据中心,这对电网和环境造成了巨大影响。甚至还有人说要建立新的核电站,但这需要几十年的时间。

这些基础设施有必要吗?DeepSeek v3 的 600 万美元训练成本和 LLM 价格的持续暴跌可能暗示了这一点。但是,你是否希望自己成为一名大型科技公司的高管,在几年后证明自己的观点是错误的情况下,仍然坚持不建设这些基础设施呢?

一个有趣的比较点是,19 世纪铁路在世界各地的铺设方式。修建这些铁路需要巨额投资,并对环境造成巨大影响,而且修建的许多线路被证明是不必要的,有时不同公司的多条线路服务于完全相同的路线。

由此产生的泡沫导致了数次金融崩溃,参见维基百科中的 1873 年恐慌、1893 年恐慌、1901 年恐慌和英国的铁路狂热。它们给我们留下了大量有用的基础设施,也造成了大量破产和环境破坏。

「泔水」之年

2024 年是「泔水」一词成为艺术术语的一年。我在 5 月份写过一篇文章,对 @deepfates 的这条推文进行了扩展:

实时观察「泔水」如何成为一个艺术术语。就像「垃圾邮件」成为不受欢迎电子邮件的专有名词一样,「泔水」也将作为人工智能生成的不受欢迎内容的专有名词被载入字典。

我把这个定义稍微扩展了一下:

「泔水」指的是人工智能生成的未经请求和审查的内容。

最后,《卫报》和《纽约时报》都引用了我关于泔水的论述。

以下是我在《纽约时报》上说的话:

社会需要简明扼要的方式来谈论现代人工智能,无论是正面的还是负面的。「忽略那封邮件,它是垃圾邮件 」和「忽略那篇文章,它是泔水」都是有用的教训。

我喜欢「泔水」这个词,因为它简明扼要地概括了我们不应该使用生成式 AI 的一种方式。

「泔水」甚至还入选了 2024 年牛津年度词汇,但最终输给了「脑腐」。

合成训练数据很有效

「模型崩溃」的概念,似乎出人意料地在公众意识中根深蒂固。2023 年 5 月,《The Curse of Recursion: Training on Generated Data Makes Models Forget》一文首次描述了这一现象。2024 年 7 月,《自然》杂志以更醒目的标题重复了这一现象:在递归生成的数据上进行训练时,人工智能模型会崩溃。

这个想法很有诱惑力:随着人工智能生成的「泔水」充斥互联网,模型本身也会退化,将以一种导致其不可避免灭亡的方式吸收自己的输出。

这显然没有发生。相反,我们看到人工智能实验室越来越多地在合成内容上进行训练 — 有意识地创建人工数据,以帮助引导他们的模型走向正确的道路。

我所见过的对此最好的描述之一来自 Phi-4 技术报告,其中包括以下内容:

合成数据作为预训练的重要组成部分正变得越来越普遍,Phi 系列模型也一直强调合成数据的重要性。与其说合成数据是有机数据的廉价替代品,不如说合成数据与有机数据相比有几个直接优势。

结构化学习和逐步学习。在有机数据集中,token 之间的关系往往复杂而间接。可能需要许多推理步骤才能将当前标记与下一个 token 联系起来,这使得模型很难有效地学习下一个 token 的预测。相比之下,语言模型生成的每个 token 顾名思义都是由前面的标记预测的,这使得模型更容易遵循由此产生的推理模式。

另一种常见的技术是使用较大的模型为较小、较便宜的模型创建训练数据,越来越多的实验室都在使用这种技巧。DeepSeek v3 使用了 DeepSeek-R1 创建的「推理」数据。Meta 的 Llama 3.3 70B 微调使用了超过 2500 万个合成生成的示例。

精心设计进入 LLM 的训练数据似乎是创建这些模型的关键所在。从网络上抓取全部数据并不加区分地将其投入训练运行的时代已经一去不复返了。

LLM 不知何故变得更难用了

我一直在强调,LLM 是强大的用户工具,它们是伪装成菜刀的电锯。它们看起来简单易用,给聊天机器人输入信息能有多难?但实际上,要充分利用它们并避免它们的许多陷阱,你需要有深厚的理解力和丰富的经验。

如果说在 2024 年,这个问题变得更加严重的话,好消息是我们已经建立了可以用人类语言与之对话的计算机系统,它们会回答你的问题,而且通常都能答对。这取决于问题的内容、提问的方式,以及问题是否准确地反映在未记录的秘密训练集中。

可用系统的数量激增。不同的系统有不同的工具,它们可以用来解决你的问题,比如 Python、JavaScript、网络搜索、图像生成,甚至数据库查询。所以你最好了解这些工具是什么,它们能做什么,以及如何判断 LLM 是否使用了它们。

你知道 ChatGPT 现在有两种完全不同的 Python 运行方式吗?

想要构建一个与外部 API 对话的 Claude 工件?你最好先了解一下 CSP 和 CORS HTTP 标头。

模型可能变得更强大了,但大多数限制却没有改变。OpenAI 的 o1 也许终于能大部分计算「Strawberry」中的 R,但它的能力仍然受限于其作为 LLM 的性质,以及它所运行的线束对它的限制。O1 不能进行网络搜索,也不能使用 Code Interpreter,但 GPT-4o 却可以 —— 两者都在同一个 ChatGPT UI 中。(如果你要求,o1 会假装做这些事,这是 2023 年初 URL 幻觉 bug 的回归)。

我们对此有何对策?几乎没有。

大多数用户都被扔进了深水区。默认的 LLM 聊天 UI 就像是把全新的电脑用户扔进 Linux 终端,然后指望他们自己能搞定一切。

与此同时,终端用户对这些设备的工作原理和功能所形成的不准确的心理模型也越来越常见。我见过很多这样的例子:有人试图用 ChatGPT 的截图来赢得争论 — 这本来就是一个可笑的命题,因为这些模型本来就不可靠,再加上只要你正确提示,就能让它们说任何话。

这也有一个反面:很多见多识广的人已经完全放弃了 LLM,因为他们不明白怎么会有人能从一个有如此多缺陷的工具中获益。要想最大限度地利用 LLM,关键在于学会如何使用这种既不可靠又强大无比的技术。这是一项绝对不显而易见的技能!

在这里,有用的教育内容大有可为,但我们需要做得更好,而不是将其全部外包给那些在推特上狂轰滥炸的人工智能骗子。

知识分布不均匀

现在,大多数人都听说过 ChatGPT。有多少人听说过 Claude?

积极关注这些内容的人与 99% 不关注这些内容的人之间存在着巨大的知识鸿沟。

变革的速度也无济于事。就在上个月,我们看到实时界面的普及,你可以将手机摄像头对准某样东西,然后用声音谈论它...... 还可以选择让它假装成圣诞老人。大多数自我认证的 nerd 甚至还没试过这个。

鉴于这项技术对社会的持续及潜在影响,我不认为这种差距的存在是健康的。我希望看到更多的努力来改善这种状况。

LLM 需要更好的批评

很多人都非常讨厌这种东西。在我混迹的一些地方(Mastodon、Bluesky、Lobste.rs,甚至偶尔在 Hacker News),即使提出「LLM 很有用」,也足以引发一场大战。

我明白不喜欢这项技术的理由有很多:环境影响、训练数据(缺乏)道德、缺乏可靠性、负面应用、对人们工作的潜在影响。

LLM 绝对值得批评。我们需要对这些问题进行讨论,找到缓解这些问题的方法,帮助人们学会如何负责任地使用这些工具,使其正面应用大于负面影响。

我喜欢对这些东西持怀疑态度的人。两年多来,炒作的声音震耳欲聋,大量的「假冒伪劣商品」和错误信息充斥其中。很多错误的决定都是在这种炒作的基础上做出的。敢于批评是一种美德。

如果我们想让有决策权的人在如何应用这些工具方面做出正确的决定,我们首先需要承认确实有好的应用,然后帮助解释如何将这些应用付诸实践,同时避免许多非实用性的陷阱。

(如果你仍然认为根本没有什么好的应用,那我就不知道你为什么能读完这篇文章了!)。

我认为,告诉人们整个领域都是环境灾难性的剽窃机器,不断地胡编乱造,无论这代表了多少真理,都是对这些人的伤害。这里有真正的价值,但实现这种价值并不直观,需要指导。我们这些了解这些东西的人有责任帮助其他人弄明白。

参考内容:

​​https://simonwillison/2024/Dec/31/llms-in-2024/#-agents-still-haven-t-really-happened-yet​​

#联手OpenAI,吴恩达推出一门o1推理新课程

在刚刚过去的 2024 年,OpenAI 推出了 o 系列模型。相比于以往大型语言模型,o 系列模型使用更多的计算进行更深入的「思考」,能够回答更复杂、更细致的问题。

通过在推理时执行思维链推理,o 系列模型在新兴用例中表现出色,包括多步骤规划、图像推理和长期编码。那么,具体如何使用 o 系列模型来构建需要复杂推理的应用程序呢?

最近,OpenAI 联合人工智能著名学者、斯坦福大学教授吴恩达推出了一门关于使用 o1 进行推理的免费 DeepLearning.AI 课程 ——Reasoning with o1,讲师是 OpenAI 战略解决方案架构主管 Colin Jarvis。

课程地址:https://www.deeplearning.ai/short-courses/reasoning-with-o1

Reasoning with o1课程内容主要包括:

  • o1 即时工程的基础知识
  • 规划和执行多步骤任务
  • 创建和编辑代码
  • 图像推理
  • 可提高模型性能的 Metaprompting

通过这门课程,学生将:

  • 了解 o1、它的工作原理、性能以及使用它的最佳场景。
  • 了解如何有效地提示 o1 以及何时将任务委派给更具成本效益、更低延迟的模型。
  • 了解 o1 如何在编码和视觉推理任务上表现出色,以及如何应用 Metaprompting 来优化应用程序。

具体来说,在 Reasoning with o1课程中,学生将了解 OpenAI 如何利用强化学习来构建使用「测试时计算」来提高推理任务性能的模型;了解什么是「思维链」提示,以及 o1 如何自主地利用它来将问题分解为更小的步骤,尝试多种策略,并在回答问题之前仔细思考。

o1 模型特别擅长抽象推理任务。它在规划、编码、分析、特定领域推理(如法律)和 STEM 科目等任务上具有破纪录的性能。Reasoning with o1课程内容涵盖:

  • 学习识别 o1 模型适合哪些任务,以及何时需要使用更小或更快的模型,或将这两者结合起来。
  • 了解使用 o1 进行提示的四个关键原则,并探索性能上的差异。
  • 实现一个多步骤任务,其中 o1 作为协调器创建规划并将其交给 4o-mini 模型按顺序执行规划,平衡智能和成本之间的权衡。
  • 使用 o1 执行编码任务,构建新应用程序、编辑现有代码,并通过在 o1-mini 和 GPT 4o 之间运行编码竞赛来测试性能。
  • 使用 o1 进行图像理解,并了解它如何通过层次推理获得更好的性能,其中它会预先产生延迟和成本,预处理图像并使用丰富的细节对其进行索引,以便稍后用于问答。
  • 学习一种称为 Metaprompting 的技术,以使用 o1 来改进提示。

怎么说?来学习吗?

#RoboVLMs

全新模型RoboVLMs解锁VLA无限可能,真实机器人实验交出满分答卷

本文作者来自清华大学、字节跳动、中科院自动化所、上海交通大学和新加坡国立大学。作者列表:李兴航、李沛言、刘明桓、王栋、刘济榕、康炳易、马骁、孔涛、张翰博和刘华平。第一作者李兴航是清华大学计算机系博士生。通讯作者是字节跳动机器人研究员孔涛,新加坡国立大学博士后张翰博和清华大学计算机系教授刘华平。

近年来,视觉语言基础模型(Vision Language Models, VLMs)大放异彩,在多模态理解和推理上展现出了超强能力。现在,更加酷炫的视觉语言动作模型(Vision-Language-Action Models, VLAs)来了!通过为 VLMs 加上动作预测模块,VLAs 不仅能 “看” 懂和 “说” 清,还能 “动” 起来,为机器人领域开启了新玩法!

,时长01:43

虽然 VLAs 在各种任务和场景中表现抢眼,但大家在模型设计上却走了很多不同的路,比如用什么架构、怎么选数据、怎么调训练策略等等,这导致领域内对 “怎么做好一个 VLA” 还没有统一的答案。为了理清这些问题,我们通过一系列的实验,提出了一个全新模型 ——RoboVLMs。

  • 论文标题:Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models
  • 论文地址:https://arxiv/pdf/2412.14058

这个模型超级简单,但性能却相当硬核!它不仅在三个模拟任务中取得了高分,还在真实机器人实验中交出了满分答卷。这篇文章就是要带你一起看看,我们是如何用 RoboVLMs 解锁 VLA 的无限可能!

四大灵魂拷问:RoboVLMs 是怎么炼成的?

我们围绕四个关键问题,对 VLA 的设计展开了深度探索,下面就带你看看答案!

1. 为什么要用 VLA 模型?

简单说,通过实验,我们发现设计合理的 VLA 不仅能轻松搞定常见的操作任务,还能在陌生场景中稳稳发挥。

仿真任务中拿下顶尖成绩

在 CALVIN 和 SimplerEnv 环境里,RoboVLMs 取得了压倒性的胜利:

  • 任务成功率:表现稳定且超越主流模型。
  • 泛化能力:即使在陌生场景中,表现依然抗打!

图 1 SimplerEnv 仿真环境中的评测结果            

图 2 针对视觉语言预训练的消融实验结果

真实机器人实验也不输

在真实环境中,RoboVLMs 面对更复杂的挑战,仍然比其他模型表现更好。比如,在果蔬分类任务中,它不仅能精准识别,还能应对干扰环境,稳稳完成分类操作。无论是已知场景还是新任务,它都能轻松拿下。

图 3 真实环境下的评测结果

对于未见过的技能描述、背景、干扰物体和目标物体,RoboVLMs 均能很好的完成任务。

2. 怎么设计一个靠谱的 VLA 架构?

这里面讲究可不少!比如:

  • 动作空间:用连续动作空间比离散的好很多。
  • 历史信息:加多步历史信息后,模型的操作更稳准狠。
  • 历史信息组织模块:一个专门的模块可以让模型更懂 “上下文”。

经过一系列实验,我们确认了这些设计选择是提升模型性能和泛化能力的关键。进一步的实验也表明,最优的设计来自于基于 KosMos 基座模型的架构,并且结合了专门的历史信息组织模块。这样的设计在 CALVIN 中实现了出色的泛化能力,在 zero-shot 设置下仅有轻微的性能下降,而其他设计形式的模型则出现了显著掉分。这一结论直接说明,架构设计的好坏对模型的泛化能力和效率至关重要。

3. 选什么基座模型最合适?

我们对比了当前主流的 8 种视觉语言模型(VLM),结果发现 KosMos 和 Paligemma 的表现遥遥领先,轻松碾压其他模型。无论是任务完成的精确度还是泛化能力,它们都展现出了压倒性的优势。究其原因,主要得益于它们经过了扎实且全面的视觉语言预训练,从而为模型提供了强大的先验知识和理解能力。

这一发现让我们更加确信:选对基座模型,就是让 VLA 模型起飞的关键一步!想要让模型在多模态任务中表现惊艳,一个经过深度预训练、具备强大视觉语言表征能力的 VLM 基座显然能提供无与伦比的助力。而一旦打好了这个基础,后续的设计和训练才能真正发挥最大潜力。

4. 跨本体数据什么时候加入最合适?

实验告诉我们一个黄金法则:在预训练阶段引入跨本体数据(如 Open-X Embodiment 数据集)可以显著提升模型的鲁棒性和少样本场景下的表现。反之,直接将跨本体数据和微调数据混合训练,效果就没那么显著了。这些结论为未来 VLA 模型的训练策略指明了方向。

具体实验中,我们在 WidowX+Bridge 和 Google Robot 两大环境下分别进行了不同训练策略的测试:

WidowX+Bridge 环境:

  • Bridge Finetune:直接在完整的 Bridge 数据集上微调(测试任务不包括在内)。
  • OXE Pre-Train:先用 OXE 数据集预训练模型。
  • Post-Train:用经过 OXE 预训练的模型再在 Bridge 数据集上微调。

Google Robot 环境:

  • RT-Partial Finetune:仅在特定的 RT 任务上微调。
  • RT Finetune:在完整的 RT 数据集上微调(包括测试任务)。
  • OXE Pre-Train:先用 OXE 数据集预训练模型。
  • Post-Train:在 OXE 预训练基础上用 RT 数据集进一步训练。

实验结果进一步验证了:在预训练阶段引入跨本体数据不仅能提升泛化能力,还能让模型在少样本和高复杂任务下表现更佳。

展望未来:VLA 的进阶之路

虽然 RoboVLMs 已经很能打了,但接下来的发展空间更让人期待!未来可以探索:

  1. 更细化的设计优化:比如再打磨 VLM 内部结构、信息融合模块和训练目标,让它更高效。
  2. 挑战复杂任务:像 “做早餐” 这种长链条任务,也许是下一个突破点!
  3. 多模态协作能力:进一步让机器人 “看懂”、“听清”、“动得更聪明”。

RoboVLMs 的出现,验证了视觉语言动作模型的可能性,也让机器人更接近成为我们的全能助手。未来,它们或许不仅能理解语言和视觉,还能真正帮我们完成那些繁琐又复杂的任务。接下来会有更多惊喜等着我们!

#MEDEC

4o-mini只有8B,Claude 3.5 Sonnet有175B,微软论文「透露」了下顶级模型参数

刚刚,X 上的一则推文受到了大家的广泛讨论,浏览量迅速增长。原来,OpenAI 发布的 GPT-4o-mini 居然是一个仅有 8B 参数的模型?

图源:https://x/Yuchenj_UW/status/1874507299303379428

事情是这样的。就在前几天,微软和华盛顿大学合作完成了一篇论文《MEDEC: A BENCHMARK FOR MEDICAL ERROR DETECTION AND CORRECTION IN CLINICAL NOTES 》。

论文地址:https://arxiv/pdf/2412.19260

这篇论文主要介绍了一个用于检测和纠正临床记录中医疗错误的公开基准测试 MEDEC1,其包含 3,848 个临床文本。论文描述了数据创建方法,并评估了近期的 LLMs(例如 o1-preview、GPT-4、Claude 3.5 Sonnet 和 Gemini 2.0 Flash)在检测和纠正需要医学知识和推理能力的医疗错误任务上的表现。

因为要进行实验,因而在论文实验部分出现了众多模型的参数量,如下所示。

此前,有些模型的参数量都是未知的,也是大家比较好奇的。

此外,在这部分内容底下,微软还列出了一句声明「大多数模型参数的数量是估计的」。

通过这张图,我们不难发现,除了 GPT-4o-mini,大家还发现了其他模型的大小,比如:

  • Claude 3.5 Sonnet: 175B;
  • GPT-4: 1.76T;
  • GPT-4o: 200B;
  • o1-preview: 300B;
  • o1-mini: 200B。

结果部分也是将模型参数分为多个等级:

但是在这个推文下面大家讨论的非常激烈,主要围绕微软对模型大小的估计到底准不准确。

前面我们已经提到,模型参数都是估计出来的。因此有网友表示「就算微软确实知道,但并不代表微软 99% 的员工都知道。」「有 98% 的可能性是他们只是微软雇佣的研究人员,但与有权访问 OpenAI 的团队没有任何联系。」

「感觉这些数字只是作者的猜测,因为他们没有解释他们是如何估计的。」不过这位网友强调的这一点,论文确实说明了参数是估计的。

还有网友表示这篇论文将 Claude 3.5 Sonnet 估计为 175B 有点扯。

「Claude 不可能只有 175B,我敢打赌它接近这个数字的两倍。尤其是自 deepseek-v3 发布以来,其内存大小达到 671B,而 Claude 的表现轻松超越了后者。」

「我敢打赌 4o-mini 是一个 MoE 模型,总共有大约 400 亿个参数,可能有 80 亿个激活参数。我发现它比 80 亿个参数的模型拥有更多的知识(当询问事实时),同时速度相当快。」

还有网友认为这是一个合理的猜测。消息毕竟出自微软。

讨论来讨论去,最后的结论依然是没有结论,你怎么看这篇论文给出的数据呢?

#多模态模型已落地多领域

OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

在 2024 年的 NeurIPS 会议上,Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点,尤其集中于 Scaling Law 的观点:「现有的预训练方法将会结束」,这不仅是一次技术的自然演进,也可能标志着对当前「大力出奇迹」方法的根本性质疑。

Ilya 讨论了预训练模型的局限性,预见 AI 系统需要发展出更加接近人类思考方式的推理能力。他强调,为了突破当前的局限并继续提升 AI 的能力,必须寻找新的训练方法。这意味着,基于语言单一模态的大模型能力已经逼近上限。基于现有的开源路线分析,商业社会想要寻求 AGI,必须将目光转向多种模态和推理过程。

商业领域对人工智能公司的偏好开始出现范式转换

知名数据分析机构 CB Insights 发布的「2024 年第三季度全球人工智能投融资报告」显示,该季度全球人工智能交易数量环比激增 24%,但融资实际上环比下降了 29%,主要归因于单笔融资金额超过 10 亿美元的「巨额交易」数量环比下降了 77%。报告指出,这反映了当前市场对中小规模、高潜力初创企业的偏好转变,投资者更加关注具有创新技术和可扩展商业模式的企业。

作为专业的人工智能媒体与产业服务平台,于 2017 年发布了 AI 榜单「Synced Machine Intelligence Awards」,在随后的时间里,伴随 AI 的跨越式发展,年度评选也逐渐成为了产业风向标之一,其中,2024 年度评选中的「大模型最具潜力创业企业 TOP 10」,旨在表彰技术创新能力强、团队领先、已经推出大模型或拥有完整大模型研发能力的创业企业。

其中名列「大模型最具潜力创业企业」榜单首位的贝式计算,其产品 OpenBayes 可能是是中国最受欢迎的 GPU 计算系统之一,拥有超过 17 万注册科研人员和过百个集群私有部署客户。

2024 年第三季度,紧跟多模态大模型升级趋势,OpenBayes贝式计算基于集群构架、编译器、模型结构等领域的多项创新与技术,推出了多模态模型贝式小算,结合了先进的视觉理解和语言生成技术,能够同时处理和分析多种形式的数据,包括静态图片和动态视频。

模型性能方面,得益于 OpenBayes贝式计算近年来在编译器技术领域的积累,贝式小算可天然运行在 Nvidia、ARM 以及多种国产芯片上,同时拥有较高的计算精度和计算效率。该模型在 MME-Realworld 等评测中取得了优异的成绩,是前列排名中为数不多的初创企业之一。

*MME-RealWorld 是迄今为止已知最大的完全人工标注基准,拥有超 1.3 万平均像素为 2,000 × 1,500 的高分辨率图像,收集了更多关于中国的真实场景图片,评测任务相较传统基准难度更大。

以此为基础,OpenBayes贝式计算赋能企业客户,已经为十余个私有部署用户提供了高效可靠的大模型服务,该多模态模型成功落地于卫星遥感、医疗影像、法律财务、文件表格互译等生产场景。

举例而言,在中国科学院某研究所,OpenBayes贝式计算为该院所级高性能计算集群的百余名学者与工程师用户提供了完备的 AI+HPC 计算体验。工科研究者可以通过同一套计算系统无缝连接各类 HPC 应用与 AI 计算框架,通过统一的数据流转流程,使得工科领域相关计算结果可以无缝连接 AI 的最佳实践,进而加速了 AI 在诸多工科领域的研究效率。

值得一提的是,就在 2024 年 11 月 28 日,OpenBayes贝式计算还入选了 36 氪评选的「WISE2024 商业之王年度最具商业潜力企业」。如今再度获评「大模型最具潜力创业企业 TOP 10」,可以说是对公司发展空间的高度认可。

从人工智能技术落地的角度来看,OpenBayes贝式计算拥有 17 万注册科研人员和过百个集群私有部署客户,是公司创新技术与解决方案落地应用的最佳渠道,其中包括清华大学、北京大学、北京邮电大学、天津大学、上海交通大学、中国科学院等头部科研院所,以及招商局集团、南方电网、辽港集团、粤能能源等重点头部公司。OpenBayes贝式计算的商业化潜力已经初步获得验证,是否能够如期兑现,仍然需要时间来证明。

发布评论

评论列表 (0)

  1. 暂无评论