【Reading Notes】Favorite Articles from 2024-USB迷|专注于互联网分享

文章目录

1、January
2、February
3、March
4、April
5、May
6、June
7、July
8、August
9、September
10、October
11、November
12、December

1、January

2、February

今天起，他是黄仁勋院士！2024美国工程院院士名单出炉，清华黄翊东等当选外籍院士（2024年02月07日）
2024年美国工程院新晋院士名单公布！
根据官方介绍，美国国家工程院选出了114名新晋院士，以及21名外籍院士。这使得美国成员总数达到2310人，外籍成员总数达332人。
「大模型变小」成年度大趋势！1月AI四大研究精彩亮点超长总结，模型合并MoE方法是主流
AI大模型并非越大越好？过去一个月，关于大模型变小的研究成为亮点，通过模型合并，采用MoE架构都能实现小模型高性能
出圈的Sora带火DiT，连登GitHub热榜，已进化出新版本SiT（ 2024年02月21日）
其中，Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT（扩散 Transformer）论文 《Scalable Diffusion Models with Transformers》 被认为是此次 Sora 背后的重要技术基础之一。该论文被 ICCV 2023 接收。
https://github/facebookresearch/DiT
Peebles W, Xie S. Scalable diffusion models with transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 4195-4205.

《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。

3、March

Sora外部测试翻车了！3个视频都有Bug（ 2024年03月01日）
不仔细看还真看不出来（类似找穿帮镜头）

4、April

一句话打造Agent！李彦宏：人人都是开发者的时代到来（2024年04月16日）
文心智能体平台，Agent Builder 就是基于文心大模型4.0能力的智能体构建平台，中文名字叫“文心智能体平台”。
现在，在官网体验中心，已经有不少智能体可供参考。
既有创意类型的各种“绘画大师”，也有能直接上岗工作的“新媒体小编”，创作、娱乐、职场、学习、生活等各个垂类均可覆盖。——“知乎回答器”、“小红书文案创作”
AI换脸以假乱真！蚂蚁数科发布反DeepFake产品，还设百万奖金池邀请黑客找bug（2024年04月16日）
- ZOLOZ Deeper，蚂蚁数科ZOLOZ出品。我们日常的支付宝刷脸支付，正是依托于他们技术支撑。
- 防：捕捉微表情、肌肉纹理、眼神流转等细微特征，精准判断其是否为真人实时互动。
- 攻：借助天玑实验室来进行自动化攻防测评。此次，天玑实验室则是通过GAN模型生成超30万测试样本，来交给ZOLOZ Deeper 进行判别训练。除此之外，每个月还会对它进行超过20000次的攻防测评，模拟上百种伪造攻击情况。

5、May

AI拉货挣钱，已经绕地球2500圈了（2024年05月15日）
- 嬴彻科技。其卡车NOA商业里程已经超过1亿公里。
- 使用嬴彻智能驾驶系统的里程占比已经到90%-95%，用户黏性极强。
抖音豆包成年轻人AI顶流！字节跳动大模型家族登场，tokens价格比行业低99%（2024年05月16日）
- 截止到2024年3月，豆包月活用户为2328.2万，在AIGC类应用中排名第一。
- 安卓市场累计下载量1.37亿，在AIGC类应用中大幅领先。
- 豆包、扣子的背后离不开强大的技术底座——豆包大模型（曾用名「云雀」）。
中国旧AI四小龙，连年亏钱（2024年05月19日）
- 商汤、云从、旷视、依图，特别是已经上市了的商汤科技以及云从科技，股价和市值更是猛猛下跌。
- 商汤 SenseAuto 绝影智能汽车平台，已和30多家车企、近50个车型建立了合作，实现了2000万台车的订单。年度亏损，从2019年的49.7亿元人民币一路提升至2023年的64.9亿人民币。
- 云从科技可谓根正苗红，前身是由中科院，最大的人脸识别研究团队孵化而成。融资全是内资机构，并且经常出现地方政府基金与国有资本的身影，其中包括了广州南沙金控、长三角产业创新基金等政府基金。说个有趣的，云从科技本身在“AI四小龙”当中成立时间最晚，却是最早通过IPO审核的那个。亏损减少，从2022年的9.16亿元人民币，减少至2023年的6.4亿人民币。
- 旷视科技累计赢得56项世界冠军。根据招股书的披露，旷视科技尚未盈利，以及存在累计未弥补亏损的情况。
- 依图，在人脸识别技术方面，依图科技连续多年保持着最高水平，并曾在美国国家标准技术局（NIST）主办的全球人脸识别测试（FRVT）中夺得第一名。
AI独角兽集体求卖身，新一轮洗牌期开始了（2024年05月25日）
- 突然之间，几家明星初创纷纷传出消息，寻求收购。都是大家熟悉的名字、过往战绩也都不错：Adept，估值超10亿美元，由Transformer作者创立；Humane，估值7.5-10亿美元，打造出爆火AI新硬件AI Pin；Stability AI，Stable Diffusion打造者，最早一批AI独角兽。
- 更多公司考虑出售的原因则来自于成本压力、不确定的商业模式以及激烈的市场竞争。
雷军喜提自动驾驶大牛：图森中国CTO王乃岩加盟（2024年05月27日）
- 前图森未来中国CTO王乃岩将加入小米汽车，向小米技术委员会主席、小米汽车自动驾驶负责人叶航军汇报
- 曾被称为是“深度学习应用于目标追踪领域全球第一人”
最难方言温州话被攻克！中国电信语音大模型支持30种方言，这题GPT-4o可不会做啊（2024年05月28日）
- 来自中国电信人工智能研究院，AI领域Fellow大满贯科学家李学龙带队，发布首个能听懂30多种多方言混说的大模型。
- 星辰语音大模型
- 它在国际语音顶会 INTERSPEECH2024 离散语音单元建模挑战赛上，星辰语音识别大模型斩获了语音识别赛道冠军。
- 而他们一早也提出了自己大模型领域布局：1+1+1+M+N：1个智算云底座、1个通用大模型底座、1个数据底座、M个内部大模型、N个行业大模型。
- 实际上，他们背后搭建了一支700人的AI研发团队，70%以上来自头部互联网和AI明星企业。再加上，AI领域Fellow大满贯科学家李学龙加盟，出任电信CTO，并组建中国电信人工智能研究院（TeleAI）。
神笔马良画出三维世界，基于线稿的3D生成编辑方法SketchDream来了（2024年05月31日）
- Liu F L, Fu H, Lai Y K, et al. Sketchdream: Sketch-based text-to-3d generation and editing[J]. ACM Transactions on Graphics (TOG), 2024, 43(4): 1-13.
- http://www.geometrylearning/SketchDream/
- SketchDream 已经被 ACM SIGGRAPH 2024 接收，并将刊登在期刊 ACM Transactions on Graphics 上，已入选 SIGGRAPH 精选亮点工作宣传片。

6、June

深度学习提升SOTA的tricks大盘点（2024年06月05日）
- 一句话原则：AI performance = data(70%) + model(CNN、RNN、Transformer、Bert、GPT 20%) + trick(loss、warmup、optimizer、attack-training etc 10%) 记住：数据决定了AI的上线，模型和trick只是去逼近这个上线，还是那句老话：garbage in， garbage out。
苹果智能炸裂登场：直接GPT-4o加持，全家桶都上生成式AI，Siri脱胎换骨（2024年06月11日）
- 北京时间 6 月 11 日凌晨，苹果全球开发者大会 WWDC 在库比蒂诺的 Apple Park 正式召开
- Apple intelligence：完整 AI 体系
如何理解attention中的Q,K,V？（2024年06月15日）
1.2万人朝圣CVPR，华人学者夺最佳论文！Sora舵手火爆演讲成大型追星现场（2024年06月20日）
- 本届会议已经成为CVPR历史上规模最大、参与人数最多的一届，截止6月19日，现场参会人数已超过1.2万人。
- 最佳论文：《Generative Image Dynamics》、《Rich Human Feedback for Text-to-Image Generation》
快手「可灵」再进化！视频续写可达3分钟让全球网友炸锅（2024年06月25日）
- 图生视频
- 视频续写，多次续写，最长可达3分钟
- 文本指令控制视频，女孩一键转身
- 凭AI电影《山海奇境》刷屏全网的制作人陈坤，半年之后用可灵的图生视频功能重制了一遍《山海奇镜》的预告片
旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包（2024年06月26日）
- 旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor
- 可以根据输入的视频生成任意持续时间的模仿视频，同时保证角色身份的一致性支持各种驱动视频，如演讲、唱歌、表情包等支持不同的画风（照片、传统绘画、漫画、AI 数字人等）
- Yang S, Li H, Wu J, et al. MegActor: Harness the Power of Raw Video for Vivid Portrait Animation[J]. arXiv preprint arXiv:2405.20851, 2024.
打开文心大模型，一看全是生产力（2024年06月29日）
- 两个月前，文心大模型 4.0 工具版刚刚发布，今天又发布了文心大模型 4.0 Turbo。
- 全新的智能代码助手文心快码，百度 80% 工程师都在深度使用，其中代码采纳率已达到 46%。
- 名字叫快码，「快」主要体现在三个方面：开发速度快、业务迭代快、企业落地快。
- 文心一言累计用户规模已达 3 亿，日调用次数也达到了 5 亿，用户日均提问量在过去半年时间里增长了 78%，提问平均长度提升了 89%。
- 在 WAVE SUMMIT 上，百度发布了新一代 AI 框架 —— 飞桨框架 3.0，目前已经面向开发者开放。

7、July

黄仁勋：我们不想当行业领导者（2024年07月03日）

我们更愿意成为值得信赖的合作伙伴。

我认为，对于初创公司而言，这种心态是必要的。我要告诉你们，作为一个初创公司，每一天都至关重要。我可以毫不犹豫地告诉你们，你们所做的每一个决定、每一项努力、每一次招聘、取得的每一个成就，以及你们所塑造的公司文化，都将在接下来的30天内决定公司的命运——是充满活力、持续成功，还是走向破产。我完全相信这一点，同时我也对自己和团队充满信心。
突破不可解释性！视频异常新检测框架精度90.67%拿下SOTA｜华科&百度&密歇根大学（ 2024年07月04日）
揭秘：阶跃星辰万亿MoE+多模态大模型矩阵亮相（2024年07月04日）
- 万亿参数 MoE 大模型 ——Step-2 正式版
- 千亿参数的多模态大模型 ——Step-1.5V
- 图像生成大模型 Step-1X
一分钟原画变3D角色，清华VAST成果入选图形学顶会SIGGRAPH（2024年07月12日）
- 随便一张立绘都能生成游戏角色，任意IP快速三维化有新招了！来自清华大学和VAST的研究人员联合推出了CharacterGen
- 整个流程可以在A800单卡上1分钟内完成。
- Peng H Y, Zhang J P, Guo M H, et al. Charactergen: Efficient 3d character generation from single images with multi-view pose canonicalization[J]. ACM Transactions on Graphics (TOG), 2024, 43(4): 1-13.
- https://github/JittorRepos/JDiffusion/tree/master/examples/CharacterGen
MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限（2024年07月15日）
MoE已然成为AI界的主流架构，不论是开源 Grok，还是闭源GPT-4，皆是其拥趸。然而，这些模型的专家，最大数量仅有32个。最近，谷歌 DeepMind 提出了全新的策略 PEER，可将 MoE 扩展到百万个专家，还不会增加计算成本。
大模型集体失智！9.11和9.9哪个大，几乎全翻车了（2024年07月16日）
也就是问题本身对人类来说，一看就知道问的是算数问题，但对AI来说是一个模糊的问题，并不清楚这两个数字代表什么。
eg：日期、版本号
读博期间应该明确的50件事！（2024年07月22日）
955 神仙公司名单（2024年07月28日）
Runway深夜炸场，Gen-3 Alpha图生视频上线，11秒让你脑洞乱飞（2024年07月30日）
- Runway Gen 3 Alpha 模型的图生视频功能正式上线！
- Gen 3 Alpha 支持生成的视频最长为 11 秒

8、August

英特尔「芯」痛！全球裁员1.5万人，利润暴跌85%（ 2024年08月02日）
- 前有英伟达，后有AMD
- 在传统的通用服务器中，英特尔CPU是绝对的主角。而在基于GPU的服务器中，最重要的是英伟达芯片——一台AI GPU服务器，可能会配置8个英伟达GPU，和1个英特尔CPU。
- 晶体管制程推进迟缓，目前还 PK 不过台积电
- 13/14代酷睿处理器不稳定情况，曾有人测试后发现故障率高达50%，饱受诟病。
Midjourney V6.1再进化！人像逼真细节拉满，摄影级画面秒生成（2024年08月02日）
- 更连贯的图像（手臂、腿、手、身体、植物、动物等）
- 图像质量更好（减少像素伪影、增强纹理、皮肤、8 位复古效果等）
- 更精确、更详细、更正确的细节特征（眼睛、小脸、远处的手等）
- 新的图像放大器具有更好的图像/纹理质量- 标准图像作业速度提高约 25%
- 提高文本准确性（在提示中通过「引号」绘制单词）
- 新的个性化模型，具有令人惊喜的细微差别和准确性
- 个性化代码版本控制（将旧作业中的代码用于当前作业的个性化模型和数据）
一句话总结，就是让画面整体上看起来更和谐、精致。
英特尔股价暴跌 26%，40 年来最大跌幅（ 2024年08月03日）
北京时间今天凌晨，英特尔股价暴跌逾 26%，单日总市值蒸发达 323.7 亿美元（约合 2317 亿元人民币），经历了 40 年来表现最差的交易日之一。
2024 互联网公司工作时长排行榜出炉！（2024年08月03日）
计算机视觉方向的博士，如何做到一直follow新技术？（2024年08月10日）
- 第一个是积极地和同行交流，不仅仅是同一个实验室的，还可以是不同实验室的connection，我的第二个方法是关注一些自己可能没有什么connection，但是产出质量始终很高的大组
AI失业潮来了，23年游戏行业万人被裁！暴雪员工岗位被AI抢走，悲痛万分（2024年08月17日）
目前大家基本已经达成共识：概念艺术家、平面设计师、资产艺术家和插画师是迄今为止受AI影响最大的群体。
4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3 | 开源（2024年08月19日）
- 推出通用多模态大模型mPLUG-Owl3，专门用来理解多图、长视频。
- Ye J, Xu H, Liu H, et al. mplug-owl3: Towards long image-sequence understanding in multi-modal large language models[J]. arXiv preprint arXiv:2408.04840, 2024.
- https://github/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
- 多模态检索增强
- 多图推理
- 长视频理解，mPLUG-Owl3能够看一部2小时电影，并且4秒就能开始回答用户的问题。
腾讯混元大模型负责人王迪：揭秘万亿 MoE 系统工程之道｜智者访谈（2024年08月21日）
- 本期机器之心《智者访谈》邀请到腾讯机器学习平台部总经理／混元大模型负责人王迪先生，深入腾讯从 0 到 1 自研万亿级 MoE 大模型的历程。
- 做大模型就是一个在约束条件下怎么样高效地把工程、算法、数据以及业务应用整个串联起来的工作，它对组织能力的要求是非常高的。（小模型上做实验，结论迁移到大模型）
- 其实我们看到，越是坚持这些最基本认知的东西，你会发现大模型它自然会学到很多东西，你越是加很多规则、人工的经验进去，越会发现这个东西不 work，有无穷无尽的麻烦要解决。
- dense 模型 vs MOE 模型
- 现在图像和视频生成领域可能 diffusion 的多一点，尤其在工业界，但是学术上也有全自回归的 model，各有优劣，我觉得还是需要一定的时间去验证它的效果和利弊。
- 目前来讲，统一到 Transformer 这样一个总的框架下，应该是没有太大疑问了，即便是 Sora 用的 DiT，也是用 Transformer 实现的 diffusion model，所以说已经完全离不开 Transformer 了。至于说还要不要 diffusion 这样一套思想，现在还没有定论，因为还有很多的地方需要去实践和实验。
- 场景用底座模型去微调，做好一个场景，反哺底座模型
- 业务团队一定要去了解模型的能力边界在什么地方，哪些是模型应该去解决的问题，哪些是产品的设计和规划上应该去包容的
- 怎么样让模型自动地去评价我们自己的模型好不好，这些能力我们叫 critic model（评价模型），但评价模型的设计，怎么样才能设计好，过往有很好的 NLP 经验的同学就能够设计得更好、更快。当然，并不是说没有这些经验的人做不了，但可能他们对问题的理解，包括做事的速度会略微慢一点。所以我一直说这两个东西都是需要，并且是相互结合的。
- 因为本身 AI 芯片就有一定的坏卡率，包括说网络设备，上万张卡总有坏的时候，那坏了之后，第一个怎么能快速地定位是哪张卡出了问题，然后快速把它踢掉，再快速重新拉起训练服务，这过程中涉及到比如怎么样快速把 checkpoint 写到磁盘上，再重新 load 进来，这个过程如果是两个小时和五分钟，那是有天壤之别，等等这些问题吧。做过大规模集群管理的团队，应该都是有相关经验的。
- 构建异构卡的集群，用不同厂家的卡，以及同一个厂家不同算力单位的卡、不同型号的卡，能不能在一起训练同一个任务？
- 所以我们内部使用一种叫做潮汐调度的方法，比如说白天的量很大，需要很多的推理卡，但晚上量小了，就通过太极平台，把这些卡晚上调度给训练去用，提高卡的利用率。
- 王迪，2008 年加入腾讯，拥有十多年在 AI 领域的深厚技术研发经验，在超大规模生成式大模型、搜广推稀疏大模型、搜索平台、GPU 算力和任务调度等技术领域取得显著成就，目前是腾讯太极机器学习平台和混元大模型技术负责人。
超6亿！文心大模型日调用量半年增长超10倍，AI成百度最强加速引擎（2024年08月23日）
在大模型加持之下，百度文库已经从一款纯粹的 “内容工具” 转变为 “生产力工具”，拥有智能PPT、智能文档、智能画本等上百项多模态AI功能。
计算机视觉毕业找不到工作怎么办？怒刷leetcode，还是另寻他路？（2024年08月23日）
- MOP（money oriented programming）才是王道。
李沐重返母校上海交大，从LLM聊到个人生涯，这里是演讲全文（2024年08月24日）
- 数据就是你要找的材料。你看那些小说里面，主角大部分时间都在找材料，包括去深山里面找、去拍卖会上买，所以搞数据是很难的事情，是个体力活。但是你必须得有这些数据，而且要多弄一些，因为你不知道到时候会不会毁掉一些。
- 算力也很重要，就是说火要大一点，设备要先进一点，因为越好的设备炼出来的东西越好。
- 算法就是你的丹方了。丹方这个东西可能跟小说不一样。它每年都在进步，而且对于细节的把控非常重要。就算别人告诉过你这个东西怎么弄，但在真实的场景里面，你会发现还是挺不一样的。这就有点像你去徒手发射火箭，发之前你要动手调一调，没调好的话就炸掉了。
- 所以一旦用到水冷之后，你的算力就可以更密，就可以放更多机器。芯片就可以压得比较扁。压得比较扁的好处就是，每个芯片之间更近了。芯片之间直接用光纤，以光速互通。光速你看上去很快，但实际上在我们眼里已经很慢了。一台机器传输到隔壁一米之外的机器所带来的几纳秒延迟，几乎是不能忍。我们自己去设计机房的时候会考虑光纤的长度，因为一米的差距就会给分布式训练带来一个可见的性能影响。
- 还有一个通讯是 GPU 和 CPU 之间的 PCIe，它每几年也在翻倍，但是确实会慢一些。
- 内存：制约模型尺寸的一大瓶颈。这是因为内存占面积 —— 一个芯片就那么大，划一块给算力，划一块给内存之后就放不下什么东西了。所以很有可能在未来几年之内，一个芯片就 200GB 内存，可能就走不动了。这个要看工艺有没有突破。
- 当我们发现自己去造一个电厂的成本比我们付的那个电费成本还低的时候，我们花了几个月时间去看那个电厂文件。
- 你的模型大小就是 100B 到 500B 这个样子。我觉得比较好的一线的模型就是 500B，超过 500B 不是训练不动，而是做 serving 很难。
- 你可以做更大，但是它很多时候是用 MoE 做的，它的有效大小（每次激活的大小）可能也就是 500B 的样子。
- 语音模型：延迟更低、信息更丰富。GPT-4o 出来之后，大家对于语音模型产生了浓厚的兴趣。以前的模型是我先做 ASR（自动语音识别），把语音信号转成文本，然后放进语言模型，让它出一个文本的回复，再通过 TTS 变成一个语音的信号。现在大家做的是直接让你的原始的语音信号进去，然后原始的语音信号再出来。现在端到端我们大概可以做到 300 毫秒。300 毫秒最大的好处是可以打断，体验会更好
- 图像模型：生成的图越来越有神韵
- 视频模型：尚属早期
- killer APP（杀手级应用）
- 对于文科白领的工作，AI 已经能完成简单任务，复杂任务需要继续努力。对于工科白领的工作，简单任务还需要努力，复杂任务存在困难。对于蓝领的工作，除了无人驾驶和特定场景（比如工厂，场景变化不大，也能采集大量数据），AI 连简单任务都做不了，完成复杂任务更难。（交互，缺数据，场景不固定）
- 预训练是工程问题，后训练才是技术问题
- 做大语言模型的研究，你可以不去做预训练，你就做后面的一部分，因为后面部分其实对大家有利的。前面变成了一个工程问题，需要很多卡，很多人来完成，后面才是算法创新。虽然它的门槛还是比较高的，8B 和 70B 的情况也不一样，8B 上调的很多东西在 70B 上不一定成立。
- 没有真正的垂直模型，就算是一个很垂直领域的模型，它的通用能力也是不能差的。比如说你要在某一个学科里面拿第一，你别的科目也不能差到哪里去。
- 数据决定了模型的上限，算法决定了模型的下限。
- 为什么我之前说创业要求的动机要比 PhD 更高一点，PhD 的动机要比工作更高一点，核心原因就在于，你会有一个延迟享受。在公司，一个事情干完就会发奖金或者被表扬；PhD 做一个研究可能要一两年；创业可能要 5 年， 5 年之后才能得到正反馈。你在没有任何正反馈的情况下，你就得很热爱这个事情，得给自己加码，让自己嗨起来。
- https://www.bilibili/video/BV175WQeZE7Z/?spm_id_from=333.337.search-card.all.click
RTX3090可跑，360AI团队开源最新视频模型FancyVideo，红衣大叔都说好（ 2024年08月26日）
《FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame
Textual Guidance》
首篇「虚拟现实+人工智能」综述！浙大、港中深等发布AI医疗最新报告（2024年08月27日）
- https://github/yixuan730/Awesome-Virtual-Reality-in-Medicine
- Wu Y, Hu K, Chen D Z, et al. AI-Enhanced Virtual Reality in Medicine: A Comprehensive Survey[J]. arXiv preprint arXiv:2402.03093, 2024.
- 医学视觉增强：着重于提升医疗人员在虚拟空间中的视角感知，有助于帮助医疗人员理解错综复杂的解剖结构以及空间关系。该类别分为两个子领域：虚拟物体重建和虚拟视觉增强
- VR医学数据处理：主要探讨当前VR系统对于分析和理解复杂医学数据的能力，这一类别讨论了VR在AI的融合下，如何辅助深入的结构和病变分析、提升诊断能力，以及对外壳手术的各个阶段提供相应支持。主要关注从传统2D数据到更加动态的3D数据的分析方法的转变。
- VR辅助干预：该领域主要介绍和分析当前AI驱动的VR技术在实时互动的医疗场景中的实际应用。该类别涵盖了VR技术在手术过程中的直接指导和辅助以及手术过程中的交互式合作（利用人机交互技术为诊疗人员提供交互式的术中反馈）两个方向的分析和讨论。
时薪高达342元！特斯拉为机器人招募“人类老师”，明确要求：身高170-180cm，每天步行7+小时（2024年08月27日）
近日，特斯拉的一则最新招聘引起了广泛关注：为旗下的 Optimus 人形机器人招募“人类老师”，具体岗位名称为数据收集操作员（Data Collection Operator）。该岗位的工作内容，大体就是穿戴着动作捕捉服和 VR 头盔，根据要求执行站立、行走等特定动作，以此为机器人 Optimus 的训练提供数据支持。
GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！（2024年08月28日）
曾造出世界最大芯片公司Cerebras，刚刚发布了全球最快的AI推理架构——Cerebras Inference。运行Llama3.1 8B时，它能以1800 token/s的速率吐出文字。
一直以来，这家公司就致力于打造世界上最大芯片，希望将整个模型存储在一个晶片上，以此来解决内存带宽瓶颈。
不过，值得注意的是，在Cerebras上跑的Llama 3.1，上下文只有8k……相比之下，其他平台都是128K。
英伟达股价闪崩暴跌2000多亿美元！Blackwell出货延迟，老黄遭华尔街冷眼？（2024年08月30日）
他甚至断言：在某个时刻，所有购买英伟达设备的人，会立即获得回报，因为「the more you buy, the more you save」！
然而他却回避了重要的一点：这些开发者每年也在亏损数十亿美元，如果他们的客户无法获得物有所值的回报，那么这种投入将越来越不可持续。
一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o（2024年08月30日）
- 近日，数据挖掘顶会 KDD 2024 在西班牙巴塞罗那正式召开，来自中国的研究团队和科技企业纷纷亮相。其中，在 8 月 29 日举办的大语言模型日（Large Language Model Day）上，智谱 AI 顾晓韬博士介绍了智谱 AI 支持中英双语的对话机器人 ChatGLM，成为中国科技力量的鲜明代表。
- 据悉，智谱开源模型累计下载量已突破 2000 万次。

9、September

陶哲轩力荐，哈佛反向学习法火了：教会AI就是教会自己（ 2024年09月02日）
利用提示工程，让学生尝试教AI完成平时数学作业（不纳入正式考核），期末再让这些AI参加考试。
电脑CPU依然得看英特尔酷睿：新一代性能提升20%，AI能力翻5倍；网友：感谢AMD（2020年09月03日）
英特尔第十一代「酷睿家族」终于登场了！代号Tiger Lake，10nm SuperFin 工艺
MiniMax不藏了，大秀视频/语音/文本全模态模型家族，“每天与世界交互30亿次”（2024年09月03日）
- 每天30亿次交互量。其中生成文本量3万亿文本tokens，生成图片2000万张、生成语音7万小时。
- 积累用户超过6000万。
- MiniMax 率先完成了全模态模型的研发和开放。
  视频模型，abab-video-1，目前AI视频时长最高6秒，未来或支持10秒。
  音乐模型，abab-music-1
  语音模型，abab-speech-1，只需要20秒真人语音作为语料数据
  文本万亿多模态模型，abab-7，MoE+Linear Attention
- MiniMax 旗下主要有四款产品：星野、Talkie、海螺AI和开放平台。
- hailuoai/video
英伟达市值暴跌2万亿！一夜蒸发3个英特尔，创美国历史纪录（2024年09月04日）
据悉，美国司法部已经向英伟达发出传票，寻找这家芯片巨头违反反垄断法的证据。

仅看今年的利润，英伟达已经超过了最接近自己的竞争对手——AMD的总销售额。
AI落地新战场，云厂商开卷MaaS：大模型即服务，华为给所有人发船票了（2024年09月05日）
- 比如云厂商们近期都“卷”的 MaaS（Model-as-a-Service），就是降低大模型应用门槛的重要途径之一。
- MaaS 是一种可以为开发者用户提供大模型以及各种开发工具的服务，它能够让哪怕没有大模型开发背景的人也能进行一站式开发。
- 具体来说，平台不仅提供99%的业界SOTA开源大语言模型、开源多模态模型，并且均已针对昇腾算子、显存优化，预置最优超参配置，做到“模型全、免配置、免调优、性能优”。
- 针对更深入的模型定制需求，平台也提供了包括模型调优、模型压缩、模型部署、模型体验的全流程工具链，覆盖大模型全生命周期。
- ModelArts Studio 大模型即服务平台，就是发给各位玩家的“船票”。只要手握这张船票，人人都能在华为云的基座上做大模型开发。
支付宝突然推出新App，竟想用AI让日常生活开挂（2024年09月05日）
- TA 生动展示了大语言模型的应用如何从理解（ Chat ）转向采取实际行动( Act ）。
- 当产品体验丝滑到「无感」后，人们反而容易忽视沉淀在下面的深刻技术，甚至会有「这也不难做到」的错觉。
  
  支付宝首页下拉就是同样的功能
华为离职副总裁徐家骏：透露年薪千万的工作感悟，太震撼！（2024年09月05日）
《黑神话：悟空》里惊艳的古建场景是如何生成的？（2024年09月07日）
- 在人工智能时代，NeRF（Neural Radiance Fields，神经辐射场） 与 3DGS（3D Gaussian Splatting，3D高斯溅射） 技术成为完成三维重建、新视角合成、3D生成等任务不可或缺的重要工具。
- NeRF 是一种可微的、自动生成的，连续的三维隐式表达方法，最初用于解决新视角生成（Novel View Synthesis，NVS）这个计算视觉里的基础问题。
- 相较于 NeRF，3DGS 是显式的三维表达方式，其设计遵循“大道至简”的原则，用简捷的逻辑构造了三维空间。
北大王立威：理论视角看大模型，为什么AI既聪明又愚蠢 | 智者访谈（2024年09月08日）
- 本期机器之心《智者访谈》邀请到北京大学智能学院教授王立威，从机器学习理论视角看大模型的能力边界，探讨理论对 AI 未来发展的影响。
- 刚才讲的另一类系统，比如说 AlphaGeometry（能够解奥赛级别的几何证明题），以及后来的 AlphaProof，用的是深度强化学习这种方法，而深度强化学习不是今天语言大模型的主要技术方案。它们还有一大特点，也是区别于语言大模型的，是专注于解决特定类型的封闭世界问题（closed-world problem)。——这套思路与 DeepMind 在几年前用 AlphaGo下围棋的方法一脉相承
- 使用机器学习解决数学和科学问题的潜力——人类科学家仍然要做顶层设计，但是其中的某些环节或部分可以用机器学习和人工智能方法更高效地完成
- 机器之心：我们的终极目标是希望 AI 能够独立完成数学证明，并且像伟大的科学家比如爱因斯坦那样，发现新的科学理论。为了实现这个目标，还需要克服哪些主要困难？
- 幻觉
- scaling law
- 解释性
- 泛化性，benchmark
  今天我们的大模型能够处理的任务是非常之多的，不再是一个固定的，像图像分类这样的单个任务。所以我们在讨论泛化的时候，已经不是过去那种狭义的泛化了，甚至我们今天讨论的泛化，是指给大模型一个全新的任务，看它能不能够把这个任务也解决好。所以从这个层面上说，过去的理论就显得比较局限了。
- 大模型时代的理论研究
- 王立威，北京大学智能学院教授，研究兴趣为机器学习。长期从事机器学习基础理论研究，为设计更有效的新算法提供理论指导，并开发基于机器学习的医疗影像诊断算法与系统。近来致力于通过机器学习方法解决科学与数学领域重大基础问题。
  王立威教授已在 NeurIPS、ICML、TPAMI 等国际顶级期刊和会议上发表论文 150 余篇，其中关于图神经网络表示理论的两篇工作分获 ICLR 杰出论文奖与提名奖。担任 TPAMI 编委，并长期担任 NeurIPS、ICML、ICLR 等机器学习顶会的领域主席／高级领域主席。此外，入选 AI’s 10 to Watch，是首位获此殊荣的亚洲学者。
离谱，深圳某公司重新定义8小时工作制！（2024年09月09日）
- 10:00-12:00：上午2小时；14:00-18:00：下午4小时；19:00-21:00：晚上2小时。
- 然而，关于午休和晚餐时间是否应当算入工作时间，法律并没有明确的条款说明。用人单位拥有一定的自主权，可以根据具体情况决定是否将这些休息时段纳入 8 小时工作时间的计算范围。
视觉模型底座超越OpenAI，格灵深瞳开启多模态落地的Scaling Law（2024年09月09日）
- 它曾因“A股AI视觉第一股”的标签为人熟知，如今以新姿态再次刷新外界认知：大模型落地先行者。
- 自研视觉大模型 Unicom v2
- 从某种意义上说，ChatGPT是替所有AI公司做好了教育市场的工作。
- https://github/deepglint/unicom
从腾讯大模型的「实用」路线，我们看到了企业应用AI的新方向（2024年09月09日）
- 腾讯全球数字生态大会
- 易车和腾讯合作，基于内置在 TI 平台的大模型，使用大模型精调工具链，精调训练出 「易车大模型」。这个大模型能为用户提供 3D 看车、AI 解读、AI 对比问答和 AI 搜索等服务，增强了用户获取信息的效率。据统计，这些功能上线后，用户的停留时长有了大幅提升。
大模型/Sora/世界模型之间是什么关系，对自动驾驶的意义是什么？（2024年09月10日）
“不断理解，不断预测”，这种理解世界的方式，是人类理解世界的方式。这种思维模式就叫做：世界模型。
人经历的事情越多，大脑里就会形成越复杂的世界模型，用于更准确地预测这个世界。这就是人类与世界交互的方式：世界模型。
目前sora存在的缺点
（1）物理交互的不准确模拟
（2）对象状态变化的不正确
（3）长时视频样本的不连贯性
（4）对象的突然出现
SpaceX再创历史，人类首次商业太空行走成就达成！（2024年09月13日）
- 随着“宇宙素人”贾里德·艾萨克曼在距离地球700多公里的太空出舱，人类首次商业太空行走就此完成。
- 北京时间周四晚19：58，这位“北极星黎明”任务的指挥官、41岁的亿万富翁打开舱口，率先走出太空舱，通过“天行者”梯子，以及一根约3.7米长的系绳，在舱外呆了10多分钟。
- 四人分别是亿万富翁贾里德·艾萨克曼和他的朋友前空军飞行员斯科特·“基德”·波提特，与他们同行的还有SpaceX的两名首席工程师莎拉·吉利斯和安娜·梅农。
- 龙飞船
余承东：ADS断代领先！华为发布首款轿跑SUV（2024年09月13日）
- 智界R7车长/宽/高分别为4956/1981/1634（mm），比Model Y大得多，外观和智界S7相似，形成了鸿蒙智行家族设计语言。
- 三电方面，搭载800V高压平台，最高续航802km，在纯电的SUV中实现了罕见的“双800”。
- 46.98万起，问界M9五座版上市，少了一排座位，后备箱空间自然更富裕了。比如类似劳斯莱斯的“揽景座椅”，非常适合钓鱼佬。
李飞飞携24人最强天团打造「大世界模型」！Hinton站台力挺，获2.3亿融资（2024.09.14）
她将人类智能归结为两大智能，一是语言智能，另一个便是空间智能。
「如果想让AI超越其自身当前的能力，我们需要的是，不仅仅能够看到、会说话的AI，而是一个可以行动的AI」。
戴手表就能检测打鼾？Apple Watch到底用什么诊断「睡眠呼吸暂停」（2024年09月14日）
- 打鼾是导致睡眠质量差的最主要影响因素，医学上称其为睡眠呼吸暂停，表现为睡觉时呼吸多次停止和重新开始。
- 库克会在下一代的Apple Watch中推出检测睡眠呼吸暂停的功能。
刚刚，CVPR 2025新规来了：审稿进入「半实名制」，不负责任的审稿人将被标记并拒稿（2024年09月16日）
黑神话悟空火了，为何没人用H100打游戏?（盘点H100和4090的十点区别）（2024年09月18日）

一张RTX 4090市场价，1.3-1.6W，一张H100 PCIe卡在22W左右，八卡HGX模组210W
聊一聊大模型六小虎生存现状（2024年09月18日）
- 智谱AI、百川智能、零一万物、月之暗面、Minimax、阶跃星辰
- 模型能力增长放缓，各家如何开卷产品差异化？
- 烧钱的游戏还在持续，但资本只垂青强者
- 8月底，零一万物的算法副总裁黄文灏被证实已加盟字节的大模型团队，负责技术项目管理和规划。紧接着，另一位公司的核心成员李先刚也被爆出走，选择返回“老东家”贝壳任职，他曾任过零一万物的法定代表人。
- AGI的等待：冲刺上市，旷日持久
- 2013年，斯派克·琼斯执导的电影《Her》上映了，谁能设想仅仅十余年之后，我们就将遇见自己的萨曼莎呢？
奥特曼：o1仅仅是“推理模型的GPT-2”；黄仁勋：我给你加速50倍（2024年09月19日）
英伟达创始人黄仁勋，则表示新一代 Blackwell 架构GPU能给o1推理提速50倍。
OpenAI CEO奥特曼，我们谈到AI的五个级别：L1是聊天机器人（ChatBot），L2是我们刚刚达到的推理者（Reasoner），L3是智能体（Agent），L4是创新者（Innovator），能够发现新的科学信息，L5是完整的组织（Organization）。
关于「车路协同vs单车智能」的全方位辩论（2022年09月22日）
- 以静态环境下的动态感知，叠加其空间连续、时间连续、算力调用的特点，可以应对盲区死角、意图判断难等问题，提升感知准招率
  1、前方发生连环追尾事故或建筑物遮挡，路侧感知提前将信息同步给车辆，防止事故；
  2、遇无信号灯、路况复杂的十字路口，通过车-车协同，每辆车可实时获知其他方向来车轨迹意图；
  3、十字路口交叉车流调度，云端基于对交叉车道不同车流量的大数据分析，调整路口红绿灯授时，缓解车流量大的道路拥堵，提高道路资源利用率。
- 车路协同听上去好像很美好、技术上也可以实现，但要想实现大规模商业运作却很艰难，会面临责任归属、法律法规、道德维度、市场监管、成本分摊、价值分配、商业保险等诸多复杂因素，实际上已经超出了技术范畴。
- 用户很难接受在某一区域有自动驾驶，开出覆盖范围就无法继续使用的情况。这样一来，车企如果不想让产品丧失竞争力，就还需要不断开发基于单车智能的自动驾驶，这也将导致车路协同能够提供的帮助越来越少。而车企在自身就可以实现高阶自动驾驶的情况下，也不会再为车路协同付出额外一份费用。

10、October

海外博士一般朝九晚五，国内博士动辄十几个小时科研时间。为什么普遍认为海外博士水平比较高？（2024年10月01）
白龙马西天取经 vs 驴原地拉磨
纯国产万卡集群炼出万亿参数大模型，被这家央企率先做到了！（2024年10月01）
一张人脸照片，Meta眼镜识别全部个人信息，两位哈佛开发者：只为警醒世人（ 2024年10月03日）
pika 1.5重磅升级！万物皆可爆炸，搞笑特效全网病毒式疯传（2024年10月03日）
全新特效Pikaffects，让全网疯狂——任何物体都能被压碎、融化、膨胀、爆炸，甚至还能变成蛋糕被一刀切开。
激光雷达明星崩了！市值缩水96%，危在旦夕。。。（2024年10月04日）
报告显示，在2023年的车载激光雷达市场，中国厂商依然是领跑全球，禾赛科技、速腾聚创、图达通、华为以及览沃等中国激光雷达供应商，合力拿下了全球84%的市场份额。
聊一聊国内大模型公司面经和感受（2024年10月04日）
- 多头注意力，频率太高了。coding轮，概念轮都考。复习的点包括：时间/空间复杂度，优化（kv-cache，MQA，GQA），手写多头代码。各种Norm，这个频率也不低，不过比较标准的内容，没有啥特意要说的，有的考手写，有的考概念和理解（为什么管用）。
- 框架相关内容，各种并行方式，优缺点。DeepSpeed，Megatron可以看看源代码，Flash-Attention等内容。这个点也经常考代码题。
- BERT，GPT等比较主流大模型，一些细节，比如位置编码，训练loss，激活，架构些许不同这种。自回归重点。
- 大模型训练，这个可能主要是工作经验相关，经常问比如训练loss炸掉了，如何解决，一些技巧之类的。面试时有些面试官会问一些很细节的东西，感觉是在确认确实上手跑过基座训练不是吹水。
- 数据预处理，BPE，tokenization，mask相关概念和对模型/训练影响，数据配比（有paper）。
- evaluation，如何评估大模型，安全性，有效性，公开数据，个别考过手写eval框架（多选，生成）。
- 根据投的岗位，多模态和RLHF内容可以适当看看。这俩感觉paper挺重要的，也大多研究岗位。楼主也少面了一些自动驾驶，RL啥的，不过结果不咋地。
Meta版Sora深夜横空出世，小扎放出16秒高清大片！92页论文曝光技术细节，Llama 3架构立功（2024年10月05日）
- Movie Gen，可以生成音效和配乐
- Polyak A, Zohar A, Brown A, et al. Movie gen: A cast of media foundation models[J]. arXiv preprint arXiv:2410.13720, 2024.
Meta又给OpenAI一记重击，视频生成Movie Gen震撼登场，甚至可以配音、编辑（2024年10月05日）
全球首台Arm超算光荣退役！下一代已接任，配备384块英伟达Grace CPU（2024年10月05日）
这台被部署在英国最强超算 Isambard 2，帮助世界推动了模拟分子、天气预报的研究，下一代超算已经接任。
下一代 Isambard 3 超算，将使用HPE提供的基于NVIDIA Grace ARM的CPU上线接任。
第63届TOP500排行榜显示，尽管 Frontier 不再是榜单中唯一以百亿亿次浮点运算计算的系统，但依旧夺得榜首。
Frontier 被部署在美国田纳西州橡树岭国家实验室，依旧是视觉上最强大系统，其 HPL 得分为1.206百亿亿次浮点运算/秒。
最新AI生图模型Flux1.1刷屏！添加单反相机文件名获得超写实图像，网友：我分不清啊（2024年10月06日）
- 在提示词中模仿单反相机的文件命名格式即可。比如“CR2”就是佳能相机使用的原始图像文件格式，输入“IMG”+随机编号+“.CR2”，就能去除图中的“AI味”，无论人物还是风景都能达到照片级效果。
- 代号蓝莓，最新SOTA文生图模型
- Stable Diffusion原班人马打造
文生图参数量升至240亿！Playground v3发布：深度融合LLM，图形设计能力超越人类（2024年10月07日）
- Playground Research 最近发布了一篇论文，详细介绍了团队最新的、基于DiT的扩散模型Playground v3（简称PGv3），将模型参数量扩展到240亿，在多个测试基准上达到了最先进的性能，更擅长图形设计。
- Liu B, Akhgari E, Visheratin A, et al. Playground v3: Improving text-to-image alignment with deep-fusion large language models, 2024b[J]. URL https://arxiv. org/abs/2409.10695.
「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」（2024年10月07日）
- 9月5日，Hyperwrite AI联创兼CEO Matt Shumer在X上扔出一则爆炸性消息——用Meta的开源Llama 3.1-70B，团队微调出了Reflection 70B。它的基准测试结果惊人，可以和Claude 3.5 Sonnet以及GPT-4这类顶级闭源模型一较高下，直接登顶「世界开源新王」！
- 总之，2024年9月的MMLU或HumanEval基准已经被严重破坏了，随便一个本科生就能随意操纵他们。
- 小型初创公司有可能发现一种被大型AI实验室忽视的新颖微调方法吗？虽然可能性不大，但也并非完全不可能
AI逆向绘画火了！一键重绘梵高《星空》，来自华盛顿大学（2024年10月08日）
潞晨Video Ocean震撼发布，打开了「任意角色、任意风格」的视频魔盒（2024年10月08日）
- https://video.luchentech/zh-CN
- 文生视频、图生视频、角色生视频，解锁创意的无限可能。
李飞飞：不要数字孪生，要数字表兄弟，一张照片生成机器人训练场景（2024年10月12日）
数字孪生（digital twin）、数字表亲（digital cousin），用于仿真

Dai T, Wong J, Jiang Y, et al. Acdc: Automated creation of digital cousins for robust policy learning[J]. arXiv preprint arXiv:2410.07408, 2024.
蔚小理华的车端大模型进展到什么地步了？（2024年10月14日）
车圈大变天！激光雷达即将被判死刑？（2024年10月14日）
- 昔日称霸车圈的智驾供应商 Mobileye，近日宣布了一则重大决定——今年内就要立刻关闭激光雷达研发部门，并且终止下一代激光雷达的研发工作！
- 随着今年特斯拉FSD推出了基于“端到端架构”的V12版本，删掉原本30万行C++代码，替换为3000行神经网络之后，系统决策准确度和执行速度都有了质的飞跃。
  
  传统智驾靠的是感知信号与算法堆叠下的缜密逻辑，而端到端靠的是类似“肌肉记忆”的经验。
- 到现在来看，只有阿维塔采用了3颗激光雷达的方案，其他的车型要么是大灯周围的双激光雷达方案，要么是车顶“犄角”式的单激光雷达方案。
- 不同车型、不同智驾功能，对于激光雷达的依赖度都是不同的，有的优先级比较高，一旦遮挡就无法启用；有的则优先级较低，不会影响功能使用。
小目标检测的12种解决方案汇总，推荐收藏！（2024年10月15日）
- 增大输入图像分辨率
- 增大模型输入尺寸
- 特征融合：多尺度特征融合、长跳跃连接、注意力机制
- 数据增强：尺度变换、随机裁剪、高级组合（Copy-Paste、Mosaic）
- 大图切分：Tiling、Slicing Aided Hyper Inference——SAHI
- 损失函数
AI翻译界杀手诞生！阿里国际翻译大模型吊打谷歌和GPT-4（2024年10月16日）
大模型 Marco，光腿神气、可盐可甜，场景是跨境电商
国产大模型竞技场首超GPT-4o！零一万物GLM共同跻身Top10（2024年10月16日）
- “大模型六小强”之一的零一万物正式对外发布新旗舰模型——Yi-Lightning（闪电）。
- 在大模型竞技场（Chatbot Arena）上，Yi-Lightning性能直冲总榜单并列第6，数学分榜并列第3，代码等其它分榜也名列前茅。
实测13个类Sora视频生成模型，8000多个案例，一次看个够（ 2024年10月16日）
Zeng A, Yang Y, Chen W, et al. The dawn of video generation: Preliminary explorations with sora-like models[J]. arXiv preprint arXiv:2410.05227, 2024.
https://ailab-cvc.github.io/VideoGen-Eval/
来自腾讯 AI Lab
从威尔・史密斯鬼畜吃面到「Her」，这些幕后技术正在推动AI视频时代的到来（2024年10月17日）
- 字节跳动前段时间发布的豆包・视频生成模型
- 火山引擎，BMF，babit multimedia
你的公司是否也过度研发，海康裁员千人，32个研发区只剩12个！（2024年10月18日）
骁龙8至尊版登场：CPU牙膏挤爆，AI生成速度创纪录，奥特曼也来助阵（ 2024年10月22日）
- 骁龙 8 至尊版采用台积电 3nm 工艺制造，与骁龙 8 Gen3 相比，CPU 性能提升 45%，能效提升 44%。
- 高通表示，华硕、荣耀、iQOO、摩托罗拉、努比亚、一加、OPPO、红魔、Redmi、真我 realme、三星、vivo、小米和 ZTE 等各大厂商都准备在未来几周内推出搭载骁龙 8 至尊版芯片的机型。
有哪些值得计算机专业学生加入的国企？（2024年10月19日）
- 证券公司、公募&私募基金
- 上海证券交易所
  深圳证券交易所
  大连商品交易所
  郑州商品交易所
  上海期货交易所
  中国金融期货交易所（中金所）
  北京证券交易所
- 各大银行
  整体上大银行的待遇＞中小银行
  地方性银行总行的待遇＞国有行省级分行
- 烟草+国家电网+中石油+铁路集团+铁塔+各省三大运营商
- 军工相关的三家央企：航天科技+航天科工+电子科技集团
- 军队
- 医院信息科
- 本省车企（汽车智能化，车载智能化，招计算机的可能比车辆工程、机械工程还多。）
  重庆的长安汽车，
  合肥的江淮汽车，
  长春的一汽，
  北京的北汽武汉东风汽车，
  济南的中国重汽，潍柴，
  广州的广汽，
  柳州的五菱。
  芜湖的奇瑞
  杭州的吉利（私企）
  广东的比亚迪（私企）
  还有一些合资汽车。
- 地方政府的平台公司
先让不懂代码的来测？通义这个新产品，代码刚写完，预览就出来了（2024年10月24日）
通义千问2.5 代码模式
- 你在叙述完具体功能需求后，系统会创建一个工作空间，AI 在其中与你协同工作。在后续对话过程中，AI 可以实时查看你的新要求，持续编辑代码。问题随时解决，效果实时呈现，就像是在现实世界中的多人协作一样。
- 这相当于让用户拥有一个 24 小时随时提需求的『贴身程序员』，不用排期、随时上线，且能满足你专属需求。
盘一盘端到端自动驾驶主要玩家（2024年10月25日）
主机厂：小鹏汽车、鸿蒙智行（类主机厂）、蔚来汽车、零一汽车（新能源重卡科技公司）
自动驾驶算法和系统公司：元戎启行、商汤绝影、小马智行、鉴智机器人、英伟达、地平线
自动驾驶生成式AI公司：光轮智能、极佳科技
学术研究型机构：上海人工智能实验室、清华大学MARSLab
刚刚，余凯港股敲钟！地平线开盘大涨28%市值632亿（2024年10月25日）
- 地平线 Horizon Robotics 智驾科技
- 用地平线自己的话来说，他们是一家“市场领先的乘用车高级辅助驾驶（ADAS）和高阶自动驾驶（AD）解决方案供应商”，所以核心产品就是解决方案组合——硬件+软件的总和方案。
- 硬件自然是地平线的征程系列，今年最新的产品是 J6，针对不同车型方案有不同型号，算力从数十TOPS到560TOPS。
- 而软件，同样是地平线提供全栈方案：Horizon Mono、Horizon Pilot 以及 Horizon SuperDrive三种，根据客户不同的需求，提供差异化功能。
- Horizon Pilot 是高速 NOA 解决方案，除主动安全功能外，还具备实现自动上/下匝道、自动变道、高速路自动驾驶，以及自动泊车辅助等功能。到 2023 年年底，已经有超过 25 款车型搭载，比如理想 L7 到 L9 系列，都选择了 Horizon Pilot。
- 2023年，由地平线学者一作发表的业界首个公开发表的端到端自动驾驶大模型 UniAD，荣获 CVPR2023 最佳论文
盘一盘端到端自动驾驶主要玩家（2024年10月25日）
一句话的事儿，手机自动驾驶来了！首款国产AI智能体手机引爆端侧革命（2024年10月26日）
荣耀，视频通话时换脸检测，一句话帮忙点咖啡，一句话帮忙取消自动续费
谷歌这款新概念键盘，治好了我多年的老病（2024年10月27日）

遵循莫比乌斯带的几何形状。没有明显的内外之分，表面有倾斜度，因此你的手可以以几乎贴合的方式使用它。用户可以 360 度地打字，以任何方式握持设备
虽然这只是从 2019 年愚人节开始的一个玩笑项目，旨在推广谷歌输入法（Gboard），但是该键盘并不是什么 AI 生成的效果。它确实有实物是可以工作的。你可以按照已经开源的原理图、3D 可打印的 STL 文件和固件自己构建一个。
靠AI，2年时间大涨4倍！扒一扒你每天都用的这只小绿鸟（2024年10月26日）

路易斯·冯·安（Luis von Ahn，以下简称冯·安），多邻国的创始人兼CEO。验证码被命名为 CAPTCHA，是“自动区分计算机和人类的图灵测试”（Completely Automated Public Turing test to tell Computers and Humans Apart）的缩写，以一种在线表格测试的形态存在，用来验证用户是真人而非机器人。
苹果地表最强AI PC诞生，M4 Max猛兽加持性能暴涨！顶配6万，续航飙至24小时（2024年10月31日）
M4 Pro、M4 Max、M4，均采用业界领先的第二代 3nm 工艺。
让机器人拥有人一样「潜意识」，英伟达1.5M小模型就能实现通用控制了（2024年10月31日）
- 如果想在端侧塞进 405B 这种级别的大模型，那真是小庙供不起大菩萨。
- 朱玉可和 Jim Fan 团队（英伟达 GEAR 团队）新鲜发布了他们的最新研究成果 HOVER。这是一个仅有 1.5M 参数的神经网络，但它足以控制人形机器人执行多种机体运动。
- He T, Xiao W, Lin T, et al. Hover: Versatile neural whole-body controller for humanoid robots[J]. arXiv preprint arXiv:2410.21229, 2024.

11、November

吞吐量最高飙升20倍！豆包大模型团队开源RLHF框架，破解强化学习训练部署难题（2024年11月01日）
- 在大模型后训练（Post-Training）阶段引入 RL 方法，已成为提升模型质量和对齐人类偏好的重要手段。
- 传统的 RL/RLHF 系统在灵活性和效率方面存在不足，难以适应不断涌现的新算法需求，无法充分发挥大模型潜力。因此，开发一个高效且灵活的大模型 RL 训练框架显得尤为重要。这不仅需要高效地执行复杂的分布式计算流程，还要具备适应不同 RL 算法的灵活性，以满足不断发展的研究需求。
- 字节跳动豆包大模型团队与香港大学近期公开联合研究成果—— HybridFlow，一个灵活且高效的大模型 RL 训练框架，兼容多种训练和推理框架，支持灵活的模型部署和多种 RL 算法实现。
- 实验结果表明，HybridFlow 在各种模型规模和 RL 算法下，训练吞吐量相比其他框架提升了 1.5 倍至 20 倍。
- Sheng G, Zhang C, Ye Z, et al. Hybridflow: A flexible and efficient rlhf framework[J]. arXiv preprint arXiv:2409.19256, 2024.
- https://github/volcengine/veRL
2024 AI年度报告发布，附十大预测：人形机器人热度下降，英伟达维持霸主地位（2024年11月03日）
- State of AI发布了2024产业报告，也是调研团队发布的第七份年度报告，从研究进展、行业局势、现有政策、安全问题、未来预测等角度出发，对人工智能行业的现状和预期进行了深度分析。
- 美国对中国实验室实施的制裁对其生产高性能模型的能力影响有限，因为库存、获批硬件、走私和云访问的结合使国内能够构建高性能的（V）LLM，但国内的半导体产业发展仍然较为混乱。
四家亏损严重的芯片龙头企业，前景不妙！（2024年11月04日）
2024年前三季度
- AI芯片龙头寒武纪今年股价暴涨了3倍左右，前三季度亏损超过7亿元。
- 芯片设计龙头芯原股份股价一路下滑，前三季度亏损接近4亿元。
- CPU龙头龙芯中科股价从183元下滑到今天，前三季度亏损3.4亿元。
- 光芯片龙头源杰科技股价从339元到现在150元左右，前三季度亏损55万元，但是第三季度亏损就超过1100万元。
谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销（2024年11月04日）
- CEO劈柴在Q3财报会议上的一句话，瞬间点燃了全网的激烈讨论。
- 就连Linux之父Linus Torvalds在采访中表示，「AI只不过是一种营销策略。人工智能市场状为90%营销和10%现实」。
商汤执行董事徐冰最新访谈：商汤最近在做什么？数万亿的AI投资能回本吗？（2024年11月04日）
- 现在我们的主要任务是建设AI云，做足准备确保公司能向通用人工智能扩展（scale AI to AGI）。
- 现在我们最大的AI云已经接入了超过5万个GPU
- 至于商汤，我们是独立于互联网巨头之外的（字节跳动、阿里巴巴、腾讯和百度），唯一一个大型 AI 云平台
震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞（2024年11月05日）
- 几天前的OpenAI伦敦开发者日上，来自20VC的Harry Stebbings，与Altman开启了线上对谈。
- 他再次强调了，如果企业正在开发一个工具，是为了绕过某个模型的缺点，那么这个工具很快就会被淘汰掉。（可能在OpenAI下一代模型中自然就解决了。）
- 在人们认知误区上，Altman称更多的是我们都还没有直觉去理解在未来世界里AI智能体会是什么样子。
- 比如，不是让AI智能体给一家餐厅打电话订餐， 而是让它同时联系300家餐厅，并找出哪一家对你来说最特别的。不仅如此，在300个地方可以接电话的也是智能体。它可以进行人类无法做到的大规模并行操作。
- Q：通常SaaS是按用户数量收费，但现在AI智能体实际上是在替代人力。考虑到AI智能体可能成为企业劳动力的核心部分，你如何看待未来的定价模式？
- A：对此，Altman推测道，你可以选择使用1个、10个或100个GPU来持续处理问题。这不是按用户数或按智能体数收费，而是基于持续为你工作的计算量来定价。
- Q：你如何看待OpenAI模型如何随着时间的推移继续保持差异化，以及你最想关注哪些方面来扩大这种差异化？
- A：推理是OpenAI目前最重要的关注领域。多模态工作，以及在模型中加入其他对用户非常重要的功能。
- 团队能够反复去做一些全新的、完全未经证实的事情。这是推动人类进步最重要因素之一。
- 关键是要找到适合公司文化和发展阶段的人才。
- 他表示，自己当然会遇到一些无法理解的模型行为，如失败的训练尝试等等。每当我们接近一个技术范式的极限，都必须开辟新的道路。
- Altman表示，人们确实经常用电力来类比AI，但我认为这在很多方面都说不通。如果非要做类比的话，我认为晶体管可能是一个更好的例子。整个科技行业都从晶体管技术中受益。你使用的产品和服务中涉及了大量晶体管，但你并不会把这些公司看作是「晶体管公司」。同样，未来AI可能会无处不在，但不是每个使用AI的公司都会被称为「AI公司」。
- 科学进步不断超出所有人的预期，而社会变化相对缓慢。当然，从长远来看，社会终究会发生巨大的变化。
明星飞行汽车破产，烧光100亿仍难载人试飞…（2024年11月05日）
- 曾估值235亿的独角兽 Lilium（德国），扛不住了。
- 成立9年以来，Lilium累计筹集了14.5亿美元（约103亿元）的资金，腾讯是主要投资人之一。
- 破产的消息在低空领域炸响，任谁都想不到，这家曾被称为低空领域“特斯拉”的公司，没落速度如此之快，甚至就在四个月之前，Lilium才刚刚在中国开了分公司。
- eVTOL 是 Electric Vertical Takeoff and Landing 的缩写，即电动垂直起降飞行器，是一种采用电力驱动、能够垂直起降的新型城市空中交通工具
手机秒拍动画大片，高级运镜效果惊人！Runway两弹更新，火得一塌糊涂（2024年11月05日）
- Gen-3 Alpha 新近连发了两个新功能：可将真人面部表情精确复刻给AI角色的Act-One，以能够实现3D化的AI摄像头控件。
- Act-One还可以创建多轮对话场景。毫不夸张地说，只要有摄像机，一个人，就可以演一台戏！
- AI摄像头控件，用户可以任意选择在场景中移动的方向、角度、速度，将各种相机移动方式和速度变化相结合。
聊聊自动驾驶中的自动标注（2024年11月05日）
零一万物战略骤转！国内聚焦toB，toC先走海外（2024年11月06日）
- 如果只是执着地把所有资源都用来购买芯片，去烧更大的模型，最后应用没有做起来，带来的生态是相对不健康的。
自动驾驶公司扎堆IPO，回报投资人的时候到了（2024年11月06日）
- 地平线和文远知行
- 抽屉协议是私下签订的协议，通常只有协议双方知晓，类似于被放置在抽屉里，不轻易向外界透露
长远看算法岗真的比开发岗香吗？（2024年11月07日）
- 尤其是这几年大陆，芯片行业爆发，很多公司都开始投入去做芯片，殊不知芯片行业是一个非常烧钱的行业，投入巨大，如果没有核心竞争力，很容易血本无归，这个时候就需要优秀的算法工程师，设计具有差异化的算法，才有可能做出性能优异的产品。
- 你就是块砖，哪里需要哪里搬，不好用就扔，你觉得不爽就跳，跳也不成就转行，就这么几个分支而已
国产AI可以拍微电影了！4K、60帧高清画质，自带音效（2024年11月08日）
- 正是智谱刚升级的新清影，电影级效果、模型能力全面提升、自带音效
- 文本生成（GLM）、图像生成（CogView）、视频生成（CogVideoX）、音效生成（CogSound）、音乐生成（CogMusic）、端对端语音（GLM-4-Voice）、自主代理（AutoGLM）。
无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点（2024年11月08日）
- 自动驾驶汽车 Waymo 8月份在旧金山的日均服务单量已超8800单，远超同期的出租车工作日日均6307单。
- 今年3月起，Waymo在旧金山半岛扩大了服务范围。紧接着6月再次获批，在旧金山全域开放无人驾驶出行服务。
- 谷歌母公司 Alphabet 还在加大对 Waymo 投资，为进一步扩张，研发自动驾驶技术注入新的动力。
- 面对 Waywo、特斯拉等「洋萝卜」的奋起直追，中国「土萝卜」还需要跑得更快，飞得更高。
真·打字P图！字节发布新模型SeedEdit，一句话爆改世界名画，可免费体验（2024年11月11日）
- 照片上色、删除
- Shi Y, Wang P, Huang W. SeedEdit: Align Image Re-Generation to Image Editing[J]. arXiv preprint arXiv:2411.06686, 2024.
怎么才能优雅地向博士导师表达「这周科研没什么进展」？（2024年11月11日）
又一家新势力危了！引入华为技术却没能拯救…（ 2024年11月12日）
- 远航汽车，大运集团旗下的高端新能源品牌。
- 风驰天下大运摩托
- 大运董事长远勤山曾表示过，远航不需要太多技术，自己搞先进技术，可能十年也赶不上博世、华为现在的水平，所以要把最优秀的融合在一起，直接买来再整合。
- 一步慢步步慢，远航H8搭载的是高通8155芯片，而零跑、银河等车型，已经搭载了算力更强的高通8295芯片
国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代（2024年11月14日）
- 生数科技推出的 Vidu 1.5，成为世界首个支持多主体一致性的多模态模型！
- 只要上传多个角色、物体和地点的图片，就能立即生成每个物体一致的场景，人手制作一部大片的时代真的来了吗？
- 这标志着，视觉模型进入了全新的「上下文」时代，AGI离我们更近了。
AI毒液刷屏抖音小红书！闲鱼10元代生成一次，但官网其实免费（2024年11月10日）
PixVerse V3，来自国内AI视频公司爱诗科技。
当审稿人给的意见，你无法修改的时候怎么办？（2024年11月11日）
- Modify the paper
- Teach the reviewer something new
- Out of scope
- 感谢您的建议，这正是我们未来需要努力的方向，我们也正在进行这方面的工作，您将在我们未来的工作中看到这方面的研究
Scaling Laws终结，量化无用，AI大佬都在审视这篇论文（2024年11月13日）
- 研究发现，在较低精度下训练模型（例如INT3和INT4）会导致较高的损失，而随着精度的提高，损失会减少；同时，随着模型规模的增加，损失也会减少。
- 直觉可能是，当你训练更多的数据时，更多的知识被压缩成权重，给定的扰动会对模型性能造成更大的损害。
- 推理时使用较低精度（例如INT3和INT4）会导致性能下降，即损失的增加；而随着精度的提高，损失会逐渐减少，接近没有进行后训练量化的模型性能。
自动驾驶界秋名山车神！CoRL杰出论文让自驾车学会漂移，机器人整出新活（2024年11月13日）
CoRL 是“Conference on Robot Learning”（机器人学习会议）。这是一个专注于机器人学习和相关领域（如机器学习、控制理论、计算机视觉等）的学术会议

在丰田 Supra 和雷克萨斯 LC 500 上进行的大量实验表明，在不同路况下使用不同轮胎时，单一扩散模型可使两辆车实现可靠的自动漂移
刚刚，谷歌宣布35岁Keras之父Francois Chollet离职（2024年11月14日）
单刷CVPR的男人——Xception，深度学习的启蒙老师之一
大模型应用，有哪些简单却巧妙的上分方法？（2024年11月15日）
客观比不过比主观，主观比不过 cherry pick
不做Sora背后：百度的多模态路线是什么？（2024年11月16日）
iRAG巧妙地将认知智能（检索）与生成智能（创作）结合在一起，取长补短，相得益彰。
如今百度“曦灵”数字人、“慧播星”数字人已广泛应用于新闻播报、直播电商等场景。
生成证件照，https://github/Zeyi-Lin/HivisionIDPhotos
目标检测和感受野的总结和想法（2024年11月16日）
实际感受野依然是一个超参数，他是会随着训练的过程发生变化，我们无法准确计算出来实际感受野，但是通过分析anchor，实际感受野和理论感受野，我们知道了anchor<实际感受野<理论感受野，所以anchor还是会被理论感受野的大小所限制
Luo W, Li Y, Urtasun R, et al. Understanding the effective receptive field in deep convolutional neural networks[J]. Advances in neural information processing systems, 2016, 29.
实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定（2024年11月17日）
- 背靠腾讯独家的公众号、视频号等高质量内容，元宝搜索的结果非常详细
- 这次元宝2.0更新的另一个亮点是集成了腾讯文档、电脑管家和输入法，各应用生态全部打通！
- 当运行了电脑管家之后，AI助手就会默认在后台运行，你可以在上网冲浪的时候随时搜索、解释或翻译任意关键词。
怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了（2024年11月17日）
Grok 3证明黎曼猜想，训练遭灾难性事件？数学家称不夸张，两年内AI将解出千禧年难题（ 2024年11月18日）
Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习（2024年11月18日）
- OpenAI 创始成员、研究科学家、原特斯拉前 AI 高级总监、AI 领域的大神 Andrej Karpathy 一直在后悔。后悔自己没有早点带领 OpenAI 开创大模型时代。
- 表征学习，也称为特征学习，在机器学习领域中占据着重要的地位。它是一种将原始数据转换成为能够被机器学习有效开发的数据的技术集合。常用的方法包括主成分分析（PCA）、独立成分分析（ICA）、自动编码（Auto-encoders）、矩阵分解、各种聚类分析及其变形等。
对标o1，Kimi放出了最能打的国产模型（2024年11月18日）
Kimi 的最新一代推理模型 k0-math，在数学能力已实现对标 OpenAI o1-mini 和 o1-preview。
逼真到离谱！1000个人类「克隆」进西部世界，AI相似度85%细节太炸裂（2024年11月19日）
- 通过招募1052名参与者，涵盖了不同性别、年龄、地区等，每人接受GPT-4o采访了2个小时。
- 然后将得到的访谈内容作为文字提示，输入语言模型中，复刻出每个个体对应的AI智能体。
- 所有智能体在综合社会调查中的回答，与原参与者两周后自我复现答案准确率接近85%，并在人格预测、实验复制中表现与人类相当。
登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做（2024年11月19日）
- 2020 年，谷歌发表了预印本论文《Chip Placement with Deep Reinforcement Learning》，介绍了其设计芯片布局的新型强化学习方法 AlphaChip。在 2021 年，这项研究发表在 Nature 上并开源了出来。
- 此后，AlphaChip 激发了 AI 芯片设计方面的大量工作，并在谷歌母公司 Alphabet 三代 TPU、数据中心 CPU 和其他芯片中部署，并由外部芯片制造商扩展。
- https://github/google-research/circuit_training
腾讯AI大牛，被曝投身视频生成创业（ 2024年11月19日）
刘威——腾讯杰出科学家、腾讯混元大模型技术负责人之一，腾讯 AI Lab 早期的三剑客

创业公司，Video Rebirth，视频生成，行业内有快手可灵、爱诗科技、生数科技等团队的AI视频应用
「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini（2024年11月20日）
- 刚刚，国际权威榜单LiveBench最新榜单出炉，一个国产黑马闪耀其中。没错，它就是阶跃星辰自研的万亿参数大模型Step-2。Step-2以碾压之势，强势杀入LiveBench全球前五，一举夺得国内TOP 1。
- 值得一提的是，LiveBench 是由图灵奖得主Yann LeCun联手Abacus.AI、NYU、英伟达等多家机构推出的LLM评测基准。其含金量，不言而喻。而且，它被行业誉为「世界上第一个不可玩弄的LLM基准测试」。
- 阶跃星辰创始人、CEO姜大昕博士表示，模型扩大到万亿级别时，MoE几乎是必选项，这是权衡了性能、参数量、训练成本、推理成本等各个维度后的最佳选择。
国产4o大模型，秒懂国风李子柒（2024年11月20日）
昆仑万维的Skyo，基于天工大模型4.0 4o版（Skywork 4o）打造。
实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍（2024年11月20日）
昆仑万维开发的 Skyo 实时语音对话助手，Skyo 基于背后的天工大模型 4.0 4o 版（Skywork 4o）打造
美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国（2024年11月20日）
3名高中生中了AI顶会NeurIPS！来自人大附中、北师大实验中学、上海星河湾双语学校（2024年11月20日）
大会一共收到了全球高中生提交的330个项目，最终，评出4篇获奖论文，21篇Spotlight，7.5%的中奖率一点不亚于硕士博士的竞争激烈程度。
AI版周扒皮！打字速度慢、鼠标超30秒未动，就被AI「警告」，Karpathy下场评论（2024年11月24日）
GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医（2024年11月25日）
除了「GAN」之父的名号，他还是「花书」的作者，这本书原名就叫做「深度学习」
Goodfellow在斯坦福大学计算机科学系读完了本科和硕士，师从AI大牛吴恩达。
博士生涯，就读于加拿大蒙特利尔大学，师从Yoshua Bengio 和 Aaron Courville，
AI推演OpenAI内斗结果：奥特曼仅有20%胜率，马斯克也有机会接盘？？？（2024年11月25日）
和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情（2024年11月25日）
- 11 月 23 日，香港科技大学举行了今年度的学位颁授典礼。英伟达创始人和 CEO 黄仁勋又新增一个荣誉工程学博士头衔，与他一同获得荣誉博士学位的还有著名影星梁朝伟、2013 年诺贝尔化学奖得主 Michael Levitt、菲尔兹奖得主 David Mumford。
- 我们需要后训练，也就是深入学习特定技能的过程。后训练涉及强化学习、人类反馈、人工智能反馈、合成数据生成、多路径学习等多种技术。
- 核心在于，你开始进入一个特定领域的深度学习，试图深入理解其中的某些内容。这就是后训练的过程。一旦你选择了一份职业，你会再次进行大量的学习。
- 然后，在后续阶段，就到了我们所说的 「思考」。这可以被称为 test time scaling。在这个阶段，有些问题的答案可以直截了当地知道，而有些问题则需要你将其分解，逐步追溯到第一性原理，再从原点出发，为每个问题找到解决方案。这可能需要你进行迭代，可能需要你分情况讨论，模拟不同的结果。
博世将裁员5500人，汽车行业寒冬来了？（ 2024年11月26日）
大模型创业太累大牛逃回大厂：融资1亿美金捉襟见肘，没日没夜加班胖了30斤（ 2024年11月26日）
Yi Tay，曾是Reka AI联合创始人，也曾是谷歌大模型PaLM、UL2、Flan-2、Bard的重要参与者。
2024全球无人机市场洞察报告（ 2024年11月27日）

微型化、高速长续航化、智能化
遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度（2024年11月27日）
- Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.
- 百度，Hestness J, Narang S, Ardalani N, et al. Deep learning scaling is predictable, empirically[J]. arXiv preprint arXiv:1712.00409, 2017.
周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代（2024年11月28日）
- 11月初，ChatGPT正式推出AI搜索体验，成为一款搜索引擎；11月中，奥特曼正式官宣ChatGPT新域名——chat，据称为此豪掷了1500-2000万美金。
- 我们可以根据其中的「AI含量」将路线简单分为三个阶段——1.0（网页搜索引擎）、2.0（答案生成引擎）、3.0（多模态创作引擎）。
- 拍照问问
当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘（2024年11月28日）
男生看见雷军路过，直接冲过去递简历，结果…（2024年11月28日）
吴恩达出手，开源最新Python包！助力开发者大模型开发！（2024年11月29日）
pip install aisuite
统一接口设计，支持多个 AI 提供商的模型
当前，aisuite 支持的提供商包括：OpenAI、Anthropic、Azure、Google、AWS、Groq、Mistral、HuggingFace、Ollama
端到端已来，智驾仿真测试该怎么做？（2024年11月29日）
过去，智能驾驶方案一直是按照感知、决策、规划、控制这类规则驱动（rule-based）的模块化方法推进，然而规则驱动的模块化方案存在“规则难以穷举、ODD边界模糊、扩展与维护升级困难”等局限性。因此端到端的学习驱动（learning-based）方案应运而生。
美芯片新禁令下周出台，100+公司或列入实体清单！（2024年11月29日）
深入浅出，算法工程师的职业生涯发展之路（2024年11月30日）
- 夯实技术基础阶段（工作1-3年）
- 解决业务问题阶段（工作4-5年）
- 提升软实力阶段（工作6-8年）
- 扩大影响力阶段

12、December

腾讯AI视频生成曝光！与Sora同提示词PK，你来投票（2024年12月01日）
提示词：一只大象站在漂浮在蓝色水面的白色轻薄床单上来回踱步。
你说AI它懂物理吧，大象这么重压上去居然不沉底？但你说他不懂物理吧，床单被踩出的褶皱好像又是那么回事。
2024年AI投资138亿美元暴增6倍！OpenAI市场份额下降16%，Anthropic谷歌双赢（ 2024年12月01日）
设计模式：RAG（Retrieval-Augmented Generation），而非微调
RAG的工作流程通常包括以下几个步骤：
- 检索：根据用户的查询内容，从外部知识库中检索出最相关的文档或段落。这一步通常使用各种搜索引擎技术，如倒排索引、向量检索等，以确保快速且准确地找到相关信息。
- 增强：将检索到的相关信息与用户查询一起嵌入到一个预设的提示词模板中，以增强模型对特定问题的理解和回答能力。
- 生成：将经过检索增强的提示词内容输入到大型语言模型中，以生成所需的输出。这一步通常利用预训练的序列到序列模型，如T5、BART等，来生成连贯、准确且信息丰富的回答或文本。
马斯克全力阻止OpenAI转盈利！已向法院申请禁令，奥特曼：我和爱人休假盖树屋（2024年12月01日）
吉利系智驾或再将整合（2024年12月03日）
Smart汽车（奔驰和吉利）与极斯的智驾团队正在接触，未来双方在智驾上或许有合作的可能性。
Smart汽车与极斯同时作为吉利旗下的整车品牌，随着吉利最近大规模整合旗下各个整车品牌，Smart汽车与极斯在智驾方面合作的可能性非常高。
腾讯版Sora发布即开源！130亿参数，模型权重、推理代码全开放（ 2024年12月03日）
目前该模型已上线腾讯元宝APP，用户可在AI应用中的“AI视频”板块申请试用。
HunyuanVideo
“云计算一哥”一口气发布6个大模型、3nm芯片！多模态还要搞Any-to-Any（2024年12月04日）
亚马逊CEO Andy Jassy 亲自站台 re:Invent24，发布自家新款AI多模态系列大模型，名曰 Amazon Nova。

将来我们不仅要Speech to Speech，更要Any-to-Any！

洞悉了背后的实用主义逻辑，也就不难理解，亚马逊云科技为何选择在这个时间节点上发布一系列多模态大模型，还是因为客户有需要。这种需要，具体而言，就是客户在模型上的选择，毕竟“没有一个模型可以一统天下”，每个模型都有自己所擅长的领域。
高中辍学天才、谷歌ViT三大将集体跳槽OpenAI！组队Sora决战AGI2024年12月05）
OpenAI从谷歌DeepMind挖走了3名顶级工程师！
2020年曾一起提出了神经网络架构Big Transfer (BiT)
2021年作为共同一作发布的论文 ViT
豆包代码大模型曝光！在字节最新开源基准里，多种编程语言性能仅次于OpenAI/Claude（2024年12月05日）
Doubao-Coder

解决难题，闭源模型普遍优于开源模型
Liu S, Zhu H, Liu J, et al. FullStack Bench: Evaluating LLMs as Full Stack Coder[J]. arXiv preprint arXiv:2412.00535, 2024.
罕见！云计算一哥CTO，现场不发产品只讲教训（2024年12月06日）
亚马逊云科技的CTO——Werner Vogels
Innovation Driven by Customer Needs.
Lesson1：未雨绸缪
Make evolvability a requirement.
Lesson2：化繁为简
Break complexity into pieces.
Lesson3：各司其职
Align organization to architecture.
Lesson4：小而精美
Organize into cells.
Lesson5：未卜先知
Design predictable systems.
Lesson6：机器代劳
Automate complexity.
哪吒CEO张勇又曝离职！去大力牛魔王造货车了 (2024年12月07日)
加盟物流商用车品牌“大力牛魔王”
把机器人做成人形，意义何在？（2024年12月07日）
- 马斯克做人形机器人的最底层原因是第一性原理。根据第一性原理，首先，机器人做成人形就能用人的视频数据训练机器的AI，其次，人类的工具都是适应人的。
- 人型机器人最强的优势，那就是其实它可以是一个人的“数字孪生”
OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜（2024年12月07日）
- OpenAI“双12”直播第二天
- 新功能强化微调（Reinforcement Fine-Tuning），使用极少训练数据即在特定领域轻松地创建专家模型。少到什么程度呢？最低几十个例子就可以
- 目前OpenAI内部测试中，强化微调在生物化学、安全、法律和医疗保健领域取得成功。
严禁AI评审！CVPR 2025重申大模型审稿0容忍，一首拒稿小诗爆笑全场（2024年12月08日）
曾硬刚小米，估值 60 亿美元的独角兽被宣布破产！（ 2024年12月09日）
PMF（Product Market Fit），指的是产品市场匹配度
2014年，柔宇科技率先成功开发0.01毫米全球最薄柔性显示屏引发行业关注。
2015年7月，柔宇科技正式启动了世界上首条超薄柔性显示模组和柔性传感器的量产线。
产线投产后仅5个多月，柔宇科技便发布了全球第一款可折叠柔性屏手机FIex Pai柔派手机，8999元起售。
o1 pro挑战美国本科生最难数学竞赛，30分钟交卷却被「大佬」现场打脸！（2024年12月09日）
美国本科生最难数学竞赛，o1 pro竟然只用半小时就全部做出来了？要知道，参赛学生的正常答题时长是6小时。不过网友们仔细看它的解题过程后发现，错误率似乎高达100%，12道题没有一道完全正确？
哪吒CEO张勇确认下岗！实控人走到台前，全员持股，出海求生（2024年12月09日）
张勇长期在销售一线打拼，曾用4年的时间把北汽新能源的年产销量从0做到了15万台。让北汽新能源成为了国内首家销量突破10万的纯电动车企。
2022年1月，张勇带领哪吒汽车实现累计销量10万辆，同年10月，累计销量达到20万辆，整个2022年，也是哪吒汽车的高光时刻，以年销15.21万辆的成绩力压蔚小理成为新势力销冠。
Scaling Law不是唯一视角！清华刘知远团队提出大模型“密度定律”：模型能力密度100天翻番
- 清华NLP实验室刘知远教授团队，最新提出大模型的密度定律（densing law），表达形式让人想到芯片领域的摩尔定律：
- 大约每过3.3个月（100天），就能用参数量减半的模型达到当前最先进模型的性能水平。
- 模型高性价比有效期不断缩短。
被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！（2024年12月10日）
大众集团爆发大罢工！员工挤满总部广场，9大工厂停产（2024年12月10日）
Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩（2024年12月10日）
Plus会员（每月20刀）和Pro会员（每月200刀）的权益不一样。
Sora火爆上线系统秒瘫，奥特曼直播第三更网友震翻！20秒1080p拍大片再近AGI（2024年12月10日）
Sora Turbo
这次，OpenAI着重介绍了Sora的几项功能：Remix（重混）、Re-cut（重新剪辑）、Storyboard（故事板）、Loop（循环）、Blend（混合）以及Style presets（风格预设）。
大模型「标王」硬气：不做Sora ，要帮更多企业做出Sora（2024年12月10日）
「 Sora 这种，无论多火，百度都不去做。」公开场合谈及此，李彦宏态度明确。
百度要做的是基建，帮更多用户做出自己的 Sora ，打造无数个「超级有用」的多模态应用。
大模型训练的本质是什么？以及大模型训练的核心要点（2024年12月10日）
目标函数优化
数据驱动学习
高纬空间的拟合
泛化和正则化
计算资源和分布式计算
最终目标
Sora/可灵/海螺/混元等大PK！多场景对比，现在谁是最强视频生成模型？（2024年12月11日）
诺奖青睐AI的这一年，这些人工智能公司&人物&产品值得关注（ 2024年12月11日）
一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明（2024年12月11日）
引用超85000次的经典论文 GAN 获 NeurIPS 2024时间检验奖后，它的起源和背后故事也被抛了出来。
Robotaxi全球三强之一突然倒下：烧光700亿落地百余辆…（ 2024年12月12日）
Cruise，这家自动驾驶赛道曾经的明星独角兽，和Waymo、百度Apollo并列三强的Robotaxi玩家，烧光700亿后，走向自己的终局。
Waymo、Apollo的落地进展，以及小马、文远等等L4玩家成功上市，也说明无人驾驶正在迎来新又一波高潮。
Cruise的退出，反倒更好的证明，L4从技术体系、落地场景、商业模式、运营管理等等，都是和L2+完全泾渭分明的另一桩生意。
贾樟柯李少红都用AI拍电影了，还传递经验：哪个功能最实用？（ 2024年12月12日）

快手可灵。联手国内最知名的9名影视工作者：李少红（《大明宫词》）、贾樟柯（《三峡好人》）、叶锦添（《英雄本色》）、薛晓路（《不要和陌生人说话》）、俞白眉（《战狼2》）、董润年（《年会不能停！》）、张吃鱼（《独行月球》）、王子川（《朱同在三年级丢失了超能力》）、王卯卯（“兔斯基”原创者）。每人和AIGC创作者打配合，用可灵生成，各AIGC了1部3-5分钟的电影短片，涵盖奇幻、志怪、亲情、动画等多种类型。
Meta公布黑科技：戴上腕带即可隔空打字，引领神经接口AR革命（2024年12月13日）
- Sivakumar V, Seely J, Du A, et al. emg2qwerty: A Large Dataset with Baselines for Touch Typing using Surface Electromyography[J]. arXiv preprint arXiv:2410.20081, 2024.
- https://github/facebookresearch/emg2qwerty
Ilya宣判：预训练即将终结！NeurIPS现场沸腾（2024年12月14日）
继李飞飞、Bengio、何恺明之后，在刚刚的NeurIPS 2024中，Ilya Sutskever最新演讲也来了。
在谈到未来的发展方向时，Ilya提到了“Agent”和“合成数据”的概念。
李飞飞、Bengio和何恺明在NIPS干了什么！（2024年12月15日）
From Seeing to Doing
直击CCAI大会：院士专家舌战激辩，20个AI案例C位出道，海淀无愧AI科技“梦工厂”（2024年12月15日）
众所周知，海淀区素有“中国硅谷”之称
从骁龙8至尊版，我看到了AI手机的未来 | 智在终端（ 2024年12月17日）
CPU+GPU+NPU
在猛攻性能的基础之上，高通在这一代骁龙旗舰芯片上，又着重强调了性能与功耗的平衡。
和腾讯混元的合作中则提到，双方将基于骁龙8至尊版共同推动混元大模型7B和3B版本的终端部署。
Pika 2.0横扫Sora惊艳全网，一键颠覆广告业！上传自拍秒变好莱坞大片，和明星同框不是梦（2024年12月18日）
新增的「场景元素」功能了。我们可以随意上传自己想要的角色、物体、服装、地点和场景设置，来创建想要的镜头。

如今，巴黎世家、Fenty、Vogue在内的主要品牌，都已经利用Pika模型生成创意的社交广告。
图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈（2024年12月20日）
作为「全球自动驾驶第一股」，图森未来在 2021 年成功登陆纳斯达克

陈默直言，L4 级自动驾驶要实现商业化，必须在营运成本上比人工驾驶更有优势，而这一点在当前技术和市场环境下遥遥无期，因此图森转向动漫游戏，正是看中了该市场的盈利能力和持续增长潜力。

做不到让单车成本低于传统人工驾驶

对于 L4 级无人驾驶，如果有公司能率先成功，一定是特斯拉。因为特斯拉是唯一同时掌握软硬件的公司，既有自己的车，又有自己的软件，而且因为销量大，对供应商的议价能力很强。

大模型只是一个工具，它可以应用在各个行业，目的和无人驾驶一样，都是为了降低成本。

机器之心：那现在的图森未来是一家什么公司？

陈默：是一家利用人工智能技术做动漫游戏的公司。
o3 发布了，摔碎了码农的饭碗（2024年12月23日）
为什么不是 o2？因为为了避免版权纠纷，OpenAI 放弃了 o2 的命名，直接叫 o3。
o1 仅仅是验证了 LLM+RL 的范式是跑的通的，但我们并没有认真玩儿。o3 呢，就是用这个范式认真玩儿了，通过 scaling up 的方式来把 LLM+RL 的范式真正的威力给训了出来。
苹果要做智能门铃了？？？（2024年12月23日）
据古尔曼报道，这款新的智能门铃将配备公司的 Secure Enclave 芯片，它专门负责存储和处理 Face ID 信息，与系统其他硬件分开，处理逻辑和其他苹果设备上的生物识别登录信息类似。
昆仑万维方汉：大模型的技术红利在消退，商业模式创新者将成赢家 | MEET 2025（2024年12月23日）
- 昆仑万维董事长兼CEO方汉
- 《智能边界：AI大模型如何推动应用创新》为主题分享了他的所见所闻、所思所想
- 天工大模型1.0->4.0
- 大家可以看到，现在在全球市场上疯狂买量的AI企业一定是中国企业，因为所有的中国企业都在拼命地打磨自己的产品的盈利模式，而不是像美国同行一样有充足的资金去做更深层的工作。
深度学习工作：从追求 SoTA 到揭示新现象（2024年12月25日）
总之我希望社区看这些工作的时候，不要过多讨论 xxx 是不是通往 AGI（通用人工智能）的路子，以及 xxx 的本质是不是就是 xxx，而是分享我们能从新方法看到什么新现象。新的现象才孕育着新的可能
微软开源视觉语言模型！能够执行超过10种不同的视觉任务，检测、分割、识别一切图片（2024年12月25日）
- 最近，Microsoft 推出多模态视觉语言模型 Florence-2，能执行超10种视觉任务，如图像字幕、目标检测等，通过统一表示简化多任务处理，依托FLD-5B数据集实现高精度，采用seq2seq架构提升学习效率
- 可将不同类型的视觉信息和语言信息包括图像描述、目标检测、视觉定位和分割等，整合到一个统一的框架中，帮助模型在不同的任务之间共享知识，提高学习效率。
- 代码链接: https://huggingface.co/microsoft/Florence-2-large
- 在线演示：https://huggingface.co/spaces/gokaygokay/Florence-2
- 上传一张超市货架的照片，让其精准找出牛奶的所在位置。
  上传一张公园里的照片，让模型给该图像起一个对应的标题。
  上传一张果园果树的照片，让模型解释一下该果树上有多少可摘的水果。
英伟达年终大礼，最强AI GPU曝光！全新B300让o1/o3推理性能上天算力爆表（2024年12月27日）
距离GB200和B200的发布才刚刚过去几个月，英伟达便推出了全新一代的AI GPU——GB300和B300。
不过，老黄手里还有一张「绝对王牌」——NVLink。NVL72在推理领域的核心优势在于，它能让72个GPU以超低延迟协同工作、共享显存。而这也是全球唯一具备全连接交换（all-to-all switched connectivity）和全规约运算（all reduce）能力的加速器系统。
突发！OpenAI官宣成为盈利性公司（2024年12月27日）
- 非营利性架构似乎很合适，于是我们通过多种形式筹集捐款，包括现金（1.37 亿美元，其中不到三分之一来自埃隆・马斯克）以及计算额度和折扣（从亚马逊获得 180 万美元，从微软 Azure 和谷歌云各自获得 5000 万美元或更多）。
- 选择一种对使命的长期成功最为有利的非营利 / 营利性架构。
沉淀·静水流深——机器之心2024年度AI榜单揭晓（2024年12月27日）
吹哨人之死：26岁OpenAI举报人离奇自杀，母亲心碎曝出惊人内幕！（2024年12月27日）
- Suchir Balaji
- 11月26日，Balaji 刚刚度过自己的26岁生日。这个前途大好的年轻工程师，在自己的公寓中被发现死亡。
- 在OpenAI任职近4年期间，Balaji 展现出了卓越的才能，从中脱颖而出。在此期间，他参与了ChatGPT后训练阶段的研发，以及o1推理、GPT-4预训练，和WebGPT强化学习过程。
- 在OpenAI，Balaji曾帮忙收集和整理互联网上的数据，用于训练模型。但他认为这种做法不公平，于是在8月辞去了公司职务。
- Balaji所持有的OpenAI股票，足够他在日后购置一套房产，经济上完全没有后顾之忧。
- 他举报说这些AI科技巨头可能正在违反版权法。
2年间AI大模型成本骤降万倍，商业化应用加速跑｜智谱张帆@MEET2025（2024年12月27日）
- 本次量子位MEET 2025智能未来大会上，智谱COO张帆热情分享了智谱大模型的发展、应用、商业化发展、未来方向，以及企业和个人的科技战略构建。
- 记得去年刚刚开始做商业化的时候，智谱当时还是5毛钱1000个tokens，但今天最低已经到了5分钱100万个tokens——这是1万倍。一条曲线是能力上升，一条曲线是成本下降，带来的是什么？带来技术能力快速地落地和应用，这是背景。
雷军千万年薪挖角95后天才少女，AI女神逆风翻盘！（2024年12月29日）
雷军再次出手，以千万级薪酬招揽 DeepSeek 核心研究员、95后AI天才罗福莉。这位曾在国际顶会一次性发表8篇论文的技术大牛，有望领军小米AI大模型团队。
你还说这是AI？我们体验了一波生成亚洲人最好看的文生图大模型（ 2024年12月29日）
- 在 2024 年的尾声，可灵 AI 给所有用户送上了新年大礼包：全新的「可图 1.5」和「可灵 1.6」，目前已全量上线。
- 让这位 AI 模特换上指定款式的服装，再使用一下可灵图生视频功能，一条精美的服装展示视频这不就有了吗？
- 自今年 6 月发布以来，可灵 AI 至今已服务超过 600 万用户，生成 1.75 亿张图片和 6500 万个视频。
谷歌劈柴立军令状：必斩OpenAI，夺回第一！（2024年12月29日）
- 谷歌CEO劈柴在年度战略会议上放出狠话，2025年将是AI领域生死存亡之年。一场足以改变AI未来走向的巅峰对决，即将在2025年全面打响。
- OpenRouterAI的数据显示，谷歌旗下的 Gemini 在开发者中的市场份额从9月份的约5%，直接飙升至>50%市场份额，遥遥领先，连带股价也上涨了14%。
DeepSeek V3“报错家门”：我是ChatGPT（2024年12月29日）
「少数派」小马智行：不神化端到端，也不吹商业化（2024年12月29日）
- 公司副总裁、Robotaxi业务负责人张宁曾多次表示，L2和L4是两个不同的物种，是在不同的约束条件、指标、标准下诞生的产品，它们的纲领性思想也是不同的。
激光雷达会被智能汽车抛弃吗？（2024年12月30日）
一张图生成高质量广视野3D场景，还可控制摄像轨迹（2024年12月30日）
- Liang H, Cao J, Goel V, et al. Wonderland: Navigating 3D Scenes from a Single Image[J]. arXiv preprint arXiv:2412.12091, 2024.
- https://snap-research.github.io/wonderland/
拿下近3亿元融资后，爱诗上线新模型，AI视频生成速度杀入10秒大关（2024年12月30日）
- PixVerse3.5
考研数学得126分、还能编写小游戏，智谱首个推理模型来了，人人免费用（2024年12月31日）
- GLM-Zero 的初代版本 GLM-Zero-Preview，主打深度思考与推理。
- 回看这一整年，智谱动作不断，GLM 家族更加壮大，包括基座模型、多模态模型、视频生成模型、语音模型、推理模型以及智能体方面火出圈的 AutoGLM、GLM-PC，如今这家大模型独角兽的产品矩阵在完整度层面称得上业界领先。
汽车智能座舱分级与综合评价（2024年12月31日）

文章目录

1、January
2、February
3、March
4、April
5、May
6、June
7、July
8、August
9、September
10、October
11、November
12、December

1、January

2、February

今天起，他是黄仁勋院士！2024美国工程院院士名单出炉，清华黄翊东等当选外籍院士（2024年02月07日）
2024年美国工程院新晋院士名单公布！
根据官方介绍，美国国家工程院选出了114名新晋院士，以及21名外籍院士。这使得美国成员总数达到2310人，外籍成员总数达332人。
「大模型变小」成年度大趋势！1月AI四大研究精彩亮点超长总结，模型合并MoE方法是主流
AI大模型并非越大越好？过去一个月，关于大模型变小的研究成为亮点，通过模型合并，采用MoE架构都能实现小模型高性能
出圈的Sora带火DiT，连登GitHub热榜，已进化出新版本SiT（ 2024年02月21日）
其中，Sora 研发负责人之一 Bill Peebles 与纽约大学助理教授谢赛宁撰写的 DiT（扩散 Transformer）论文 《Scalable Diffusion Models with Transformers》 被认为是此次 Sora 背后的重要技术基础之一。该论文被 ICCV 2023 接收。
https://github/facebookresearch/DiT
Peebles W, Xie S. Scalable diffusion models with transformers[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 4195-4205.

《SiT: Exploring Flow and Diffusion-based Generative Models with Scalable Interpolant Transformers》。

3、March

Sora外部测试翻车了！3个视频都有Bug（ 2024年03月01日）
不仔细看还真看不出来（类似找穿帮镜头）

4、April

一句话打造Agent！李彦宏：人人都是开发者的时代到来（2024年04月16日）
文心智能体平台，Agent Builder 就是基于文心大模型4.0能力的智能体构建平台，中文名字叫“文心智能体平台”。
现在，在官网体验中心，已经有不少智能体可供参考。
既有创意类型的各种“绘画大师”，也有能直接上岗工作的“新媒体小编”，创作、娱乐、职场、学习、生活等各个垂类均可覆盖。——“知乎回答器”、“小红书文案创作”
AI换脸以假乱真！蚂蚁数科发布反DeepFake产品，还设百万奖金池邀请黑客找bug（2024年04月16日）
- ZOLOZ Deeper，蚂蚁数科ZOLOZ出品。我们日常的支付宝刷脸支付，正是依托于他们技术支撑。
- 防：捕捉微表情、肌肉纹理、眼神流转等细微特征，精准判断其是否为真人实时互动。
- 攻：借助天玑实验室来进行自动化攻防测评。此次，天玑实验室则是通过GAN模型生成超30万测试样本，来交给ZOLOZ Deeper 进行判别训练。除此之外，每个月还会对它进行超过20000次的攻防测评，模拟上百种伪造攻击情况。

5、May

AI拉货挣钱，已经绕地球2500圈了（2024年05月15日）
- 嬴彻科技。其卡车NOA商业里程已经超过1亿公里。
- 使用嬴彻智能驾驶系统的里程占比已经到90%-95%，用户黏性极强。
抖音豆包成年轻人AI顶流！字节跳动大模型家族登场，tokens价格比行业低99%（2024年05月16日）
- 截止到2024年3月，豆包月活用户为2328.2万，在AIGC类应用中排名第一。
- 安卓市场累计下载量1.37亿，在AIGC类应用中大幅领先。
- 豆包、扣子的背后离不开强大的技术底座——豆包大模型（曾用名「云雀」）。
中国旧AI四小龙，连年亏钱（2024年05月19日）
- 商汤、云从、旷视、依图，特别是已经上市了的商汤科技以及云从科技，股价和市值更是猛猛下跌。
- 商汤 SenseAuto 绝影智能汽车平台，已和30多家车企、近50个车型建立了合作，实现了2000万台车的订单。年度亏损，从2019年的49.7亿元人民币一路提升至2023年的64.9亿人民币。
- 云从科技可谓根正苗红，前身是由中科院，最大的人脸识别研究团队孵化而成。融资全是内资机构，并且经常出现地方政府基金与国有资本的身影，其中包括了广州南沙金控、长三角产业创新基金等政府基金。说个有趣的，云从科技本身在“AI四小龙”当中成立时间最晚，却是最早通过IPO审核的那个。亏损减少，从2022年的9.16亿元人民币，减少至2023年的6.4亿人民币。
- 旷视科技累计赢得56项世界冠军。根据招股书的披露，旷视科技尚未盈利，以及存在累计未弥补亏损的情况。
- 依图，在人脸识别技术方面，依图科技连续多年保持着最高水平，并曾在美国国家标准技术局（NIST）主办的全球人脸识别测试（FRVT）中夺得第一名。
AI独角兽集体求卖身，新一轮洗牌期开始了（2024年05月25日）
- 突然之间，几家明星初创纷纷传出消息，寻求收购。都是大家熟悉的名字、过往战绩也都不错：Adept，估值超10亿美元，由Transformer作者创立；Humane，估值7.5-10亿美元，打造出爆火AI新硬件AI Pin；Stability AI，Stable Diffusion打造者，最早一批AI独角兽。
- 更多公司考虑出售的原因则来自于成本压力、不确定的商业模式以及激烈的市场竞争。
雷军喜提自动驾驶大牛：图森中国CTO王乃岩加盟（2024年05月27日）
- 前图森未来中国CTO王乃岩将加入小米汽车，向小米技术委员会主席、小米汽车自动驾驶负责人叶航军汇报
- 曾被称为是“深度学习应用于目标追踪领域全球第一人”
最难方言温州话被攻克！中国电信语音大模型支持30种方言，这题GPT-4o可不会做啊（2024年05月28日）
- 来自中国电信人工智能研究院，AI领域Fellow大满贯科学家李学龙带队，发布首个能听懂30多种多方言混说的大模型。
- 星辰语音大模型
- 它在国际语音顶会 INTERSPEECH2024 离散语音单元建模挑战赛上，星辰语音识别大模型斩获了语音识别赛道冠军。
- 而他们一早也提出了自己大模型领域布局：1+1+1+M+N：1个智算云底座、1个通用大模型底座、1个数据底座、M个内部大模型、N个行业大模型。
- 实际上，他们背后搭建了一支700人的AI研发团队，70%以上来自头部互联网和AI明星企业。再加上，AI领域Fellow大满贯科学家李学龙加盟，出任电信CTO，并组建中国电信人工智能研究院（TeleAI）。
神笔马良画出三维世界，基于线稿的3D生成编辑方法SketchDream来了（2024年05月31日）
- Liu F L, Fu H, Lai Y K, et al. Sketchdream: Sketch-based text-to-3d generation and editing[J]. ACM Transactions on Graphics (TOG), 2024, 43(4): 1-13.
- http://www.geometrylearning/SketchDream/
- SketchDream 已经被 ACM SIGGRAPH 2024 接收，并将刊登在期刊 ACM Transactions on Graphics 上，已入选 SIGGRAPH 精选亮点工作宣传片。

6、June

深度学习提升SOTA的tricks大盘点（2024年06月05日）
- 一句话原则：AI performance = data(70%) + model(CNN、RNN、Transformer、Bert、GPT 20%) + trick(loss、warmup、optimizer、attack-training etc 10%) 记住：数据决定了AI的上线，模型和trick只是去逼近这个上线，还是那句老话：garbage in， garbage out。
苹果智能炸裂登场：直接GPT-4o加持，全家桶都上生成式AI，Siri脱胎换骨（2024年06月11日）
- 北京时间 6 月 11 日凌晨，苹果全球开发者大会 WWDC 在库比蒂诺的 Apple Park 正式召开
- Apple intelligence：完整 AI 体系
如何理解attention中的Q,K,V？（2024年06月15日）
1.2万人朝圣CVPR，华人学者夺最佳论文！Sora舵手火爆演讲成大型追星现场（2024年06月20日）
- 本届会议已经成为CVPR历史上规模最大、参与人数最多的一届，截止6月19日，现场参会人数已超过1.2万人。
- 最佳论文：《Generative Image Dynamics》、《Rich Human Feedback for Text-to-Image Generation》
快手「可灵」再进化！视频续写可达3分钟让全球网友炸锅（2024年06月25日）
- 图生视频
- 视频续写，多次续写，最长可达3分钟
- 文本指令控制视频，女孩一键转身
- 凭AI电影《山海奇境》刷屏全网的制作人陈坤，半年之后用可灵的图生视频功能重制了一遍《山海奇镜》的预告片
旷视开源的AI人像视频生成太炸了！输入照片即可模仿任意表情包（2024年06月26日）
- 旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor
- 可以根据输入的视频生成任意持续时间的模仿视频，同时保证角色身份的一致性支持各种驱动视频，如演讲、唱歌、表情包等支持不同的画风（照片、传统绘画、漫画、AI 数字人等）
- Yang S, Li H, Wu J, et al. MegActor: Harness the Power of Raw Video for Vivid Portrait Animation[J]. arXiv preprint arXiv:2405.20851, 2024.
打开文心大模型，一看全是生产力（2024年06月29日）
- 两个月前，文心大模型 4.0 工具版刚刚发布，今天又发布了文心大模型 4.0 Turbo。
- 全新的智能代码助手文心快码，百度 80% 工程师都在深度使用，其中代码采纳率已达到 46%。
- 名字叫快码，「快」主要体现在三个方面：开发速度快、业务迭代快、企业落地快。
- 文心一言累计用户规模已达 3 亿，日调用次数也达到了 5 亿，用户日均提问量在过去半年时间里增长了 78%，提问平均长度提升了 89%。
- 在 WAVE SUMMIT 上，百度发布了新一代 AI 框架 —— 飞桨框架 3.0，目前已经面向开发者开放。

7、July

黄仁勋：我们不想当行业领导者（2024年07月03日）

我们更愿意成为值得信赖的合作伙伴。

我认为，对于初创公司而言，这种心态是必要的。我要告诉你们，作为一个初创公司，每一天都至关重要。我可以毫不犹豫地告诉你们，你们所做的每一个决定、每一项努力、每一次招聘、取得的每一个成就，以及你们所塑造的公司文化，都将在接下来的30天内决定公司的命运——是充满活力、持续成功，还是走向破产。我完全相信这一点，同时我也对自己和团队充满信心。
突破不可解释性！视频异常新检测框架精度90.67%拿下SOTA｜华科&百度&密歇根大学（ 2024年07月04日）
揭秘：阶跃星辰万亿MoE+多模态大模型矩阵亮相（2024年07月04日）
- 万亿参数 MoE 大模型 ——Step-2 正式版
- 千亿参数的多模态大模型 ——Step-1.5V
- 图像生成大模型 Step-1X
一分钟原画变3D角色，清华VAST成果入选图形学顶会SIGGRAPH（2024年07月12日）
- 随便一张立绘都能生成游戏角色，任意IP快速三维化有新招了！来自清华大学和VAST的研究人员联合推出了CharacterGen
- 整个流程可以在A800单卡上1分钟内完成。
- Peng H Y, Zhang J P, Guo M H, et al. Charactergen: Efficient 3d character generation from single images with multi-view pose canonicalization[J]. ACM Transactions on Graphics (TOG), 2024, 43(4): 1-13.
- https://github/JittorRepos/JDiffusion/tree/master/examples/CharacterGen
MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限（2024年07月15日）
MoE已然成为AI界的主流架构，不论是开源 Grok，还是闭源GPT-4，皆是其拥趸。然而，这些模型的专家，最大数量仅有32个。最近，谷歌 DeepMind 提出了全新的策略 PEER，可将 MoE 扩展到百万个专家，还不会增加计算成本。
大模型集体失智！9.11和9.9哪个大，几乎全翻车了（2024年07月16日）
也就是问题本身对人类来说，一看就知道问的是算数问题，但对AI来说是一个模糊的问题，并不清楚这两个数字代表什么。
eg：日期、版本号
读博期间应该明确的50件事！（2024年07月22日）
955 神仙公司名单（2024年07月28日）
Runway深夜炸场，Gen-3 Alpha图生视频上线，11秒让你脑洞乱飞（2024年07月30日）
- Runway Gen 3 Alpha 模型的图生视频功能正式上线！
- Gen 3 Alpha 支持生成的视频最长为 11 秒

8、August

英特尔「芯」痛！全球裁员1.5万人，利润暴跌85%（ 2024年08月02日）
- 前有英伟达，后有AMD
- 在传统的通用服务器中，英特尔CPU是绝对的主角。而在基于GPU的服务器中，最重要的是英伟达芯片——一台AI GPU服务器，可能会配置8个英伟达GPU，和1个英特尔CPU。
- 晶体管制程推进迟缓，目前还 PK 不过台积电
- 13/14代酷睿处理器不稳定情况，曾有人测试后发现故障率高达50%，饱受诟病。
Midjourney V6.1再进化！人像逼真细节拉满，摄影级画面秒生成（2024年08月02日）
- 更连贯的图像（手臂、腿、手、身体、植物、动物等）
- 图像质量更好（减少像素伪影、增强纹理、皮肤、8 位复古效果等）
- 更精确、更详细、更正确的细节特征（眼睛、小脸、远处的手等）
- 新的图像放大器具有更好的图像/纹理质量- 标准图像作业速度提高约 25%
- 提高文本准确性（在提示中通过「引号」绘制单词）
- 新的个性化模型，具有令人惊喜的细微差别和准确性
- 个性化代码版本控制（将旧作业中的代码用于当前作业的个性化模型和数据）
一句话总结，就是让画面整体上看起来更和谐、精致。
英特尔股价暴跌 26%，40 年来最大跌幅（ 2024年08月03日）
北京时间今天凌晨，英特尔股价暴跌逾 26%，单日总市值蒸发达 323.7 亿美元（约合 2317 亿元人民币），经历了 40 年来表现最差的交易日之一。
2024 互联网公司工作时长排行榜出炉！（2024年08月03日）
计算机视觉方向的博士，如何做到一直follow新技术？（2024年08月10日）
- 第一个是积极地和同行交流，不仅仅是同一个实验室的，还可以是不同实验室的connection，我的第二个方法是关注一些自己可能没有什么connection，但是产出质量始终很高的大组
AI失业潮来了，23年游戏行业万人被裁！暴雪员工岗位被AI抢走，悲痛万分（2024年08月17日）
目前大家基本已经达成共识：概念艺术家、平面设计师、资产艺术家和插画师是迄今为止受AI影响最大的群体。
4秒看完2小时电影！阿里发布通用多模态大模型mPLUG-Owl3 | 开源（2024年08月19日）
- 推出通用多模态大模型mPLUG-Owl3，专门用来理解多图、长视频。
- Ye J, Xu H, Liu H, et al. mplug-owl3: Towards long image-sequence understanding in multi-modal large language models[J]. arXiv preprint arXiv:2408.04840, 2024.
- https://github/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl3
- 多模态检索增强
- 多图推理
- 长视频理解，mPLUG-Owl3能够看一部2小时电影，并且4秒就能开始回答用户的问题。
腾讯混元大模型负责人王迪：揭秘万亿 MoE 系统工程之道｜智者访谈（2024年08月21日）
- 本期机器之心《智者访谈》邀请到腾讯机器学习平台部总经理／混元大模型负责人王迪先生，深入腾讯从 0 到 1 自研万亿级 MoE 大模型的历程。
- 做大模型就是一个在约束条件下怎么样高效地把工程、算法、数据以及业务应用整个串联起来的工作，它对组织能力的要求是非常高的。（小模型上做实验，结论迁移到大模型）
- 其实我们看到，越是坚持这些最基本认知的东西，你会发现大模型它自然会学到很多东西，你越是加很多规则、人工的经验进去，越会发现这个东西不 work，有无穷无尽的麻烦要解决。
- dense 模型 vs MOE 模型
- 现在图像和视频生成领域可能 diffusion 的多一点，尤其在工业界，但是学术上也有全自回归的 model，各有优劣，我觉得还是需要一定的时间去验证它的效果和利弊。
- 目前来讲，统一到 Transformer 这样一个总的框架下，应该是没有太大疑问了，即便是 Sora 用的 DiT，也是用 Transformer 实现的 diffusion model，所以说已经完全离不开 Transformer 了。至于说还要不要 diffusion 这样一套思想，现在还没有定论，因为还有很多的地方需要去实践和实验。
- 场景用底座模型去微调，做好一个场景，反哺底座模型
- 业务团队一定要去了解模型的能力边界在什么地方，哪些是模型应该去解决的问题，哪些是产品的设计和规划上应该去包容的
- 怎么样让模型自动地去评价我们自己的模型好不好，这些能力我们叫 critic model（评价模型），但评价模型的设计，怎么样才能设计好，过往有很好的 NLP 经验的同学就能够设计得更好、更快。当然，并不是说没有这些经验的人做不了，但可能他们对问题的理解，包括做事的速度会略微慢一点。所以我一直说这两个东西都是需要，并且是相互结合的。
- 因为本身 AI 芯片就有一定的坏卡率，包括说网络设备，上万张卡总有坏的时候，那坏了之后，第一个怎么能快速地定位是哪张卡出了问题，然后快速把它踢掉，再快速重新拉起训练服务，这过程中涉及到比如怎么样快速把 checkpoint 写到磁盘上，再重新 load 进来，这个过程如果是两个小时和五分钟，那是有天壤之别，等等这些问题吧。做过大规模集群管理的团队，应该都是有相关经验的。
- 构建异构卡的集群，用不同厂家的卡，以及同一个厂家不同算力单位的卡、不同型号的卡，能不能在一起训练同一个任务？
- 所以我们内部使用一种叫做潮汐调度的方法，比如说白天的量很大，需要很多的推理卡，但晚上量小了，就通过太极平台，把这些卡晚上调度给训练去用，提高卡的利用率。
- 王迪，2008 年加入腾讯，拥有十多年在 AI 领域的深厚技术研发经验，在超大规模生成式大模型、搜广推稀疏大模型、搜索平台、GPU 算力和任务调度等技术领域取得显著成就，目前是腾讯太极机器学习平台和混元大模型技术负责人。
超6亿！文心大模型日调用量半年增长超10倍，AI成百度最强加速引擎（2024年08月23日）
在大模型加持之下，百度文库已经从一款纯粹的 “内容工具” 转变为 “生产力工具”，拥有智能PPT、智能文档、智能画本等上百项多模态AI功能。
计算机视觉毕业找不到工作怎么办？怒刷leetcode，还是另寻他路？（2024年08月23日）
- MOP（money oriented programming）才是王道。
李沐重返母校上海交大，从LLM聊到个人生涯，这里是演讲全文（2024年08月24日）
- 数据就是你要找的材料。你看那些小说里面，主角大部分时间都在找材料，包括去深山里面找、去拍卖会上买，所以搞数据是很难的事情，是个体力活。但是你必须得有这些数据，而且要多弄一些，因为你不知道到时候会不会毁掉一些。
- 算力也很重要，就是说火要大一点，设备要先进一点，因为越好的设备炼出来的东西越好。
- 算法就是你的丹方了。丹方这个东西可能跟小说不一样。它每年都在进步，而且对于细节的把控非常重要。就算别人告诉过你这个东西怎么弄，但在真实的场景里面，你会发现还是挺不一样的。这就有点像你去徒手发射火箭，发之前你要动手调一调，没调好的话就炸掉了。
- 所以一旦用到水冷之后，你的算力就可以更密，就可以放更多机器。芯片就可以压得比较扁。压得比较扁的好处就是，每个芯片之间更近了。芯片之间直接用光纤，以光速互通。光速你看上去很快，但实际上在我们眼里已经很慢了。一台机器传输到隔壁一米之外的机器所带来的几纳秒延迟，几乎是不能忍。我们自己去设计机房的时候会考虑光纤的长度，因为一米的差距就会给分布式训练带来一个可见的性能影响。
- 还有一个通讯是 GPU 和 CPU 之间的 PCIe，它每几年也在翻倍，但是确实会慢一些。
- 内存：制约模型尺寸的一大瓶颈。这是因为内存占面积 —— 一个芯片就那么大，划一块给算力，划一块给内存之后就放不下什么东西了。所以很有可能在未来几年之内，一个芯片就 200GB 内存，可能就走不动了。这个要看工艺有没有突破。
- 当我们发现自己去造一个电厂的成本比我们付的那个电费成本还低的时候，我们花了几个月时间去看那个电厂文件。
- 你的模型大小就是 100B 到 500B 这个样子。我觉得比较好的一线的模型就是 500B，超过 500B 不是训练不动，而是做 serving 很难。
- 你可以做更大，但是它很多时候是用 MoE 做的，它的有效大小（每次激活的大小）可能也就是 500B 的样子。
- 语音模型：延迟更低、信息更丰富。GPT-4o 出来之后，大家对于语音模型产生了浓厚的兴趣。以前的模型是我先做 ASR（自动语音识别），把语音信号转成文本，然后放进语言模型，让它出一个文本的回复，再通过 TTS 变成一个语音的信号。现在大家做的是直接让你的原始的语音信号进去，然后原始的语音信号再出来。现在端到端我们大概可以做到 300 毫秒。300 毫秒最大的好处是可以打断，体验会更好
- 图像模型：生成的图越来越有神韵
- 视频模型：尚属早期
- killer APP（杀手级应用）
- 对于文科白领的工作，AI 已经能完成简单任务，复杂任务需要继续努力。对于工科白领的工作，简单任务还需要努力，复杂任务存在困难。对于蓝领的工作，除了无人驾驶和特定场景（比如工厂，场景变化不大，也能采集大量数据），AI 连简单任务都做不了，完成复杂任务更难。（交互，缺数据，场景不固定）
- 预训练是工程问题，后训练才是技术问题
- 做大语言模型的研究，你可以不去做预训练，你就做后面的一部分，因为后面部分其实对大家有利的。前面变成了一个工程问题，需要很多卡，很多人来完成，后面才是算法创新。虽然它的门槛还是比较高的，8B 和 70B 的情况也不一样，8B 上调的很多东西在 70B 上不一定成立。
- 没有真正的垂直模型，就算是一个很垂直领域的模型，它的通用能力也是不能差的。比如说你要在某一个学科里面拿第一，你别的科目也不能差到哪里去。
- 数据决定了模型的上限，算法决定了模型的下限。
- 为什么我之前说创业要求的动机要比 PhD 更高一点，PhD 的动机要比工作更高一点，核心原因就在于，你会有一个延迟享受。在公司，一个事情干完就会发奖金或者被表扬；PhD 做一个研究可能要一两年；创业可能要 5 年， 5 年之后才能得到正反馈。你在没有任何正反馈的情况下，你就得很热爱这个事情，得给自己加码，让自己嗨起来。
- https://www.bilibili/video/BV175WQeZE7Z/?spm_id_from=333.337.search-card.all.click
RTX3090可跑，360AI团队开源最新视频模型FancyVideo，红衣大叔都说好（ 2024年08月26日）
《FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame
Textual Guidance》
首篇「虚拟现实+人工智能」综述！浙大、港中深等发布AI医疗最新报告（2024年08月27日）
- https://github/yixuan730/Awesome-Virtual-Reality-in-Medicine
- Wu Y, Hu K, Chen D Z, et al. AI-Enhanced Virtual Reality in Medicine: A Comprehensive Survey[J]. arXiv preprint arXiv:2402.03093, 2024.
- 医学视觉增强：着重于提升医疗人员在虚拟空间中的视角感知，有助于帮助医疗人员理解错综复杂的解剖结构以及空间关系。该类别分为两个子领域：虚拟物体重建和虚拟视觉增强
- VR医学数据处理：主要探讨当前VR系统对于分析和理解复杂医学数据的能力，这一类别讨论了VR在AI的融合下，如何辅助深入的结构和病变分析、提升诊断能力，以及对外壳手术的各个阶段提供相应支持。主要关注从传统2D数据到更加动态的3D数据的分析方法的转变。
- VR辅助干预：该领域主要介绍和分析当前AI驱动的VR技术在实时互动的医疗场景中的实际应用。该类别涵盖了VR技术在手术过程中的直接指导和辅助以及手术过程中的交互式合作（利用人机交互技术为诊疗人员提供交互式的术中反馈）两个方向的分析和讨论。
时薪高达342元！特斯拉为机器人招募“人类老师”，明确要求：身高170-180cm，每天步行7+小时（2024年08月27日）
近日，特斯拉的一则最新招聘引起了广泛关注：为旗下的 Optimus 人形机器人招募“人类老师”，具体岗位名称为数据收集操作员（Data Collection Operator）。该岗位的工作内容，大体就是穿戴着动作捕捉服和 VR 头盔，根据要求执行站立、行走等特定动作，以此为机器人 Optimus 的训练提供数据支持。
GPU推理时代终结？世界最大芯片加持推理狂飙20倍，英伟达H100也被干趴！（2024年08月28日）
曾造出世界最大芯片公司Cerebras，刚刚发布了全球最快的AI推理架构——Cerebras Inference。运行Llama3.1 8B时，它能以1800 token/s的速率吐出文字。
一直以来，这家公司就致力于打造世界上最大芯片，希望将整个模型存储在一个晶片上，以此来解决内存带宽瓶颈。
不过，值得注意的是，在Cerebras上跑的Llama 3.1，上下文只有8k……相比之下，其他平台都是128K。
英伟达股价闪崩暴跌2000多亿美元！Blackwell出货延迟，老黄遭华尔街冷眼？（2024年08月30日）
他甚至断言：在某个时刻，所有购买英伟达设备的人，会立即获得回报，因为「the more you buy, the more you save」！
然而他却回避了重要的一点：这些开发者每年也在亏损数十亿美元，如果他们的客户无法获得物有所值的回报，那么这种投入将越来越不可持续。
一手实测结果出炉！智谱「超大杯」模型全家桶亮相KDD，部分任务超越GPT-4o（2024年08月30日）
- 近日，数据挖掘顶会 KDD 2024 在西班牙巴塞罗那正式召开，来自中国的研究团队和科技企业纷纷亮相。其中，在 8 月 29 日举办的大语言模型日（Large Language Model Day）上，智谱 AI 顾晓韬博士介绍了智谱 AI 支持中英双语的对话机器人 ChatGLM，成为中国科技力量的鲜明代表。
- 据悉，智谱开源模型累计下载量已突破 2000 万次。

9、September

陶哲轩力荐，哈佛反向学习法火了：教会AI就是教会自己（ 2024年09月02日）
利用提示工程，让学生尝试教AI完成平时数学作业（不纳入正式考核），期末再让这些AI参加考试。
电脑CPU依然得看英特尔酷睿：新一代性能提升20%，AI能力翻5倍；网友：感谢AMD（2020年09月03日）
英特尔第十一代「酷睿家族」终于登场了！代号Tiger Lake，10nm SuperFin 工艺
MiniMax不藏了，大秀视频/语音/文本全模态模型家族，“每天与世界交互30亿次”（2024年09月03日）
- 每天30亿次交互量。其中生成文本量3万亿文本tokens，生成图片2000万张、生成语音7万小时。
- 积累用户超过6000万。
- MiniMax 率先完成了全模态模型的研发和开放。
  视频模型，abab-video-1，目前AI视频时长最高6秒，未来或支持10秒。
  音乐模型，abab-music-1
  语音模型，abab-speech-1，只需要20秒真人语音作为语料数据
  文本万亿多模态模型，abab-7，MoE+Linear Attention
- MiniMax 旗下主要有四款产品：星野、Talkie、海螺AI和开放平台。
- hailuoai/video
英伟达市值暴跌2万亿！一夜蒸发3个英特尔，创美国历史纪录（2024年09月04日）
据悉，美国司法部已经向英伟达发出传票，寻找这家芯片巨头违反反垄断法的证据。

仅看今年的利润，英伟达已经超过了最接近自己的竞争对手——AMD的总销售额。
AI落地新战场，云厂商开卷MaaS：大模型即服务，华为给所有人发船票了（2024年09月05日）
- 比如云厂商们近期都“卷”的 MaaS（Model-as-a-Service），就是降低大模型应用门槛的重要途径之一。
- MaaS 是一种可以为开发者用户提供大模型以及各种开发工具的服务，它能够让哪怕没有大模型开发背景的人也能进行一站式开发。
- 具体来说，平台不仅提供99%的业界SOTA开源大语言模型、开源多模态模型，并且均已针对昇腾算子、显存优化，预置最优超参配置，做到“模型全、免配置、免调优、性能优”。
- 针对更深入的模型定制需求，平台也提供了包括模型调优、模型压缩、模型部署、模型体验的全流程工具链，覆盖大模型全生命周期。
- ModelArts Studio 大模型即服务平台，就是发给各位玩家的“船票”。只要手握这张船票，人人都能在华为云的基座上做大模型开发。
支付宝突然推出新App，竟想用AI让日常生活开挂（2024年09月05日）
- TA 生动展示了大语言模型的应用如何从理解（ Chat ）转向采取实际行动( Act ）。
- 当产品体验丝滑到「无感」后，人们反而容易忽视沉淀在下面的深刻技术，甚至会有「这也不难做到」的错觉。
  
  支付宝首页下拉就是同样的功能
华为离职副总裁徐家骏：透露年薪千万的工作感悟，太震撼！（2024年09月05日）
《黑神话：悟空》里惊艳的古建场景是如何生成的？（2024年09月07日）
- 在人工智能时代，NeRF（Neural Radiance Fields，神经辐射场） 与 3DGS（3D Gaussian Splatting，3D高斯溅射） 技术成为完成三维重建、新视角合成、3D生成等任务不可或缺的重要工具。
- NeRF 是一种可微的、自动生成的，连续的三维隐式表达方法，最初用于解决新视角生成（Novel View Synthesis，NVS）这个计算视觉里的基础问题。
- 相较于 NeRF，3DGS 是显式的三维表达方式，其设计遵循“大道至简”的原则，用简捷的逻辑构造了三维空间。
北大王立威：理论视角看大模型，为什么AI既聪明又愚蠢 | 智者访谈（2024年09月08日）
- 本期机器之心《智者访谈》邀请到北京大学智能学院教授王立威，从机器学习理论视角看大模型的能力边界，探讨理论对 AI 未来发展的影响。
- 刚才讲的另一类系统，比如说 AlphaGeometry（能够解奥赛级别的几何证明题），以及后来的 AlphaProof，用的是深度强化学习这种方法，而深度强化学习不是今天语言大模型的主要技术方案。它们还有一大特点，也是区别于语言大模型的，是专注于解决特定类型的封闭世界问题（closed-world problem)。——这套思路与 DeepMind 在几年前用 AlphaGo下围棋的方法一脉相承
- 使用机器学习解决数学和科学问题的潜力——人类科学家仍然要做顶层设计，但是其中的某些环节或部分可以用机器学习和人工智能方法更高效地完成
- 机器之心：我们的终极目标是希望 AI 能够独立完成数学证明，并且像伟大的科学家比如爱因斯坦那样，发现新的科学理论。为了实现这个目标，还需要克服哪些主要困难？
- 幻觉
- scaling law
- 解释性
- 泛化性，benchmark
  今天我们的大模型能够处理的任务是非常之多的，不再是一个固定的，像图像分类这样的单个任务。所以我们在讨论泛化的时候，已经不是过去那种狭义的泛化了，甚至我们今天讨论的泛化，是指给大模型一个全新的任务，看它能不能够把这个任务也解决好。所以从这个层面上说，过去的理论就显得比较局限了。
- 大模型时代的理论研究
- 王立威，北京大学智能学院教授，研究兴趣为机器学习。长期从事机器学习基础理论研究，为设计更有效的新算法提供理论指导，并开发基于机器学习的医疗影像诊断算法与系统。近来致力于通过机器学习方法解决科学与数学领域重大基础问题。
  王立威教授已在 NeurIPS、ICML、TPAMI 等国际顶级期刊和会议上发表论文 150 余篇，其中关于图神经网络表示理论的两篇工作分获 ICLR 杰出论文奖与提名奖。担任 TPAMI 编委，并长期担任 NeurIPS、ICML、ICLR 等机器学习顶会的领域主席／高级领域主席。此外，入选 AI’s 10 to Watch，是首位获此殊荣的亚洲学者。
离谱，深圳某公司重新定义8小时工作制！（2024年09月09日）
- 10:00-12:00：上午2小时；14:00-18:00：下午4小时；19:00-21:00：晚上2小时。
- 然而，关于午休和晚餐时间是否应当算入工作时间，法律并没有明确的条款说明。用人单位拥有一定的自主权，可以根据具体情况决定是否将这些休息时段纳入 8 小时工作时间的计算范围。
视觉模型底座超越OpenAI，格灵深瞳开启多模态落地的Scaling Law（2024年09月09日）
- 它曾因“A股AI视觉第一股”的标签为人熟知，如今以新姿态再次刷新外界认知：大模型落地先行者。
- 自研视觉大模型 Unicom v2
- 从某种意义上说，ChatGPT是替所有AI公司做好了教育市场的工作。
- https://github/deepglint/unicom
从腾讯大模型的「实用」路线，我们看到了企业应用AI的新方向（2024年09月09日）
- 腾讯全球数字生态大会
- 易车和腾讯合作，基于内置在 TI 平台的大模型，使用大模型精调工具链，精调训练出 「易车大模型」。这个大模型能为用户提供 3D 看车、AI 解读、AI 对比问答和 AI 搜索等服务，增强了用户获取信息的效率。据统计，这些功能上线后，用户的停留时长有了大幅提升。
大模型/Sora/世界模型之间是什么关系，对自动驾驶的意义是什么？（2024年09月10日）
“不断理解，不断预测”，这种理解世界的方式，是人类理解世界的方式。这种思维模式就叫做：世界模型。
人经历的事情越多，大脑里就会形成越复杂的世界模型，用于更准确地预测这个世界。这就是人类与世界交互的方式：世界模型。
目前sora存在的缺点
（1）物理交互的不准确模拟
（2）对象状态变化的不正确
（3）长时视频样本的不连贯性
（4）对象的突然出现
SpaceX再创历史，人类首次商业太空行走成就达成！（2024年09月13日）
- 随着“宇宙素人”贾里德·艾萨克曼在距离地球700多公里的太空出舱，人类首次商业太空行走就此完成。
- 北京时间周四晚19：58，这位“北极星黎明”任务的指挥官、41岁的亿万富翁打开舱口，率先走出太空舱，通过“天行者”梯子，以及一根约3.7米长的系绳，在舱外呆了10多分钟。
- 四人分别是亿万富翁贾里德·艾萨克曼和他的朋友前空军飞行员斯科特·“基德”·波提特，与他们同行的还有SpaceX的两名首席工程师莎拉·吉利斯和安娜·梅农。
- 龙飞船
余承东：ADS断代领先！华为发布首款轿跑SUV（2024年09月13日）
- 智界R7车长/宽/高分别为4956/1981/1634（mm），比Model Y大得多，外观和智界S7相似，形成了鸿蒙智行家族设计语言。
- 三电方面，搭载800V高压平台，最高续航802km，在纯电的SUV中实现了罕见的“双800”。
- 46.98万起，问界M9五座版上市，少了一排座位，后备箱空间自然更富裕了。比如类似劳斯莱斯的“揽景座椅”，非常适合钓鱼佬。
李飞飞携24人最强天团打造「大世界模型」！Hinton站台力挺，获2.3亿融资（2024.09.14）
她将人类智能归结为两大智能，一是语言智能，另一个便是空间智能。
「如果想让AI超越其自身当前的能力，我们需要的是，不仅仅能够看到、会说话的AI，而是一个可以行动的AI」。
戴手表就能检测打鼾？Apple Watch到底用什么诊断「睡眠呼吸暂停」（2024年09月14日）
- 打鼾是导致睡眠质量差的最主要影响因素，医学上称其为睡眠呼吸暂停，表现为睡觉时呼吸多次停止和重新开始。
- 库克会在下一代的Apple Watch中推出检测睡眠呼吸暂停的功能。
刚刚，CVPR 2025新规来了：审稿进入「半实名制」，不负责任的审稿人将被标记并拒稿（2024年09月16日）
黑神话悟空火了，为何没人用H100打游戏?（盘点H100和4090的十点区别）（2024年09月18日）

一张RTX 4090市场价，1.3-1.6W，一张H100 PCIe卡在22W左右，八卡HGX模组210W
聊一聊大模型六小虎生存现状（2024年09月18日）
- 智谱AI、百川智能、零一万物、月之暗面、Minimax、阶跃星辰
- 模型能力增长放缓，各家如何开卷产品差异化？
- 烧钱的游戏还在持续，但资本只垂青强者
- 8月底，零一万物的算法副总裁黄文灏被证实已加盟字节的大模型团队，负责技术项目管理和规划。紧接着，另一位公司的核心成员李先刚也被爆出走，选择返回“老东家”贝壳任职，他曾任过零一万物的法定代表人。
- AGI的等待：冲刺上市，旷日持久
- 2013年，斯派克·琼斯执导的电影《Her》上映了，谁能设想仅仅十余年之后，我们就将遇见自己的萨曼莎呢？
奥特曼：o1仅仅是“推理模型的GPT-2”；黄仁勋：我给你加速50倍（2024年09月19日）
英伟达创始人黄仁勋，则表示新一代 Blackwell 架构GPU能给o1推理提速50倍。
OpenAI CEO奥特曼，我们谈到AI的五个级别：L1是聊天机器人（ChatBot），L2是我们刚刚达到的推理者（Reasoner），L3是智能体（Agent），L4是创新者（Innovator），能够发现新的科学信息，L5是完整的组织（Organization）。
关于「车路协同vs单车智能」的全方位辩论（2022年09月22日）
- 以静态环境下的动态感知，叠加其空间连续、时间连续、算力调用的特点，可以应对盲区死角、意图判断难等问题，提升感知准招率
  1、前方发生连环追尾事故或建筑物遮挡，路侧感知提前将信息同步给车辆，防止事故；
  2、遇无信号灯、路况复杂的十字路口，通过车-车协同，每辆车可实时获知其他方向来车轨迹意图；
  3、十字路口交叉车流调度，云端基于对交叉车道不同车流量的大数据分析，调整路口红绿灯授时，缓解车流量大的道路拥堵，提高道路资源利用率。
- 车路协同听上去好像很美好、技术上也可以实现，但要想实现大规模商业运作却很艰难，会面临责任归属、法律法规、道德维度、市场监管、成本分摊、价值分配、商业保险等诸多复杂因素，实际上已经超出了技术范畴。
- 用户很难接受在某一区域有自动驾驶，开出覆盖范围就无法继续使用的情况。这样一来，车企如果不想让产品丧失竞争力，就还需要不断开发基于单车智能的自动驾驶，这也将导致车路协同能够提供的帮助越来越少。而车企在自身就可以实现高阶自动驾驶的情况下，也不会再为车路协同付出额外一份费用。

10、October

海外博士一般朝九晚五，国内博士动辄十几个小时科研时间。为什么普遍认为海外博士水平比较高？（2024年10月01）
白龙马西天取经 vs 驴原地拉磨
纯国产万卡集群炼出万亿参数大模型，被这家央企率先做到了！（2024年10月01）
一张人脸照片，Meta眼镜识别全部个人信息，两位哈佛开发者：只为警醒世人（ 2024年10月03日）
pika 1.5重磅升级！万物皆可爆炸，搞笑特效全网病毒式疯传（2024年10月03日）
全新特效Pikaffects，让全网疯狂——任何物体都能被压碎、融化、膨胀、爆炸，甚至还能变成蛋糕被一刀切开。
激光雷达明星崩了！市值缩水96%，危在旦夕。。。（2024年10月04日）
报告显示，在2023年的车载激光雷达市场，中国厂商依然是领跑全球，禾赛科技、速腾聚创、图达通、华为以及览沃等中国激光雷达供应商，合力拿下了全球84%的市场份额。
聊一聊国内大模型公司面经和感受（2024年10月04日）
- 多头注意力，频率太高了。coding轮，概念轮都考。复习的点包括：时间/空间复杂度，优化（kv-cache，MQA，GQA），手写多头代码。各种Norm，这个频率也不低，不过比较标准的内容，没有啥特意要说的，有的考手写，有的考概念和理解（为什么管用）。
- 框架相关内容，各种并行方式，优缺点。DeepSpeed，Megatron可以看看源代码，Flash-Attention等内容。这个点也经常考代码题。
- BERT，GPT等比较主流大模型，一些细节，比如位置编码，训练loss，激活，架构些许不同这种。自回归重点。
- 大模型训练，这个可能主要是工作经验相关，经常问比如训练loss炸掉了，如何解决，一些技巧之类的。面试时有些面试官会问一些很细节的东西，感觉是在确认确实上手跑过基座训练不是吹水。
- 数据预处理，BPE，tokenization，mask相关概念和对模型/训练影响，数据配比（有paper）。
- evaluation，如何评估大模型，安全性，有效性，公开数据，个别考过手写eval框架（多选，生成）。
- 根据投的岗位，多模态和RLHF内容可以适当看看。这俩感觉paper挺重要的，也大多研究岗位。楼主也少面了一些自动驾驶，RL啥的，不过结果不咋地。
Meta版Sora深夜横空出世，小扎放出16秒高清大片！92页论文曝光技术细节，Llama 3架构立功（2024年10月05日）
- Movie Gen，可以生成音效和配乐
- Polyak A, Zohar A, Brown A, et al. Movie gen: A cast of media foundation models[J]. arXiv preprint arXiv:2410.13720, 2024.
Meta又给OpenAI一记重击，视频生成Movie Gen震撼登场，甚至可以配音、编辑（2024年10月05日）
全球首台Arm超算光荣退役！下一代已接任，配备384块英伟达Grace CPU（2024年10月05日）
这台被部署在英国最强超算 Isambard 2，帮助世界推动了模拟分子、天气预报的研究，下一代超算已经接任。
下一代 Isambard 3 超算，将使用HPE提供的基于NVIDIA Grace ARM的CPU上线接任。
第63届TOP500排行榜显示，尽管 Frontier 不再是榜单中唯一以百亿亿次浮点运算计算的系统，但依旧夺得榜首。
Frontier 被部署在美国田纳西州橡树岭国家实验室，依旧是视觉上最强大系统，其 HPL 得分为1.206百亿亿次浮点运算/秒。
最新AI生图模型Flux1.1刷屏！添加单反相机文件名获得超写实图像，网友：我分不清啊（2024年10月06日）
- 在提示词中模仿单反相机的文件命名格式即可。比如“CR2”就是佳能相机使用的原始图像文件格式，输入“IMG”+随机编号+“.CR2”，就能去除图中的“AI味”，无论人物还是风景都能达到照片级效果。
- 代号蓝莓，最新SOTA文生图模型
- Stable Diffusion原班人马打造
文生图参数量升至240亿！Playground v3发布：深度融合LLM，图形设计能力超越人类（2024年10月07日）
- Playground Research 最近发布了一篇论文，详细介绍了团队最新的、基于DiT的扩散模型Playground v3（简称PGv3），将模型参数量扩展到240亿，在多个测试基准上达到了最先进的性能，更擅长图形设计。
- Liu B, Akhgari E, Visheratin A, et al. Playground v3: Improving text-to-image alignment with deep-fusion large language models, 2024b[J]. URL https://arxiv. org/abs/2409.10695.
「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」（2024年10月07日）
- 9月5日，Hyperwrite AI联创兼CEO Matt Shumer在X上扔出一则爆炸性消息——用Meta的开源Llama 3.1-70B，团队微调出了Reflection 70B。它的基准测试结果惊人，可以和Claude 3.5 Sonnet以及GPT-4这类顶级闭源模型一较高下，直接登顶「世界开源新王」！
- 总之，2024年9月的MMLU或HumanEval基准已经被严重破坏了，随便一个本科生就能随意操纵他们。
- 小型初创公司有可能发现一种被大型AI实验室忽视的新颖微调方法吗？虽然可能性不大，但也并非完全不可能
AI逆向绘画火了！一键重绘梵高《星空》，来自华盛顿大学（2024年10月08日）
潞晨Video Ocean震撼发布，打开了「任意角色、任意风格」的视频魔盒（2024年10月08日）
- https://video.luchentech/zh-CN
- 文生视频、图生视频、角色生视频，解锁创意的无限可能。
李飞飞：不要数字孪生，要数字表兄弟，一张照片生成机器人训练场景（2024年10月12日）
数字孪生（digital twin）、数字表亲（digital cousin），用于仿真

Dai T, Wong J, Jiang Y, et al. Acdc: Automated creation of digital cousins for robust policy learning[J]. arXiv preprint arXiv:2410.07408, 2024.
蔚小理华的车端大模型进展到什么地步了？（2024年10月14日）
车圈大变天！激光雷达即将被判死刑？（2024年10月14日）
- 昔日称霸车圈的智驾供应商 Mobileye，近日宣布了一则重大决定——今年内就要立刻关闭激光雷达研发部门，并且终止下一代激光雷达的研发工作！
- 随着今年特斯拉FSD推出了基于“端到端架构”的V12版本，删掉原本30万行C++代码，替换为3000行神经网络之后，系统决策准确度和执行速度都有了质的飞跃。
  
  传统智驾靠的是感知信号与算法堆叠下的缜密逻辑，而端到端靠的是类似“肌肉记忆”的经验。
- 到现在来看，只有阿维塔采用了3颗激光雷达的方案，其他的车型要么是大灯周围的双激光雷达方案，要么是车顶“犄角”式的单激光雷达方案。
- 不同车型、不同智驾功能，对于激光雷达的依赖度都是不同的，有的优先级比较高，一旦遮挡就无法启用；有的则优先级较低，不会影响功能使用。
小目标检测的12种解决方案汇总，推荐收藏！（2024年10月15日）
- 增大输入图像分辨率
- 增大模型输入尺寸
- 特征融合：多尺度特征融合、长跳跃连接、注意力机制
- 数据增强：尺度变换、随机裁剪、高级组合（Copy-Paste、Mosaic）
- 大图切分：Tiling、Slicing Aided Hyper Inference——SAHI
- 损失函数
AI翻译界杀手诞生！阿里国际翻译大模型吊打谷歌和GPT-4（2024年10月16日）
大模型 Marco，光腿神气、可盐可甜，场景是跨境电商
国产大模型竞技场首超GPT-4o！零一万物GLM共同跻身Top10（2024年10月16日）
- “大模型六小强”之一的零一万物正式对外发布新旗舰模型——Yi-Lightning（闪电）。
- 在大模型竞技场（Chatbot Arena）上，Yi-Lightning性能直冲总榜单并列第6，数学分榜并列第3，代码等其它分榜也名列前茅。
实测13个类Sora视频生成模型，8000多个案例，一次看个够（ 2024年10月16日）
Zeng A, Yang Y, Chen W, et al. The dawn of video generation: Preliminary explorations with sora-like models[J]. arXiv preprint arXiv:2410.05227, 2024.
https://ailab-cvc.github.io/VideoGen-Eval/
来自腾讯 AI Lab
从威尔・史密斯鬼畜吃面到「Her」，这些幕后技术正在推动AI视频时代的到来（2024年10月17日）
- 字节跳动前段时间发布的豆包・视频生成模型
- 火山引擎，BMF，babit multimedia
你的公司是否也过度研发，海康裁员千人，32个研发区只剩12个！（2024年10月18日）
骁龙8至尊版登场：CPU牙膏挤爆，AI生成速度创纪录，奥特曼也来助阵（ 2024年10月22日）
- 骁龙 8 至尊版采用台积电 3nm 工艺制造，与骁龙 8 Gen3 相比，CPU 性能提升 45%，能效提升 44%。
- 高通表示，华硕、荣耀、iQOO、摩托罗拉、努比亚、一加、OPPO、红魔、Redmi、真我 realme、三星、vivo、小米和 ZTE 等各大厂商都准备在未来几周内推出搭载骁龙 8 至尊版芯片的机型。
有哪些值得计算机专业学生加入的国企？（2024年10月19日）
- 证券公司、公募&私募基金
- 上海证券交易所
  深圳证券交易所
  大连商品交易所
  郑州商品交易所
  上海期货交易所
  中国金融期货交易所（中金所）
  北京证券交易所
- 各大银行
  整体上大银行的待遇＞中小银行
  地方性银行总行的待遇＞国有行省级分行
- 烟草+国家电网+中石油+铁路集团+铁塔+各省三大运营商
- 军工相关的三家央企：航天科技+航天科工+电子科技集团
- 军队
- 医院信息科
- 本省车企（汽车智能化，车载智能化，招计算机的可能比车辆工程、机械工程还多。）
  重庆的长安汽车，
  合肥的江淮汽车，
  长春的一汽，
  北京的北汽武汉东风汽车，
  济南的中国重汽，潍柴，
  广州的广汽，
  柳州的五菱。
  芜湖的奇瑞
  杭州的吉利（私企）
  广东的比亚迪（私企）
  还有一些合资汽车。
- 地方政府的平台公司
先让不懂代码的来测？通义这个新产品，代码刚写完，预览就出来了（2024年10月24日）
通义千问2.5 代码模式
- 你在叙述完具体功能需求后，系统会创建一个工作空间，AI 在其中与你协同工作。在后续对话过程中，AI 可以实时查看你的新要求，持续编辑代码。问题随时解决，效果实时呈现，就像是在现实世界中的多人协作一样。
- 这相当于让用户拥有一个 24 小时随时提需求的『贴身程序员』，不用排期、随时上线，且能满足你专属需求。
盘一盘端到端自动驾驶主要玩家（2024年10月25日）
主机厂：小鹏汽车、鸿蒙智行（类主机厂）、蔚来汽车、零一汽车（新能源重卡科技公司）
自动驾驶算法和系统公司：元戎启行、商汤绝影、小马智行、鉴智机器人、英伟达、地平线
自动驾驶生成式AI公司：光轮智能、极佳科技
学术研究型机构：上海人工智能实验室、清华大学MARSLab
刚刚，余凯港股敲钟！地平线开盘大涨28%市值632亿（2024年10月25日）
- 地平线 Horizon Robotics 智驾科技
- 用地平线自己的话来说，他们是一家“市场领先的乘用车高级辅助驾驶（ADAS）和高阶自动驾驶（AD）解决方案供应商”，所以核心产品就是解决方案组合——硬件+软件的总和方案。
- 硬件自然是地平线的征程系列，今年最新的产品是 J6，针对不同车型方案有不同型号，算力从数十TOPS到560TOPS。
- 而软件，同样是地平线提供全栈方案：Horizon Mono、Horizon Pilot 以及 Horizon SuperDrive三种，根据客户不同的需求，提供差异化功能。
- Horizon Pilot 是高速 NOA 解决方案，除主动安全功能外，还具备实现自动上/下匝道、自动变道、高速路自动驾驶，以及自动泊车辅助等功能。到 2023 年年底，已经有超过 25 款车型搭载，比如理想 L7 到 L9 系列，都选择了 Horizon Pilot。
- 2023年，由地平线学者一作发表的业界首个公开发表的端到端自动驾驶大模型 UniAD，荣获 CVPR2023 最佳论文
盘一盘端到端自动驾驶主要玩家（2024年10月25日）
一句话的事儿，手机自动驾驶来了！首款国产AI智能体手机引爆端侧革命（2024年10月26日）
荣耀，视频通话时换脸检测，一句话帮忙点咖啡，一句话帮忙取消自动续费
谷歌这款新概念键盘，治好了我多年的老病（2024年10月27日）

遵循莫比乌斯带的几何形状。没有明显的内外之分，表面有倾斜度，因此你的手可以以几乎贴合的方式使用它。用户可以 360 度地打字，以任何方式握持设备
虽然这只是从 2019 年愚人节开始的一个玩笑项目，旨在推广谷歌输入法（Gboard），但是该键盘并不是什么 AI 生成的效果。它确实有实物是可以工作的。你可以按照已经开源的原理图、3D 可打印的 STL 文件和固件自己构建一个。
靠AI，2年时间大涨4倍！扒一扒你每天都用的这只小绿鸟（2024年10月26日）

路易斯·冯·安（Luis von Ahn，以下简称冯·安），多邻国的创始人兼CEO。验证码被命名为 CAPTCHA，是“自动区分计算机和人类的图灵测试”（Completely Automated Public Turing test to tell Computers and Humans Apart）的缩写，以一种在线表格测试的形态存在，用来验证用户是真人而非机器人。
苹果地表最强AI PC诞生，M4 Max猛兽加持性能暴涨！顶配6万，续航飙至24小时（2024年10月31日）
M4 Pro、M4 Max、M4，均采用业界领先的第二代 3nm 工艺。
让机器人拥有人一样「潜意识」，英伟达1.5M小模型就能实现通用控制了（2024年10月31日）
- 如果想在端侧塞进 405B 这种级别的大模型，那真是小庙供不起大菩萨。
- 朱玉可和 Jim Fan 团队（英伟达 GEAR 团队）新鲜发布了他们的最新研究成果 HOVER。这是一个仅有 1.5M 参数的神经网络，但它足以控制人形机器人执行多种机体运动。
- He T, Xiao W, Lin T, et al. Hover: Versatile neural whole-body controller for humanoid robots[J]. arXiv preprint arXiv:2410.21229, 2024.

11、November

吞吐量最高飙升20倍！豆包大模型团队开源RLHF框架，破解强化学习训练部署难题（2024年11月01日）
- 在大模型后训练（Post-Training）阶段引入 RL 方法，已成为提升模型质量和对齐人类偏好的重要手段。
- 传统的 RL/RLHF 系统在灵活性和效率方面存在不足，难以适应不断涌现的新算法需求，无法充分发挥大模型潜力。因此，开发一个高效且灵活的大模型 RL 训练框架显得尤为重要。这不仅需要高效地执行复杂的分布式计算流程，还要具备适应不同 RL 算法的灵活性，以满足不断发展的研究需求。
- 字节跳动豆包大模型团队与香港大学近期公开联合研究成果—— HybridFlow，一个灵活且高效的大模型 RL 训练框架，兼容多种训练和推理框架，支持灵活的模型部署和多种 RL 算法实现。
- 实验结果表明，HybridFlow 在各种模型规模和 RL 算法下，训练吞吐量相比其他框架提升了 1.5 倍至 20 倍。
- Sheng G, Zhang C, Ye Z, et al. Hybridflow: A flexible and efficient rlhf framework[J]. arXiv preprint arXiv:2409.19256, 2024.
- https://github/volcengine/veRL
2024 AI年度报告发布，附十大预测：人形机器人热度下降，英伟达维持霸主地位（2024年11月03日）
- State of AI发布了2024产业报告，也是调研团队发布的第七份年度报告，从研究进展、行业局势、现有政策、安全问题、未来预测等角度出发，对人工智能行业的现状和预期进行了深度分析。
- 美国对中国实验室实施的制裁对其生产高性能模型的能力影响有限，因为库存、获批硬件、走私和云访问的结合使国内能够构建高性能的（V）LLM，但国内的半导体产业发展仍然较为混乱。
四家亏损严重的芯片龙头企业，前景不妙！（2024年11月04日）
2024年前三季度
- AI芯片龙头寒武纪今年股价暴涨了3倍左右，前三季度亏损超过7亿元。
- 芯片设计龙头芯原股份股价一路下滑，前三季度亏损接近4亿元。
- CPU龙头龙芯中科股价从183元下滑到今天，前三季度亏损3.4亿元。
- 光芯片龙头源杰科技股价从339元到现在150元左右，前三季度亏损55万元，但是第三季度亏损就超过1100万元。
谷歌员工集体打脸劈柴，25%新代码AI生成夸大事实！Linux之父怒斥90%都是营销（2024年11月04日）
- CEO劈柴在Q3财报会议上的一句话，瞬间点燃了全网的激烈讨论。
- 就连Linux之父Linus Torvalds在采访中表示，「AI只不过是一种营销策略。人工智能市场状为90%营销和10%现实」。
商汤执行董事徐冰最新访谈：商汤最近在做什么？数万亿的AI投资能回本吗？（2024年11月04日）
- 现在我们的主要任务是建设AI云，做足准备确保公司能向通用人工智能扩展（scale AI to AGI）。
- 现在我们最大的AI云已经接入了超过5万个GPU
- 至于商汤，我们是独立于互联网巨头之外的（字节跳动、阿里巴巴、腾讯和百度），唯一一个大型 AI 云平台
震撼预警：满血版o1倒计时！奥特曼完整专访流出：o系列疯狂迭代，马上起飞（2024年11月05日）
- 几天前的OpenAI伦敦开发者日上，来自20VC的Harry Stebbings，与Altman开启了线上对谈。
- 他再次强调了，如果企业正在开发一个工具，是为了绕过某个模型的缺点，那么这个工具很快就会被淘汰掉。（可能在OpenAI下一代模型中自然就解决了。）
- 在人们认知误区上，Altman称更多的是我们都还没有直觉去理解在未来世界里AI智能体会是什么样子。
- 比如，不是让AI智能体给一家餐厅打电话订餐， 而是让它同时联系300家餐厅，并找出哪一家对你来说最特别的。不仅如此，在300个地方可以接电话的也是智能体。它可以进行人类无法做到的大规模并行操作。
- Q：通常SaaS是按用户数量收费，但现在AI智能体实际上是在替代人力。考虑到AI智能体可能成为企业劳动力的核心部分，你如何看待未来的定价模式？
- A：对此，Altman推测道，你可以选择使用1个、10个或100个GPU来持续处理问题。这不是按用户数或按智能体数收费，而是基于持续为你工作的计算量来定价。
- Q：你如何看待OpenAI模型如何随着时间的推移继续保持差异化，以及你最想关注哪些方面来扩大这种差异化？
- A：推理是OpenAI目前最重要的关注领域。多模态工作，以及在模型中加入其他对用户非常重要的功能。
- 团队能够反复去做一些全新的、完全未经证实的事情。这是推动人类进步最重要因素之一。
- 关键是要找到适合公司文化和发展阶段的人才。
- 他表示，自己当然会遇到一些无法理解的模型行为，如失败的训练尝试等等。每当我们接近一个技术范式的极限，都必须开辟新的道路。
- Altman表示，人们确实经常用电力来类比AI，但我认为这在很多方面都说不通。如果非要做类比的话，我认为晶体管可能是一个更好的例子。整个科技行业都从晶体管技术中受益。你使用的产品和服务中涉及了大量晶体管，但你并不会把这些公司看作是「晶体管公司」。同样，未来AI可能会无处不在，但不是每个使用AI的公司都会被称为「AI公司」。
- 科学进步不断超出所有人的预期，而社会变化相对缓慢。当然，从长远来看，社会终究会发生巨大的变化。
明星飞行汽车破产，烧光100亿仍难载人试飞…（2024年11月05日）
- 曾估值235亿的独角兽 Lilium（德国），扛不住了。
- 成立9年以来，Lilium累计筹集了14.5亿美元（约103亿元）的资金，腾讯是主要投资人之一。
- 破产的消息在低空领域炸响，任谁都想不到，这家曾被称为低空领域“特斯拉”的公司，没落速度如此之快，甚至就在四个月之前，Lilium才刚刚在中国开了分公司。
- eVTOL 是 Electric Vertical Takeoff and Landing 的缩写，即电动垂直起降飞行器，是一种采用电力驱动、能够垂直起降的新型城市空中交通工具
手机秒拍动画大片，高级运镜效果惊人！Runway两弹更新，火得一塌糊涂（2024年11月05日）
- Gen-3 Alpha 新近连发了两个新功能：可将真人面部表情精确复刻给AI角色的Act-One，以能够实现3D化的AI摄像头控件。
- Act-One还可以创建多轮对话场景。毫不夸张地说，只要有摄像机，一个人，就可以演一台戏！
- AI摄像头控件，用户可以任意选择在场景中移动的方向、角度、速度，将各种相机移动方式和速度变化相结合。
聊聊自动驾驶中的自动标注（2024年11月05日）
零一万物战略骤转！国内聚焦toB，toC先走海外（2024年11月06日）
- 如果只是执着地把所有资源都用来购买芯片，去烧更大的模型，最后应用没有做起来，带来的生态是相对不健康的。
自动驾驶公司扎堆IPO，回报投资人的时候到了（2024年11月06日）
- 地平线和文远知行
- 抽屉协议是私下签订的协议，通常只有协议双方知晓，类似于被放置在抽屉里，不轻易向外界透露
长远看算法岗真的比开发岗香吗？（2024年11月07日）
- 尤其是这几年大陆，芯片行业爆发，很多公司都开始投入去做芯片，殊不知芯片行业是一个非常烧钱的行业，投入巨大，如果没有核心竞争力，很容易血本无归，这个时候就需要优秀的算法工程师，设计具有差异化的算法，才有可能做出性能优异的产品。
- 你就是块砖，哪里需要哪里搬，不好用就扔，你觉得不爽就跳，跳也不成就转行，就这么几个分支而已
国产AI可以拍微电影了！4K、60帧高清画质，自带音效（2024年11月08日）
- 正是智谱刚升级的新清影，电影级效果、模型能力全面提升、自带音效
- 文本生成（GLM）、图像生成（CogView）、视频生成（CogVideoX）、音效生成（CogSound）、音乐生成（CogMusic）、端对端语音（GLM-4-Voice）、自主代理（AutoGLM）。
无人车大战打响！美国萝卜日爆8000单破纪录，中美对决已到关键转折点（2024年11月08日）
- 自动驾驶汽车 Waymo 8月份在旧金山的日均服务单量已超8800单，远超同期的出租车工作日日均6307单。
- 今年3月起，Waymo在旧金山半岛扩大了服务范围。紧接着6月再次获批，在旧金山全域开放无人驾驶出行服务。
- 谷歌母公司 Alphabet 还在加大对 Waymo 投资，为进一步扩张，研发自动驾驶技术注入新的动力。
- 面对 Waywo、特斯拉等「洋萝卜」的奋起直追，中国「土萝卜」还需要跑得更快，飞得更高。
真·打字P图！字节发布新模型SeedEdit，一句话爆改世界名画，可免费体验（2024年11月11日）
- 照片上色、删除
- Shi Y, Wang P, Huang W. SeedEdit: Align Image Re-Generation to Image Editing[J]. arXiv preprint arXiv:2411.06686, 2024.
怎么才能优雅地向博士导师表达「这周科研没什么进展」？（2024年11月11日）
又一家新势力危了！引入华为技术却没能拯救…（ 2024年11月12日）
- 远航汽车，大运集团旗下的高端新能源品牌。
- 风驰天下大运摩托
- 大运董事长远勤山曾表示过，远航不需要太多技术，自己搞先进技术，可能十年也赶不上博世、华为现在的水平，所以要把最优秀的融合在一起，直接买来再整合。
- 一步慢步步慢，远航H8搭载的是高通8155芯片，而零跑、银河等车型，已经搭载了算力更强的高通8295芯片
国产地表最强视频模型震惊歪果仁，官方现场摇人30s直出！视觉模型进入上下文时代（2024年11月14日）
- 生数科技推出的 Vidu 1.5，成为世界首个支持多主体一致性的多模态模型！
- 只要上传多个角色、物体和地点的图片，就能立即生成每个物体一致的场景，人手制作一部大片的时代真的来了吗？
- 这标志着，视觉模型进入了全新的「上下文」时代，AGI离我们更近了。
AI毒液刷屏抖音小红书！闲鱼10元代生成一次，但官网其实免费（2024年11月10日）
PixVerse V3，来自国内AI视频公司爱诗科技。
当审稿人给的意见，你无法修改的时候怎么办？（2024年11月11日）
- Modify the paper
- Teach the reviewer something new
- Out of scope
- 感谢您的建议，这正是我们未来需要努力的方向，我们也正在进行这方面的工作，您将在我们未来的工作中看到这方面的研究
Scaling Laws终结，量化无用，AI大佬都在审视这篇论文（2024年11月13日）
- 研究发现，在较低精度下训练模型（例如INT3和INT4）会导致较高的损失，而随着精度的提高，损失会减少；同时，随着模型规模的增加，损失也会减少。
- 直觉可能是，当你训练更多的数据时，更多的知识被压缩成权重，给定的扰动会对模型性能造成更大的损害。
- 推理时使用较低精度（例如INT3和INT4）会导致性能下降，即损失的增加；而随着精度的提高，损失会逐渐减少，接近没有进行后训练量化的模型性能。
自动驾驶界秋名山车神！CoRL杰出论文让自驾车学会漂移，机器人整出新活（2024年11月13日）
CoRL 是“Conference on Robot Learning”（机器人学习会议）。这是一个专注于机器人学习和相关领域（如机器学习、控制理论、计算机视觉等）的学术会议

在丰田 Supra 和雷克萨斯 LC 500 上进行的大量实验表明，在不同路况下使用不同轮胎时，单一扩散模型可使两辆车实现可靠的自动漂移
刚刚，谷歌宣布35岁Keras之父Francois Chollet离职（2024年11月14日）
单刷CVPR的男人——Xception，深度学习的启蒙老师之一
大模型应用，有哪些简单却巧妙的上分方法？（2024年11月15日）
客观比不过比主观，主观比不过 cherry pick
不做Sora背后：百度的多模态路线是什么？（2024年11月16日）
iRAG巧妙地将认知智能（检索）与生成智能（创作）结合在一起，取长补短，相得益彰。
如今百度“曦灵”数字人、“慧播星”数字人已广泛应用于新闻播报、直播电商等场景。
生成证件照，https://github/Zeyi-Lin/HivisionIDPhotos
目标检测和感受野的总结和想法（2024年11月16日）
实际感受野依然是一个超参数，他是会随着训练的过程发生变化，我们无法准确计算出来实际感受野，但是通过分析anchor，实际感受野和理论感受野，我们知道了anchor<实际感受野<理论感受野，所以anchor还是会被理论感受野的大小所限制
Luo W, Li Y, Urtasun R, et al. Understanding the effective receptive field in deep convolutional neural networks[J]. Advances in neural information processing systems, 2016, 29.
实测腾讯元宝2.0：图文视频啥都能搜，论文绘画全搞定（2024年11月17日）
- 背靠腾讯独家的公众号、视频号等高质量内容，元宝搜索的结果非常详细
- 这次元宝2.0更新的另一个亮点是集成了腾讯文档、电脑管家和输入法，各应用生态全部打通！
- 当运行了电脑管家之后，AI助手就会默认在后台运行，你可以在上网冲浪的时候随时搜索、解释或翻译任意关键词。
怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了（2024年11月17日）
Grok 3证明黎曼猜想，训练遭灾难性事件？数学家称不夸张，两年内AI将解出千禧年难题（ 2024年11月18日）
Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习（2024年11月18日）
- OpenAI 创始成员、研究科学家、原特斯拉前 AI 高级总监、AI 领域的大神 Andrej Karpathy 一直在后悔。后悔自己没有早点带领 OpenAI 开创大模型时代。
- 表征学习，也称为特征学习，在机器学习领域中占据着重要的地位。它是一种将原始数据转换成为能够被机器学习有效开发的数据的技术集合。常用的方法包括主成分分析（PCA）、独立成分分析（ICA）、自动编码（Auto-encoders）、矩阵分解、各种聚类分析及其变形等。
对标o1，Kimi放出了最能打的国产模型（2024年11月18日）
Kimi 的最新一代推理模型 k0-math，在数学能力已实现对标 OpenAI o1-mini 和 o1-preview。
逼真到离谱！1000个人类「克隆」进西部世界，AI相似度85%细节太炸裂（2024年11月19日）
- 通过招募1052名参与者，涵盖了不同性别、年龄、地区等，每人接受GPT-4o采访了2个小时。
- 然后将得到的访谈内容作为文字提示，输入语言模型中，复刻出每个个体对应的AI智能体。
- 所有智能体在综合社会调查中的回答，与原参与者两周后自我复现答案准确率接近85%，并在人格预测、实验复制中表现与人类相当。
登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做（2024年11月19日）
- 2020 年，谷歌发表了预印本论文《Chip Placement with Deep Reinforcement Learning》，介绍了其设计芯片布局的新型强化学习方法 AlphaChip。在 2021 年，这项研究发表在 Nature 上并开源了出来。
- 此后，AlphaChip 激发了 AI 芯片设计方面的大量工作，并在谷歌母公司 Alphabet 三代 TPU、数据中心 CPU 和其他芯片中部署，并由外部芯片制造商扩展。
- https://github/google-research/circuit_training
腾讯AI大牛，被曝投身视频生成创业（ 2024年11月19日）
刘威——腾讯杰出科学家、腾讯混元大模型技术负责人之一，腾讯 AI Lab 早期的三剑客

创业公司，Video Rebirth，视频生成，行业内有快手可灵、爱诗科技、生数科技等团队的AI视频应用
「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini（2024年11月20日）
- 刚刚，国际权威榜单LiveBench最新榜单出炉，一个国产黑马闪耀其中。没错，它就是阶跃星辰自研的万亿参数大模型Step-2。Step-2以碾压之势，强势杀入LiveBench全球前五，一举夺得国内TOP 1。
- 值得一提的是，LiveBench 是由图灵奖得主Yann LeCun联手Abacus.AI、NYU、英伟达等多家机构推出的LLM评测基准。其含金量，不言而喻。而且，它被行业誉为「世界上第一个不可玩弄的LLM基准测试」。
- 阶跃星辰创始人、CEO姜大昕博士表示，模型扩大到万亿级别时，MoE几乎是必选项，这是权衡了性能、参数量、训练成本、推理成本等各个维度后的最佳选择。
国产4o大模型，秒懂国风李子柒（2024年11月20日）
昆仑万维的Skyo，基于天工大模型4.0 4o版（Skywork 4o）打造。
实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍（2024年11月20日）
昆仑万维开发的 Skyo 实时语音对话助手，Skyo 基于背后的天工大模型 4.0 4o 版（Skywork 4o）打造
美国AI曼哈顿计划793页文件曝光！全力研发AGI，十大战略直指中国（2024年11月20日）
3名高中生中了AI顶会NeurIPS！来自人大附中、北师大实验中学、上海星河湾双语学校（2024年11月20日）
大会一共收到了全球高中生提交的330个项目，最终，评出4篇获奖论文，21篇Spotlight，7.5%的中奖率一点不亚于硕士博士的竞争激烈程度。
AI版周扒皮！打字速度慢、鼠标超30秒未动，就被AI「警告」，Karpathy下场评论（2024年11月24日）
GAN之父新冠后惊传罹患双重顽疾！听力减退心动过速，全网求医（2024年11月25日）
除了「GAN」之父的名号，他还是「花书」的作者，这本书原名就叫做「深度学习」
Goodfellow在斯坦福大学计算机科学系读完了本科和硕士，师从AI大牛吴恩达。
博士生涯，就读于加拿大蒙特利尔大学，师从Yoshua Bengio 和 Aaron Courville，
AI推演OpenAI内斗结果：奥特曼仅有20%胜率，马斯克也有机会接盘？？？（2024年11月25日）
和梁朝伟同获港科荣誉博士，黄仁勋与沈向洋对谈Scaling Law、后训练、机器人和爱情（2024年11月25日）
- 11 月 23 日，香港科技大学举行了今年度的学位颁授典礼。英伟达创始人和 CEO 黄仁勋又新增一个荣誉工程学博士头衔，与他一同获得荣誉博士学位的还有著名影星梁朝伟、2013 年诺贝尔化学奖得主 Michael Levitt、菲尔兹奖得主 David Mumford。
- 我们需要后训练，也就是深入学习特定技能的过程。后训练涉及强化学习、人类反馈、人工智能反馈、合成数据生成、多路径学习等多种技术。
- 核心在于，你开始进入一个特定领域的深度学习，试图深入理解其中的某些内容。这就是后训练的过程。一旦你选择了一份职业，你会再次进行大量的学习。
- 然后，在后续阶段，就到了我们所说的 「思考」。这可以被称为 test time scaling。在这个阶段，有些问题的答案可以直截了当地知道，而有些问题则需要你将其分解，逐步追溯到第一性原理，再从原点出发，为每个问题找到解决方案。这可能需要你进行迭代，可能需要你分情况讨论，模拟不同的结果。
博世将裁员5500人，汽车行业寒冬来了？（ 2024年11月26日）
大模型创业太累大牛逃回大厂：融资1亿美金捉襟见肘，没日没夜加班胖了30斤（ 2024年11月26日）
Yi Tay，曾是Reka AI联合创始人，也曾是谷歌大模型PaLM、UL2、Flan-2、Bard的重要参与者。
2024全球无人机市场洞察报告（ 2024年11月27日）

微型化、高速长续航化、智能化
遗憾不？原来百度2017年就研究过Scaling Law，连Anthropic CEO灵感都来自百度（2024年11月27日）
- Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint arXiv:2001.08361, 2020.
- 百度，Hestness J, Narang S, Ardalani N, et al. Deep learning scaling is predictable, empirically[J]. arXiv preprint arXiv:1712.00409, 2017.
周鸿祎黑客短剧震撼首秀，直接带火纳米搜索！搜学写创，开启AI搜索3.0时代（2024年11月28日）
- 11月初，ChatGPT正式推出AI搜索体验，成为一款搜索引擎；11月中，奥特曼正式官宣ChatGPT新域名——chat，据称为此豪掷了1500-2000万美金。
- 我们可以根据其中的「AI含量」将路线简单分为三个阶段——1.0（网页搜索引擎）、2.0（答案生成引擎）、3.0（多模态创作引擎）。
- 拍照问问
当AI创造AI，就是库兹韦尔「奇点」临近时？人类正处于自我改进AI爆炸边缘（2024年11月28日）
男生看见雷军路过，直接冲过去递简历，结果…（2024年11月28日）
吴恩达出手，开源最新Python包！助力开发者大模型开发！（2024年11月29日）
pip install aisuite
统一接口设计，支持多个 AI 提供商的模型
当前，aisuite 支持的提供商包括：OpenAI、Anthropic、Azure、Google、AWS、Groq、Mistral、HuggingFace、Ollama
端到端已来，智驾仿真测试该怎么做？（2024年11月29日）
过去，智能驾驶方案一直是按照感知、决策、规划、控制这类规则驱动（rule-based）的模块化方法推进，然而规则驱动的模块化方案存在“规则难以穷举、ODD边界模糊、扩展与维护升级困难”等局限性。因此端到端的学习驱动（learning-based）方案应运而生。
美芯片新禁令下周出台，100+公司或列入实体清单！（2024年11月29日）
深入浅出，算法工程师的职业生涯发展之路（2024年11月30日）
- 夯实技术基础阶段（工作1-3年）
- 解决业务问题阶段（工作4-5年）
- 提升软实力阶段（工作6-8年）
- 扩大影响力阶段

12、December

腾讯AI视频生成曝光！与Sora同提示词PK，你来投票（2024年12月01日）
提示词：一只大象站在漂浮在蓝色水面的白色轻薄床单上来回踱步。
你说AI它懂物理吧，大象这么重压上去居然不沉底？但你说他不懂物理吧，床单被踩出的褶皱好像又是那么回事。
2024年AI投资138亿美元暴增6倍！OpenAI市场份额下降16%，Anthropic谷歌双赢（ 2024年12月01日）
设计模式：RAG（Retrieval-Augmented Generation），而非微调
RAG的工作流程通常包括以下几个步骤：
- 检索：根据用户的查询内容，从外部知识库中检索出最相关的文档或段落。这一步通常使用各种搜索引擎技术，如倒排索引、向量检索等，以确保快速且准确地找到相关信息。
- 增强：将检索到的相关信息与用户查询一起嵌入到一个预设的提示词模板中，以增强模型对特定问题的理解和回答能力。
- 生成：将经过检索增强的提示词内容输入到大型语言模型中，以生成所需的输出。这一步通常利用预训练的序列到序列模型，如T5、BART等，来生成连贯、准确且信息丰富的回答或文本。
马斯克全力阻止OpenAI转盈利！已向法院申请禁令，奥特曼：我和爱人休假盖树屋（2024年12月01日）
吉利系智驾或再将整合（2024年12月03日）
Smart汽车（奔驰和吉利）与极斯的智驾团队正在接触，未来双方在智驾上或许有合作的可能性。
Smart汽车与极斯同时作为吉利旗下的整车品牌，随着吉利最近大规模整合旗下各个整车品牌，Smart汽车与极斯在智驾方面合作的可能性非常高。
腾讯版Sora发布即开源！130亿参数，模型权重、推理代码全开放（ 2024年12月03日）
目前该模型已上线腾讯元宝APP，用户可在AI应用中的“AI视频”板块申请试用。
HunyuanVideo
“云计算一哥”一口气发布6个大模型、3nm芯片！多模态还要搞Any-to-Any（2024年12月04日）
亚马逊CEO Andy Jassy 亲自站台 re:Invent24，发布自家新款AI多模态系列大模型，名曰 Amazon Nova。

将来我们不仅要Speech to Speech，更要Any-to-Any！

洞悉了背后的实用主义逻辑，也就不难理解，亚马逊云科技为何选择在这个时间节点上发布一系列多模态大模型，还是因为客户有需要。这种需要，具体而言，就是客户在模型上的选择，毕竟“没有一个模型可以一统天下”，每个模型都有自己所擅长的领域。
高中辍学天才、谷歌ViT三大将集体跳槽OpenAI！组队Sora决战AGI2024年12月05）
OpenAI从谷歌DeepMind挖走了3名顶级工程师！
2020年曾一起提出了神经网络架构Big Transfer (BiT)
2021年作为共同一作发布的论文 ViT
豆包代码大模型曝光！在字节最新开源基准里，多种编程语言性能仅次于OpenAI/Claude（2024年12月05日）
Doubao-Coder

解决难题，闭源模型普遍优于开源模型
Liu S, Zhu H, Liu J, et al. FullStack Bench: Evaluating LLMs as Full Stack Coder[J]. arXiv preprint arXiv:2412.00535, 2024.
罕见！云计算一哥CTO，现场不发产品只讲教训（2024年12月06日）
亚马逊云科技的CTO——Werner Vogels
Innovation Driven by Customer Needs.
Lesson1：未雨绸缪
Make evolvability a requirement.
Lesson2：化繁为简
Break complexity into pieces.
Lesson3：各司其职
Align organization to architecture.
Lesson4：小而精美
Organize into cells.
Lesson5：未卜先知
Design predictable systems.
Lesson6：机器代劳
Automate complexity.
哪吒CEO张勇又曝离职！去大力牛魔王造货车了 (2024年12月07日)
加盟物流商用车品牌“大力牛魔王”
把机器人做成人形，意义何在？（2024年12月07日）
- 马斯克做人形机器人的最底层原因是第一性原理。根据第一性原理，首先，机器人做成人形就能用人的视频数据训练机器的AI，其次，人类的工具都是适应人的。
- 人型机器人最强的优势，那就是其实它可以是一个人的“数字孪生”
OpenAI强化微调登场：几十条数据o1-mini反超o1暴涨80%，奥特曼：今年最大惊喜（2024年12月07日）
- OpenAI“双12”直播第二天
- 新功能强化微调（Reinforcement Fine-Tuning），使用极少训练数据即在特定领域轻松地创建专家模型。少到什么程度呢？最低几十个例子就可以
- 目前OpenAI内部测试中，强化微调在生物化学、安全、法律和医疗保健领域取得成功。
严禁AI评审！CVPR 2025重申大模型审稿0容忍，一首拒稿小诗爆笑全场（2024年12月08日）
曾硬刚小米，估值 60 亿美元的独角兽被宣布破产！（ 2024年12月09日）
PMF（Product Market Fit），指的是产品市场匹配度
2014年，柔宇科技率先成功开发0.01毫米全球最薄柔性显示屏引发行业关注。
2015年7月，柔宇科技正式启动了世界上首条超薄柔性显示模组和柔性传感器的量产线。
产线投产后仅5个多月，柔宇科技便发布了全球第一款可折叠柔性屏手机FIex Pai柔派手机，8999元起售。
o1 pro挑战美国本科生最难数学竞赛，30分钟交卷却被「大佬」现场打脸！（2024年12月09日）
美国本科生最难数学竞赛，o1 pro竟然只用半小时就全部做出来了？要知道，参赛学生的正常答题时长是6小时。不过网友们仔细看它的解题过程后发现，错误率似乎高达100%，12道题没有一道完全正确？
哪吒CEO张勇确认下岗！实控人走到台前，全员持股，出海求生（2024年12月09日）
张勇长期在销售一线打拼，曾用4年的时间把北汽新能源的年产销量从0做到了15万台。让北汽新能源成为了国内首家销量突破10万的纯电动车企。
2022年1月，张勇带领哪吒汽车实现累计销量10万辆，同年10月，累计销量达到20万辆，整个2022年，也是哪吒汽车的高光时刻，以年销15.21万辆的成绩力压蔚小理成为新势力销冠。
Scaling Law不是唯一视角！清华刘知远团队提出大模型“密度定律”：模型能力密度100天翻番
- 清华NLP实验室刘知远教授团队，最新提出大模型的密度定律（densing law），表达形式让人想到芯片领域的摩尔定律：
- 大约每过3.3个月（100天），就能用参数量减半的模型达到当前最先进模型的性能水平。
- 模型高性价比有效期不断缩短。
被字节索赔800万的实习生，夺得NeurIPS 2024最佳论文奖！（2024年12月10日）
大众集团爆发大罢工！员工挤满总部广场，9大工厂停产（2024年12月10日）
Sora开服被挤爆！支持中文/编剧模式/作品分享，145块就能玩（2024年12月10日）
Plus会员（每月20刀）和Pro会员（每月200刀）的权益不一样。
Sora火爆上线系统秒瘫，奥特曼直播第三更网友震翻！20秒1080p拍大片再近AGI（2024年12月10日）
Sora Turbo
这次，OpenAI着重介绍了Sora的几项功能：Remix（重混）、Re-cut（重新剪辑）、Storyboard（故事板）、Loop（循环）、Blend（混合）以及Style presets（风格预设）。
大模型「标王」硬气：不做Sora ，要帮更多企业做出Sora（2024年12月10日）
「 Sora 这种，无论多火，百度都不去做。」公开场合谈及此，李彦宏态度明确。
百度要做的是基建，帮更多用户做出自己的 Sora ，打造无数个「超级有用」的多模态应用。
大模型训练的本质是什么？以及大模型训练的核心要点（2024年12月10日）
目标函数优化
数据驱动学习
高纬空间的拟合
泛化和正则化
计算资源和分布式计算
最终目标
Sora/可灵/海螺/混元等大PK！多场景对比，现在谁是最强视频生成模型？（2024年12月11日）
诺奖青睐AI的这一年，这些人工智能公司&人物&产品值得关注（ 2024年12月11日）
一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明（2024年12月11日）
引用超85000次的经典论文 GAN 获 NeurIPS 2024时间检验奖后，它的起源和背后故事也被抛了出来。
Robotaxi全球三强之一突然倒下：烧光700亿落地百余辆…（ 2024年12月12日）
Cruise，这家自动驾驶赛道曾经的明星独角兽，和Waymo、百度Apollo并列三强的Robotaxi玩家，烧光700亿后，走向自己的终局。
Waymo、Apollo的落地进展，以及小马、文远等等L4玩家成功上市，也说明无人驾驶正在迎来新又一波高潮。
Cruise的退出，反倒更好的证明，L4从技术体系、落地场景、商业模式、运营管理等等，都是和L2+完全泾渭分明的另一桩生意。
贾樟柯李少红都用AI拍电影了，还传递经验：哪个功能最实用？（ 2024年12月12日）

快手可灵。联手国内最知名的9名影视工作者：李少红（《大明宫词》）、贾樟柯（《三峡好人》）、叶锦添（《英雄本色》）、薛晓路（《不要和陌生人说话》）、俞白眉（《战狼2》）、董润年（《年会不能停！》）、张吃鱼（《独行月球》）、王子川（《朱同在三年级丢失了超能力》）、王卯卯（“兔斯基”原创者）。每人和AIGC创作者打配合，用可灵生成，各AIGC了1部3-5分钟的电影短片，涵盖奇幻、志怪、亲情、动画等多种类型。
Meta公布黑科技：戴上腕带即可隔空打字，引领神经接口AR革命（2024年12月13日）
- Sivakumar V, Seely J, Du A, et al. emg2qwerty: A Large Dataset with Baselines for Touch Typing using Surface Electromyography[J]. arXiv preprint arXiv:2410.20081, 2024.
- https://github/facebookresearch/emg2qwerty
Ilya宣判：预训练即将终结！NeurIPS现场沸腾（2024年12月14日）
继李飞飞、Bengio、何恺明之后，在刚刚的NeurIPS 2024中，Ilya Sutskever最新演讲也来了。
在谈到未来的发展方向时，Ilya提到了“Agent”和“合成数据”的概念。
李飞飞、Bengio和何恺明在NIPS干了什么！（2024年12月15日）
From Seeing to Doing
直击CCAI大会：院士专家舌战激辩，20个AI案例C位出道，海淀无愧AI科技“梦工厂”（2024年12月15日）
众所周知，海淀区素有“中国硅谷”之称
从骁龙8至尊版，我看到了AI手机的未来 | 智在终端（ 2024年12月17日）
CPU+GPU+NPU
在猛攻性能的基础之上，高通在这一代骁龙旗舰芯片上，又着重强调了性能与功耗的平衡。
和腾讯混元的合作中则提到，双方将基于骁龙8至尊版共同推动混元大模型7B和3B版本的终端部署。
Pika 2.0横扫Sora惊艳全网，一键颠覆广告业！上传自拍秒变好莱坞大片，和明星同框不是梦（2024年12月18日）
新增的「场景元素」功能了。我们可以随意上传自己想要的角色、物体、服装、地点和场景设置，来创建想要的镜头。

如今，巴黎世家、Fenty、Vogue在内的主要品牌，都已经利用Pika模型生成创意的社交广告。
图森未来陈默：自动驾驶无以为继，急转驶入AIGC游戏，已拿下金庸群侠传、三体IP | 智者访谈（2024年12月20日）
作为「全球自动驾驶第一股」，图森未来在 2021 年成功登陆纳斯达克

陈默直言，L4 级自动驾驶要实现商业化，必须在营运成本上比人工驾驶更有优势，而这一点在当前技术和市场环境下遥遥无期，因此图森转向动漫游戏，正是看中了该市场的盈利能力和持续增长潜力。

做不到让单车成本低于传统人工驾驶

对于 L4 级无人驾驶，如果有公司能率先成功，一定是特斯拉。因为特斯拉是唯一同时掌握软硬件的公司，既有自己的车，又有自己的软件，而且因为销量大，对供应商的议价能力很强。

大模型只是一个工具，它可以应用在各个行业，目的和无人驾驶一样，都是为了降低成本。

机器之心：那现在的图森未来是一家什么公司？

陈默：是一家利用人工智能技术做动漫游戏的公司。
o3 发布了，摔碎了码农的饭碗（2024年12月23日）
为什么不是 o2？因为为了避免版权纠纷，OpenAI 放弃了 o2 的命名，直接叫 o3。
o1 仅仅是验证了 LLM+RL 的范式是跑的通的，但我们并没有认真玩儿。o3 呢，就是用这个范式认真玩儿了，通过 scaling up 的方式来把 LLM+RL 的范式真正的威力给训了出来。
苹果要做智能门铃了？？？（2024年12月23日）
据古尔曼报道，这款新的智能门铃将配备公司的 Secure Enclave 芯片，它专门负责存储和处理 Face ID 信息，与系统其他硬件分开，处理逻辑和其他苹果设备上的生物识别登录信息类似。
昆仑万维方汉：大模型的技术红利在消退，商业模式创新者将成赢家 | MEET 2025（2024年12月23日）
- 昆仑万维董事长兼CEO方汉
- 《智能边界：AI大模型如何推动应用创新》为主题分享了他的所见所闻、所思所想
- 天工大模型1.0->4.0
- 大家可以看到，现在在全球市场上疯狂买量的AI企业一定是中国企业，因为所有的中国企业都在拼命地打磨自己的产品的盈利模式，而不是像美国同行一样有充足的资金去做更深层的工作。
深度学习工作：从追求 SoTA 到揭示新现象（2024年12月25日）
总之我希望社区看这些工作的时候，不要过多讨论 xxx 是不是通往 AGI（通用人工智能）的路子，以及 xxx 的本质是不是就是 xxx，而是分享我们能从新方法看到什么新现象。新的现象才孕育着新的可能
微软开源视觉语言模型！能够执行超过10种不同的视觉任务，检测、分割、识别一切图片（2024年12月25日）
- 最近，Microsoft 推出多模态视觉语言模型 Florence-2，能执行超10种视觉任务，如图像字幕、目标检测等，通过统一表示简化多任务处理，依托FLD-5B数据集实现高精度，采用seq2seq架构提升学习效率
- 可将不同类型的视觉信息和语言信息包括图像描述、目标检测、视觉定位和分割等，整合到一个统一的框架中，帮助模型在不同的任务之间共享知识，提高学习效率。
- 代码链接: https://huggingface.co/microsoft/Florence-2-large
- 在线演示：https://huggingface.co/spaces/gokaygokay/Florence-2
- 上传一张超市货架的照片，让其精准找出牛奶的所在位置。
  上传一张公园里的照片，让模型给该图像起一个对应的标题。
  上传一张果园果树的照片，让模型解释一下该果树上有多少可摘的水果。
英伟达年终大礼，最强AI GPU曝光！全新B300让o1/o3推理性能上天算力爆表（2024年12月27日）
距离GB200和B200的发布才刚刚过去几个月，英伟达便推出了全新一代的AI GPU——GB300和B300。
不过，老黄手里还有一张「绝对王牌」——NVLink。NVL72在推理领域的核心优势在于，它能让72个GPU以超低延迟协同工作、共享显存。而这也是全球唯一具备全连接交换（all-to-all switched connectivity）和全规约运算（all reduce）能力的加速器系统。
突发！OpenAI官宣成为盈利性公司（2024年12月27日）
- 非营利性架构似乎很合适，于是我们通过多种形式筹集捐款，包括现金（1.37 亿美元，其中不到三分之一来自埃隆・马斯克）以及计算额度和折扣（从亚马逊获得 180 万美元，从微软 Azure 和谷歌云各自获得 5000 万美元或更多）。
- 选择一种对使命的长期成功最为有利的非营利 / 营利性架构。
沉淀·静水流深——机器之心2024年度AI榜单揭晓（2024年12月27日）
吹哨人之死：26岁OpenAI举报人离奇自杀，母亲心碎曝出惊人内幕！（2024年12月27日）
- Suchir Balaji
- 11月26日，Balaji 刚刚度过自己的26岁生日。这个前途大好的年轻工程师，在自己的公寓中被发现死亡。
- 在OpenAI任职近4年期间，Balaji 展现出了卓越的才能，从中脱颖而出。在此期间，他参与了ChatGPT后训练阶段的研发，以及o1推理、GPT-4预训练，和WebGPT强化学习过程。
- 在OpenAI，Balaji曾帮忙收集和整理互联网上的数据，用于训练模型。但他认为这种做法不公平，于是在8月辞去了公司职务。
- Balaji所持有的OpenAI股票，足够他在日后购置一套房产，经济上完全没有后顾之忧。
- 他举报说这些AI科技巨头可能正在违反版权法。
2年间AI大模型成本骤降万倍，商业化应用加速跑｜智谱张帆@MEET2025（2024年12月27日）
- 本次量子位MEET 2025智能未来大会上，智谱COO张帆热情分享了智谱大模型的发展、应用、商业化发展、未来方向，以及企业和个人的科技战略构建。
- 记得去年刚刚开始做商业化的时候，智谱当时还是5毛钱1000个tokens，但今天最低已经到了5分钱100万个tokens——这是1万倍。一条曲线是能力上升，一条曲线是成本下降，带来的是什么？带来技术能力快速地落地和应用，这是背景。
雷军千万年薪挖角95后天才少女，AI女神逆风翻盘！（2024年12月29日）
雷军再次出手，以千万级薪酬招揽 DeepSeek 核心研究员、95后AI天才罗福莉。这位曾在国际顶会一次性发表8篇论文的技术大牛，有望领军小米AI大模型团队。
你还说这是AI？我们体验了一波生成亚洲人最好看的文生图大模型（ 2024年12月29日）
- 在 2024 年的尾声，可灵 AI 给所有用户送上了新年大礼包：全新的「可图 1.5」和「可灵 1.6」，目前已全量上线。
- 让这位 AI 模特换上指定款式的服装，再使用一下可灵图生视频功能，一条精美的服装展示视频这不就有了吗？
- 自今年 6 月发布以来，可灵 AI 至今已服务超过 600 万用户，生成 1.75 亿张图片和 6500 万个视频。
谷歌劈柴立军令状：必斩OpenAI，夺回第一！（2024年12月29日）
- 谷歌CEO劈柴在年度战略会议上放出狠话，2025年将是AI领域生死存亡之年。一场足以改变AI未来走向的巅峰对决，即将在2025年全面打响。
- OpenRouterAI的数据显示，谷歌旗下的 Gemini 在开发者中的市场份额从9月份的约5%，直接飙升至>50%市场份额，遥遥领先，连带股价也上涨了14%。
DeepSeek V3“报错家门”：我是ChatGPT（2024年12月29日）
「少数派」小马智行：不神化端到端，也不吹商业化（2024年12月29日）
- 公司副总裁、Robotaxi业务负责人张宁曾多次表示，L2和L4是两个不同的物种，是在不同的约束条件、指标、标准下诞生的产品，它们的纲领性思想也是不同的。
激光雷达会被智能汽车抛弃吗？（2024年12月30日）
一张图生成高质量广视野3D场景，还可控制摄像轨迹（2024年12月30日）
- Liang H, Cao J, Goel V, et al. Wonderland: Navigating 3D Scenes from a Single Image[J]. arXiv preprint arXiv:2412.12091, 2024.
- https://snap-research.github.io/wonderland/
拿下近3亿元融资后，爱诗上线新模型，AI视频生成速度杀入10秒大关（2024年12月30日）
- PixVerse3.5
考研数学得126分、还能编写小游戏，智谱首个推理模型来了，人人免费用（2024年12月31日）
- GLM-Zero 的初代版本 GLM-Zero-Preview，主打深度思考与推理。
- 回看这一整年，智谱动作不断，GLM 家族更加壮大，包括基座模型、多模态模型、视频生成模型、语音模型、推理模型以及智能体方面火出圈的 AutoGLM、GLM-PC，如今这家大模型独角兽的产品矩阵在完整度层面称得上业界领先。
汽车智能座舱分级与综合评价（2024年12月31日）

USB迷 | 专注于互联网分享

【Reading Notes】Favorite Articles from 2024

文章目录

1、January

2、February

3、March

4、April

5、May

6、June

7、July

8、August

9、September

10、October

11、November

12、December

文章目录

1、January

2、February

3、March

4、April

5、May

6、June

7、July

8、August

9、September

10、October

11、November

12、December

与本文相关的文章

评论列表 (0)