🔥51CTO热榜：2025-09-28

打破思维惯性，「小模型」也能安全又强大！北大-360联合实验室发布TinyR1-32B模型，以仅20k数据的微调，实现了安全性能的里程碑式突破，并兼顾出色的推理与通用能力。

蛋白质折叠是计算生物学的皇冠难题，SimpleFold作为首个仅基于通用Transformer模块的蛋白折叠模型，摒弃了AlphaFold2系列的传统架构，能够直接将蛋白质序列生成完整的三维原子结构，在CAMEO、CASP基准测试上表现强劲。

在大模型训练时，如何管理权重、避免数值爆炸与丢失？Thinking Machines Lab 的新研究「模块流形」提出了一种新范式，它将传统「救火式」的数值修正，转变为「预防式」的约束优化，为更好地训练大模型提供了全新思路。

杜克大学团队发现，扩散大语言模型只需关注少量「中奖」token，就能在推理时把速度提升61-97倍，还能让模型更懂格式、更听话。新策略DPad不训练也能零成本挑出关键信息，实现「少算多准」的双赢。

奥特曼投下震撼弹：五年后AI将全面超越人类，到2030年诞生的「超级智能」甚至能攻克「量子引力」难题。人类智力的霸权时代，已进入倒计时。

AI 能动性的时代要求系统不仅能思考，更要能干活：包括协同编程（人机协作开发）和自动化科学研究。LIMI 仅用 78 个样本就超越 GPT-5 达 14.1%，并发现了能动性效率原则： AI 能动性不仅来源于数据丰富性，更来自于战略性构建。

最近，OpenAI 又推出了一种名为 GDPval 的新评估方法，用来跟踪模型在具有经济价值的现实世界任务上的表现。

ACL 2025最新研究提出Lexical Diversity-aware RAG (DRAG) 框架，首次系统性地将词汇多样性引入RAG的检索与生成过程，提供了一个轻量、通用且易扩展的解决方案。

近年来，对大语言模型（LLMs）的内部激活值直接进行编辑，被证明是一种有效的推理时对齐方法，能够高效抑制模型生成错误或有害内容等不良行为，从而确保大语言模型应用的安全性与可靠性。

Parallel-R1首次通过强化学习让大语言模型从零开始学会"并行思考"，突破了传统监督微调的局限。本文介绍了其"三步走"战略，揭示模型如何从"计算探索者"进化为"多视角验证者"，并发现并行思考可作为训练中的"探索支架"。这一发现不仅提升数学推理性能，更为理解AI"思考"机制打开新窗口。

图灵奖获得者Richard Sutton，强化学习之父最新采访，认为当前热门的大语言模型是一条死胡同。

超过60%的数据中心存在制冷系统与IT负载不匹配的问题，这直接导致了15-25%的能源浪费。更让人震惊的是，在我接触的项目中，很多运维人员甚至不知道如何准确计算空调送风量与IT负载的匹配关系。

当你构建一个大规模AI系统时，你其实是在把不同的代理设计模式组合起来。每个模式都有自己的阶段、构建方法、输出和评估。如果我们退一步，把这些模式归类，它们可以分成17种高层架构，这些架构捕捉了代理系统可能采用的主要形式……

评估 LLM 绝不是一个“一劳永逸”的任务。随着你的模型和用户群不断演变，你的评估策略也需要与时俱进。通过将离线基准测试与实时洞察相结合，利用追踪机制，并对新技术保持开放态度，你将在构建更可靠、更有影响力的 LLM 应用的道路上走得更远。

为你的 RAG 应用选对 embedding 模型不是只挑基准上最高分的那个。像 MTEB 的工具有帮助，但它们不能告诉你一切。重要是看数字之外，考虑对你项目真重要的，像语言支持、专业词汇、内存限，和文本长度。

当LLM对上下文证据“选择性失明”，RAG也无能为力？来自蒙特利尔大学与MetaGPT团队的CARE框架，开创“原生检索增强推理”新范式，让模型在思考中自主引用证据，无需外挂数据库，从根本上提升上下文保真度。

当AI因“内卷”而丧失创造力，腾讯AI Lab的EVOL-RL框架带来了破局之钥。它不依赖标签，而是用“选择+变异”的进化法则，让大模型在无监督学习中实现真正意义上的持续“演化”，而非狭隘“适应”。

研究者提出了更具现实意义的任务设定，终身行人重识别（Lifelong Person Re-ID, LReID）。该任务要求模型在持续接收新域数据的过程中，能够高效地增量学习新知识，同时保持对先前已学习域中身份信息的辨识能力，从而实现跨时间与跨域的长期学习与知识保留。

逐帧视频生成类似于语言模型中的链式思维。就像链式思维（CoT）使语言模型能够用符号进行推理一样，“帧链”（CoF）使视频模型能够在时间和空间上进行推理。

OpenAI被曝在用户不知情下，强制将GPT-4、GPT-5等模型路由至两款低算力敏感模型「gpt-5-chat-safety」与「gpt-5-a-t-mini」，导致回复被过滤或替换，引发用户对选择权和付费权益的质疑。该现象已在社交媒体广泛验证。

历史热榜