🔥51CTO热榜：2025-10-22

UC Berkeley、UW、AI2 等机构联合团队最新工作提出：在恰当的训练范式下，强化学习（RL）不仅能「打磨」已有能力，更能逼出「全新算法」级的推理模式。他们构建了一个专门验证这一命题的测试框架 DELTA，并观察到从「零奖励」到接近100%突破式跃迁的「RL grokking」现象。

有些小伙伴在工作中，可能经常遇到这样的场景：系统上线初期运行良好，随着数据量增长，突然某天接口超时、CPU飙升、甚至整个系统瘫痪。排查半天，发现是某个SQL语句写的有问题，或者是数据库配置不当导致的。

来自清华和快手的研究团队提出了一种新框架 AttnRL，通过引入注意力机制作为探索的「指南针」，显著提升了过程监督强化学习的效率与性能。

在长任务、多交互的Agent式任务中，基于SSM架构（状态空间模型）的模型，比如Mamba，在效率与泛化能力上，展现出超越Transformer的潜力。

周一，AWS美国东部区域突发大规模宕机，波及数千企业与在线服务。事件源于内部监控系统故障，虽已逐步恢复，但再度暴露出云计算依赖的脆弱性。

这套系统的关键，是把文字当作图像来压缩。 DeepSeek 发现，处理图片反而比处理纯文本更节省算力。据其技术论文，系统在保留 97% 信息量的前提下，可将文档压缩至原来的十分之一。

其实在 Spring Cloud Gateway 本身内置了很多通用的过滤器组件，有些功能无需重复开发，直接通过配置就能完成请求修改、参数处理、安全校验等功能。但遗憾的是，很多同学只知道 RewritePath 等常用过滤器，却忽略了官方早已内置的 30+ 过滤器。

OpenAI 正式推出 AI 浏览器 ChatGPT Atlas。这款仅适用于 macOS 系统的产品，以深度整合 ChatGPT 为核心亮点，向谷歌 Chrome 在浏览器市场的霸主地位发起直接挑战。

AI Agent可能也会走类似的路径。短期内，我们会看到越来越多专用的、在特定场景下表现出色的智能助手。但要达到真正的通用智能，确实需要更多时间。

火山引擎多媒体实验室联合南开大学研发的 TempSamp-R1 框架，通过对强化学习技术的突破性创新，为视频大模型的“时空感知力”带来质的飞跃—— 该成果已被人工智能领域顶会 NeurIPS 2025接收。

北京智源人工智能研究院 VectorSpace Lab 团队近日发布了全新的高保真奖励模型系列——EditScore。该工作直面上述挑战，旨在为指令引导的图像编辑任务提供精确、可靠的奖励信号，从而为强化学习在 AIGC 领域的深入应用铺平道路，真正解锁其强大潜力。

据彭博社看到的文件显示，OpenAI 已聘请超过 100 名前投资银行家，协助训练其人工智能系统掌握财务建模技能，目标是取代整个行业初级银行从业者所承担的大量重复性工作。

来自卡耐基梅隆大学（CMU）的研究获得了最佳论文奖，以色列理工学院（Technion）的研究获得最佳学生论文奖。

该计划规定，从 CVPR2026 开始，所有的论文作者都必须报告他们在研究中使用的计算资源。通过汇总这些数据，社区能够更好地了解哪些研究团队有能力参与，哪些研究模式是可持续的，同时也能够展示资源是如何被使用的。

历史热榜