🔥51CTO热榜:2025-10-22

UC Berkeley、UW、AI2 等机构联合团队最新工作提出:在恰当的训练范式下,强化学习(RL)不仅能「打磨」已有能力,更能逼出「全新算法」级的推理模式。他们构建了一个专门验证这一命题的测试框架 DELTA,并观察到从「零奖励」到接近100%突破式跃迁的「RL grokking」现象。
有些小伙伴在工作中,可能经常遇到这样的场景:系统上线初期运行良好,随着数据量增长,突然某天接口超时、CPU飙升、甚至整个系统瘫痪。排查半天,发现是某个SQL语句写的有问题,或者是数据库配置不当导致的。
来自清华和快手的研究团队提出了一种新框架 AttnRL,通过引入注意力机制作为探索的「指南针」,显著提升了过程监督强化学习的效率与性能。
在长任务、多交互的Agent式任务中,基于SSM架构(状态空间模型)的模型,比如Mamba,在效率与泛化能力上,展现出超越Transformer的潜力。
周一,AWS美国东部区域突发大规模宕机,波及数千企业与在线服务。事件源于内部监控系统故障,虽已逐步恢复,但再度暴露出云计算依赖的脆弱性。
这套系统的关键,是把文字当作图像来压缩。 DeepSeek 发现,处理图片反而比处理纯文本更节省算力。据其技术论文,系统在保留 97% 信息量的前提下,可将文档压缩至原来的十分之一。
其实在 Spring Cloud Gateway 本身内置了很多通用的过滤器组件,有些功能无需重复开发,直接通过配置就能完成请求修改、参数处理、安全校验等功能。但遗憾的是,很多同学只知道 RewritePath 等常用过滤器,却忽略了官方早已内置的 30+ 过滤器。
OpenAI​ 正式推出 AI 浏览器 ChatGPT Atlas。这款仅适用于 macOS 系统的产品,以深度整合 ChatGPT 为核心亮点,向谷歌 Chrome 在浏览器市场的霸主地位发起直接挑战。
AI Agent可能也会走类似的路径。短期内,我们会看到越来越多专用的、在特定场景下表现出色的智能助手。但要达到真正的通用智能,确实需要更多时间。
火山引擎多媒体实验室联合南开大学研发的 TempSamp-R1 框架,通过对强化学习技术的突破性创新,为视频大模型的“时空感知力”带来质的飞跃—— 该成果已被人工智能领域顶会 NeurIPS 2025接收。
北京智源人工智能研究院 VectorSpace Lab 团队近日发布了全新的高保真奖励模型系列——EditScore。该工作直面上述挑战,旨在为指令引导的图像编辑任务提供精确、可靠的奖励信号,从而为强化学习在 AIGC 领域的深入应用铺平道路,真正解锁其强大潜力。
据彭博社看到的文件显示,OpenAI 已聘请超过 100 名前投资银行家,协助训练其人工智能系统掌握财务建模技能,目标是取代整个行业初级银行从业者所承担的大量重复性工作。
来自卡耐基梅隆大学(CMU)的研究获得了最佳论文奖,以色列理工学院(Technion)的研究获得最佳学生论文奖。
该计划规定,从 CVPR2026 开始,所有的论文作者都必须报告他们在研究中使用的计算资源。通过汇总这些数据,社区能够更好地了解哪些研究团队有能力参与,哪些研究模式是可持续的,同时也能够展示资源是如何被使用的。