🔥51CTO热榜:2025-10-28

在一篇论文中,研究人员测试了 11 种 LLM 如何回应超过 11500 条寻求建议的查询,其中许多查询描述了不当行为或伤害。结果发现 LLM 附和用户行为的频率比人类高出 50%,即便用户的提问涉及操纵、欺骗或其他人际伤害等情境,模型仍倾向于给予肯定回应。
虽然端到端被视为自动驾驶的未来,但在业界,具体的软件算法路线也一直存在VLA和世界模型之争。
来自中国科学院软件研究所团队的最新研究给出了一个出乎意料的答案:真正的瓶颈,在于那个我们用了40多年、无比熟悉的图形用户界面(GUI) 。
风投人Deedy在推特上整理了一份OpenAI现在的产品线,他表示这让他想起了当年的Facebook和Google。
来自S-Lab、新加坡南洋理工大学、商汤科技、美国密歇根大学、德国马普所的研究员提出了Puffin统一多模态模型。它能整合理解相机参数(如角度、视野)与按相机参数生成对应视角图片的能力。
最新调查显示,勒索软件正让企业陷入“付了也没用”的恶性循环。保险商Hiscox的研究发现,40%支付赎金的公司仍未能恢复数据,而全球勒索软件攻击数量在2025年已同比暴增近两倍。
AI原本被寄望于提升效率、释放创造力,但现实中却出现了令人头疼的新现象——“AI工作烂稿”(AI Workslop)。越来越多员工在工作中收到看似完美、实则空洞的AI生成的内容,这些“假生产力”不仅让团队效率下降,还破坏了同事间的信任。
浏览器是单线程的,所有任务都要经过事件循环(Event Loop)来调度。当你调用 setTimeout(fn, 0) 时,这个任务会被放进 “宏任务队列” 里,只有当主线程空出来,才会去执行。
刚刚,谷歌DeepMind团体的一篇论文登上Nature。
香港中文大学,香港科技大学,香港大学和字节跳动共同研发的系统DreamOmni2,实现图像编辑与生成领域最新SOTA。
OpenAI 于当地时间周一发布了最新数据,揭示了大量 ChatGPT 用户在与人工智能聊天机器人交流时正面临心理健康问题。该公司表示,在任意一周内,约有 0.15% 的活跃用户会进行“包含明确自杀计划或意图迹象”的对话。鉴于 ChatGPT 每周活跃用户超过 8 亿人,这意味着每周有超过 100 万人向其倾诉自杀倾向。
学界杀入主赛道!UCL 校园团队 EuniAI 抛出开源智能体 Prometheus,在 SWE-bench Verified 上 71.2% Pass@1、主榜实锤合并;成本低至 $0.23/issue。
简单来说,当学生模型与教师模型的行为一致时,KL散度为零;当学生模型的选择与教师模型的期望相差甚远时,KL散度会变得很大,从而产生一个强烈的负面奖励(惩罚)。
在文化遗产与人工智能的交叉处,有一类问题既美也难:如何让机器「看懂」古希腊的陶器——不仅能识别它的形状或图案,还能推断年代、产地、工坊甚至艺术归属?
本篇文章重点对多模态大模型在具身推理的多个任务上进行评测和对失败进行归因分析,并且提供了详细的失败测评,并且设计Agent算法进行改进。作者希望分析结果有利于多模态大模型和具身智能在未来的迭代。
对于机器人来说,世界模型真的有必要想象出精确的未来画面吗?在一篇新论文中,来自华盛顿大学、索尼 AI 的研究者提出了这个疑问。
我们探讨了在策略蒸馏在训练小型模型进行数学推理或持续学习助手等方面的应用。我们将在策略蒸馏与其他两种后训练方法进行了比较:离策略蒸馏和在策略 RL。
Monarch现已作为开源项目在GitHub上提供,包含完整的文档、示例notebook以及与Lightning.ai的集成指南。该框架的目标是让集群规模的编排变得像本地开发一样直观,为研究人员和工程师提供从原型到大规模分布式训练的平滑路径。
近日,由上海交通大学、清华大学、微软雷德蒙德研究院、上海 AI Lab 等机构研究者联合撰写的最新综述论文系统回顾了大语言模型在数据分析领域的整体演进:从传统规则化流程到智能协作,从单模态到多模态融合,并提出构建「通用数据分析智能体(General Data Analyst Agent)」的新范式。
Earth-Agent 为地球观测数据分析提供了一个新的学习范式:不再像 MLLM 将全部能力编码到大模型预训练的参数中,而是将能力外化为一个结构化的、可随时调用的工具库,让大模型扮演一个了解 「何时调度和决策」 的大脑。