🔥51CTO热榜:2026-05-29

这项工作从训练机制出发,让机器人动作天然具有连续性,实现了 "连音" 般的流畅执行,在五个真实世界操作任务上超越了现有方法,为具身智能领域的动作生成研究提供了新的思路。
10:21  51CTO  谷歌AI不认识Google
今天,又有新的问题出现了,这一次是谷歌搜索。有用户发现,近日升级了 AI 能力的谷歌搜索在面对「google 里面有几个 P」这样的简单问题时竟然失败了!
来自清华大学、中山大学、新加坡国立大学、国家超级计算深圳中心等单位的研究团队提出面向全球地球观测数据的生成式压缩框架 D2AR,并在灵晟超级计算机上完成 Exascale 级训练。
当对话型 AI 服务于数十亿用户时,我们能否看见用户没说出口的那一层?JHU、MIT 和 Google Research 给出了新的解法。
如果你在团队里有一点点影响力,现在就可以做这件事,不需要等公司出正式文件,不需要专业的安全团队。花半个小时,对着红黄绿的框架,把你们团队的边界梳理一遍,发给大家。这件事,比大多数人以为的,重要得多。
Anthropic 表示,新模型构建于 Opus 4.7 基础之上,具备更敏锐的判断力,对自身进展的「诚实度」更高,并且能够比前一代模型更长时间地独立工作。
香港科技大学(广州)DIAL Lab和Foundation Agents开源社区联合推出了AutoWebWorld(AWW)。
判断一个机器学习模型的内部表示,到底对不对得上真实世界的结构,要看它能不能还原世界里的真实变量。
初创公司Axiom Math宣布,他们从2026年2月开始提交的8篇论文,到5月28日有5篇已经通过同行评审,登上学术期刊。。
从2023年底构想这个方向,到芯片制造、实验验证、论文发表,将近两年半。团队的判断是:光计算最大的潜力,藏在第三个维度里。
很多 OCR 工作会把重点放在模型架构创新上,但 ABot-OCR 的主线其实更偏“系统工程”:先把数据可信度做厚,再把训练目标做清晰,最后用约束型 RL 修结构。
最近几年一直尝试用ai来辅助自己编程,vibe coding、龙虾、codex/claude啥的也都玩过,随着今年agent这种模式越来越火。Agent这种多轮循环调用的模式,消耗的 Token 简直像个无底洞!每次它识别、纠错、反思、再调用工具,后台的账单也在不断增加。
公告称Opus 4.8最显著的改进是诚实性。AI的一大问题是会草率下结论,即使证据不足,也会自信地声称取得了进展。但Opus 4.8更有可能标记出其工作中的不确定性,并且不太可能做出未经证实的断言。
本文介绍AI导购技术在 vivo 官网 APP 的落地实践,通过定义解决问题的边界能力、搭建多层架构方案、方案落地这三大块内容逐步递进地展开 AI 导购在为用户服务的应用过程。
Evolutionairy AI 技术团队把这种盲区称为“性能与心理的断层”。AI 的行为已经复杂到足以影响人类的信任、情绪、决策,但我们却没有一套像心理学那样的工具去理解它的行为结构。
尽管 UserHarness 的表现非常亮眼,但它并不是万能的。它在高阶嵌套信念上仍然存在困难。尤其是 Hi-ToM 里 order 大于等于二的任务。递归深度越高,心智轨迹越复杂,模型越容易在 nested belief 的层级里迷路。未来需要更强的递归推理能力,才能真正解决这类任务。
Claude Opus 4.8今天已经全渠道可用,常规使用价格和Opus 4.7保持一致:每百万输入token 5美元,每百万输出token 25美元。快mode价格是每百万输入token 10美元,每百万输出token 50美元,比前代快mode便宜三倍。开发者可以在ClaudeAPI通过​​claude-opus-4-8​​调用。
我们有个订单系统,用户下单后需要同步到ES做搜索。一开始用的是定时任务,每分钟扫一遍MySQL,同步到ES。结果用户反馈:下单后搜索不到订单,要等好几秒才能搜到。
Slash Commands 正是为了解决这个问题而诞生的。表面上看,它们只是以 / 开头的命令,但其背后其实是一个带有一组 workflow 约定的具名任务入口。这也是本文将继续探讨的主题。
这篇文章会带你从 0 到 1 搭一套可落地的团队工作流(编排 skill )。 读完后,你应该能在自己的项目里做出一套最小可用版本,并逐步扩展成团队级 AI 交付系统(这个我不确定是否好用)。