51CTO热榜

1.这个页面一开始不是为了“刷题”,而是为了把错因找回来我接到这个需求时,产品说得很简单:孩子做完口算和阅读小练习之后,家长希望看到...
Viking AI 搜索 CLI (下文统称 SearchCLI )正式发布,代表着上述的这些复杂繁琐环节,现在都可以让 Agent 替你完成了。
刚刚,自变量机器人团队带来全新解法——发布全球首个「事件级预测」具身智能世界模型WALL-WM。
所谓的FR,就是frequency range,频率范围。FR1是Sub-6G频段,频率相对比较低。我们中国以及全球大部分国家,5G采用的都是这个频段。FR2,是著名的毫米波频段,频率相对比较高。只有美国等少数国家采用了这个频段。我们国家去年也进行了一些试验(中国联通在亚冬会上)。
中国移动MoMA平台接入300多款模型,Kimi在列——投了钱,也把Kimi的能力直接整合进自己的服务体系。投资和生态,两件事一起做。
四家顶级AI公司把自己的"家底"交给了METR,包括最强内部模型、原始思维链、非公开能力数据。
Meta曾被曝出向OpenAI研究员开出「1亿美元量级」薪酬包。奥特曼在播客里曝出这个数字时,硅谷一度怀疑自己听错了。普通博士后年薪不过5万美元,顶尖研究员年薪据报道超过1000万美元:差距接近200倍。这个数字背后,是45年前一篇经济学论文早已算清的逻辑。
Claude Code迎来史上最大规模底层升级!Anthropic直击开发者最痛的6大顽疾:终端闪烁、思考假死、玄学报错、上下文死锁、连接不稳、会话崩溃。一夜之间,AI编程工具从「聪明外挂」进化为「可靠伙伴」。
太突然了!美国NSF竟秘密「拉黑」哈佛、耶鲁、普林斯顿和杜克,全面冻结新增科研经费。
GPT-5.5 把进攻性网络安全最难的 7 个基准全部打穿,92.4% 正确率,评估体系直接失灵。AI 黑客能力每 6 个月翻一倍,而衡量它有多危险的尺子,已经先被干碎了。
这项工作从训练机制出发,让机器人动作天然具有连续性,实现了 "连音" 般的流畅执行,在五个真实世界操作任务上超越了现有方法,为具身智能领域的动作生成研究提供了新的思路。
今天,又有新的问题出现了,这一次是谷歌搜索。有用户发现,近日升级了 AI 能力的谷歌搜索在面对「google 里面有几个 P」这样的简单问题时竟然失败了!
来自清华大学、中山大学、新加坡国立大学、国家超级计算深圳中心等单位的研究团队提出面向全球地球观测数据的生成式压缩框架 D2AR,并在灵晟超级计算机上完成 Exascale 级训练。
当对话型 AI 服务于数十亿用户时,我们能否看见用户没说出口的那一层?JHU、MIT 和 Google Research 给出了新的解法。
如果你在团队里有一点点影响力,现在就可以做这件事,不需要等公司出正式文件,不需要专业的安全团队。花半个小时,对着红黄绿的框架,把你们团队的边界梳理一遍,发给大家。这件事,比大多数人以为的,重要得多。
Anthropic 表示,新模型构建于 Opus 4.7 基础之上,具备更敏锐的判断力,对自身进展的「诚实度」更高,并且能够比前一代模型更长时间地独立工作。
香港科技大学(广州)DIAL Lab和Foundation Agents开源社区联合推出了AutoWebWorld(AWW)。
判断一个机器学习模型的内部表示,到底对不对得上真实世界的结构,要看它能不能还原世界里的真实变量。
初创公司Axiom Math宣布,他们从2026年2月开始提交的8篇论文,到5月28日有5篇已经通过同行评审,登上学术期刊。。
从2023年底构想这个方向,到芯片制造、实验验证、论文发表,将近两年半。团队的判断是:光计算最大的潜力,藏在第三个维度里。
很多 OCR 工作会把重点放在模型架构创新上,但 ABot-OCR 的主线其实更偏“系统工程”:先把数据可信度做厚,再把训练目标做清晰,最后用约束型 RL 修结构。
最近几年一直尝试用ai来辅助自己编程,vibe coding、龙虾、codex/claude啥的也都玩过,随着今年agent这种模式越来越火。Agent这种多轮循环调用的模式,消耗的 Token 简直像个无底洞!每次它识别、纠错、反思、再调用工具,后台的账单也在不断增加。
公告称Opus 4.8最显著的改进是诚实性。AI的一大问题是会草率下结论,即使证据不足,也会自信地声称取得了进展。但Opus 4.8更有可能标记出其工作中的不确定性,并且不太可能做出未经证实的断言。
本文介绍AI导购技术在 vivo 官网 APP 的落地实践,通过定义解决问题的边界能力、搭建多层架构方案、方案落地这三大块内容逐步递进地展开 AI 导购在为用户服务的应用过程。
Evolutionairy AI 技术团队把这种盲区称为“性能与心理的断层”。AI 的行为已经复杂到足以影响人类的信任、情绪、决策,但我们却没有一套像心理学那样的工具去理解它的行为结构。
尽管 UserHarness 的表现非常亮眼,但它并不是万能的。它在高阶嵌套信念上仍然存在困难。尤其是 Hi-ToM 里 order 大于等于二的任务。递归深度越高,心智轨迹越复杂,模型越容易在 nested belief 的层级里迷路。未来需要更强的递归推理能力,才能真正解决这类任务。
Claude Opus 4.8今天已经全渠道可用,常规使用价格和Opus 4.7保持一致:每百万输入token 5美元,每百万输出token 25美元。快mode价格是每百万输入token 10美元,每百万输出token 50美元,比前代快mode便宜三倍。开发者可以在ClaudeAPI通过​​claude-opus-4-8​​调用。
Slash Commands 正是为了解决这个问题而诞生的。表面上看,它们只是以 / 开头的命令,但其背后其实是一个带有一组 workflow 约定的具名任务入口。这也是本文将继续探讨的主题。
这篇文章会带你从 0 到 1 搭一套可落地的团队工作流(编排 skill )。 读完后,你应该能在自己的项目里做出一套最小可用版本,并逐步扩展成团队级 AI 交付系统(这个我不确定是否好用)。
Agent就是大模型本身——它天生会推理、会决策。你要做的不是"开发"它,而是给它搭一个能干活的环境:能用什么工具、能看什么文件、边界在哪、怎么跟别人协作。这个环境就叫 Harness。
我用 Claude Code 工作有一段时间了,该踩的坑都踩过一遍,还是没把这件事想透。上周看到 Matt Pocock 把他 ​​.claude​​ 目录里的 17 个 skill 全开源了,repo 叫 mattpocock/skills,三个月攒了 53k 星。
本文将从现象出发,深入到对齐衰减的三大驱动机制,继而呈现前沿模型中的实证证据,再审视当前缓解措施的有效性与局限,最终探讨这一问题的根本性质。
在Vue2中,为了区分自定义事件和原生DOM事件,我们需要使用.native修饰符来明确表示我们要监听的是原生DOM事件。但在Vue3中,这一机制发生了变化,让我们一起来了解一下。
其实Linux I2C框架本质就两件事:控制器驱动和设备驱动,把这俩拆开理解,就很清晰明了了。
传统 html2canvas、SVG foreignObject 均为临时hack,存在静态无交互、性能差、隐私隐患等问题,无法兼顾开发效率与渲染能力。而 WICG 推出的 HTML-in-Canvas 原生提案,彻底解决了这一行业痛点。
在这篇文章中,我将用具体的例子来阐释上下文概念背后的原理,这也是我希望更多人能做到的。最后,我会分享自己关于如何构建上下文层的看法。
本文基于 OpenAI、Google Labs、Trail of Bits 等 7 个顶级 Skill 仓库的深度分析,提炼出 5 种经过验证的设计模式与一套通用写作方法论,帮助你在企业级 Agent 建设中少走弯路。
本文系统梳理了从 Netflix Conductor 改造而来的第一代调度系统 RedProcess,到面向下一阶段业务规模自研的新一代调度引擎 DES 的演进历程,重点介绍在性能、可用性、功能完备性和运维能力四个维度上的关键架构决策与工程实践。
Agentic AI 的核心在于赋予机器自主感知环境、独立思考、制订计划、执行复杂任务并从结果中学习的能力,这种自主性将深刻影响企业业务流程的各个层面。
从达·芬奇解剖刀下那双拥有自主智慧的手,到婴儿摇摇晃晃的第一次站立,从章鱼触手的分布式决策,到蚂蚁筑巢的涌现奇迹,一个反直觉的真相:智能从来不只是大脑的事,身体才是我们与世界对话的母语。
Agent 工具调用的延迟链不是一个需要"解决"的问题,而是一个需要持续观测和治理的维度。就像传统后端服务需要 APM 一样,Agent 生产环境的性能管理,最终也会走向工具调用级别的可观测。
Skills 的核心优势在于”可复用、可共享、可扩展”——从最简单的参考型技能(注入项目规范)开始,逐步迭代到包含参数传递、动态上下文、子代理隔离的复杂技能。
Prompt caching 本身的定价逻辑是商业驱动和技术权衡的结果。5 分钟 TTL 的缓存对于大多数 Agent 场景已经足够——单次用户交互通常集中在数秒到数分钟内,跨小时的长对话可以通过上下文摘要来解决。1 小时 TTL 则覆盖了更长的会话窗口,代价是首次写入成本翻倍。
Cursor 把 AI 塞进 IDE 里当副驾驶,你写一行它补一行。Windsurf 把 AI 当成流水线上的协作伙伴,你给方向它出方案。Claude Code 直接扔掉编辑器,把 AI 变成终端里的自动化引擎。
本文围绕一个核心问题展开:如何让AI助手从“输出文字”进化到“生成界面”?我们基于Google A2UI协议,自研了Vue渲染器和 Agent 完整工具链,形成了一套完整的生成式UI体系。文章将详细阐述Runtime Schema装配、双重校验机制、SSE双通道输出、Wrapper组件扩展等关键设计,为构建标准化、可复用的AI交互界面提供参考。
如果你在过去一年里构建过 AI agent,大概已经和我一样上过一课:agent 本身已经不再是难点,context layer 才是。
Agent hooks 这个东西,让我觉得 VS Code 在 AI 协作的道路上又进了一步。它不再让我们仅仅依赖于 AI 的“聪明”或“听话”,而是给我们提供了一个“确定性”的工具。 我们有了把重复性、关键性的后置任务(比如生成类型、运行测试、格式化代码)固化下来的能力。
许多推理、模拟、决策问题本质上是串行的,用纯并行计算硬撑只会逼出脆弱的捷径解;论文证明,允许模型在不被打扰的离线阶段把上下文整理成权重,是把"长上下文能力"真正转化为"长程推理能力"的一条务实路径。
架构选择上的差异还体现在编程模型上。Semantic Kernel 面向的是"把 LLM 嵌入现有 .NET/Python 应用",MAF 面向的是"构建和管理 Agent 系统"。前者解决的问题是集成,后者解决的问题是编排——两件事需要的抽象层级完全不同。