🔥51CTO热榜:2026-02-28

中科大联合阿里通义Lab在2025 EMNLP上发表的ViDoRAG工作,就专门解决了这个痛点。该研究不仅打造了首个针对大规模视觉丰富文档的评测数据集ViDoSeek,还提出了一套融合GMM多模态混合检索和动态迭代多智能体推理的全新RAG框架,在新基准上实现了超10%的性能提升,为视觉丰富文档的处理提供了更实用的技术方案。
对于广大AI技术人而言,这个故事的核心启示在于:单纯追求模型参数规模和刷榜分数的时代正在过去。下一个浪潮,是围绕具体、艰深的领域问题(如数学、代码、科学发现),构建专精化的、具备深度推理和规划能力的智能体系统。
Claude Code 所出的 subagents 功能,主要是通过 ​​/agents​​ 唤起并完成创建配置。核心特性是可以由主任务委托给子代理 agent 去执行某些定制化的工作项,其上下文是独立的。
想象一下这个场景:你在飞书里发一句“把这周竞品动态整理成表格并发给团队”,Agent不是回你一段建议,而是真的去浏览网页、开表格、填数据、发消息。
PosterCraft 的设计理念是统一且灵活的框架。可以轻松地在自定义工作流程或其他兼容框架中使用 PosterCraft。
DeepMind最新论文:用AlphaEvolve把算法源代码当基因组,让Gemini充当遗传算子,对博弈论算法进行「自然选择」。
2026年2月,Grok的核心成员Jiayi Pan和Toby Pohlen相继离开xAI。这似乎是某种预示,或许通往AGI的路不是算力规模,而是方法的突破。
AI能写代码,却修不好构建环境、看不懂系统监控、串不起全链路运维——新基准DevOps-Gym显示,顶级模型在真实软件工程任务中全链路成功率归零,暴露其缺乏长程推理与动态系统理解能力,AI辅助编程远未触及真实开发核心。
最近,专注于量化AI主观决策的基准测试工作室Amplifying.ai,针对Claude Code的工具选择倾向开展了一项系统性研究。
如果旧的职业上升通道已经被 AI 阻断,普通人该如何在这个新时代里重新为自己定价?
一旦 prompt 不再被视为静态对象,而被纳入一个能够评估、修正、重写并持续演化的闭环之中,研究不再围绕 “技巧是否有效”,而开始围绕系统如何生长展开。
近日,来自上海交通大学、深势科技(DP Technology)、记忆张量(MemTensor)、中国科学院理论物理研究所等机构的研究团队联合发布了 Innovator-VL。这不仅是一个性能卓越的多模态大模型(MLLM),更是一份献给开源社区的 “科学智能实战指南”。
弗吉尼亚大学和谷歌的研究团队提出通过追踪Token在模型深层网络中的修改轨迹来量化真实的推理成本。
字节发布BitDance模型,为多模态人工智能的演进提供了一份极具价值的工程蓝图。
优化智能体解决方案需要软件工程确保组件协调、并行运行并与系统高效交互。例如预测执行[2],会尝试处理可预测查询以降低时延,或者进行冗余执行[3],即对同一智能体重复执行多次以防单点故障。
多智能体系统「扩不动」的真正原因,并不是 Agent 不够多,而是信息冗余。 系统实验发现,单纯堆规模收益迅速枯竭,而引入多样性可以显著延缓饱和、以更少的 Agent 获得更强的性能。
Shell 支持"本地执行模式",你自己执行 shell_call,再把 shell_call_output 回传给模型。对很多团队来说,这是一条很舒服的上线路径,先在本地把工程链路跑顺,再迁到托管容器。
MCP 是 AI 连接外部工具的标准协议,就像 USB 是电脑连接外设的标准。Claude Code 作为 MCP 客户端,通过安装不同的 MCP Server 获得不同的能力——GitHub 操作、文档查询、数据库访问等。
相信很多开发者都有过这样的经历:你正在一个叫 ​​feature-A​​​ 的分支上奋笔疾书,思路如泉涌,代码写了一半。突然,产品经理或者监控报警告诉你:线上的 ​​main​​ 分支出了一个 P0 级的 Bug,需要你立刻、马上、Right Now 修复。
浏览器里的运行时错误、客户端警告、渲染出来的组件,这些对 AI 来说都是不可见的。当你跟 AI 说"帮我修个错误",它甚至不知道你说的到底是哪个错误。