🔥热词:模型

北京大学计算机学院副教授、上纬启元首席科学家董豪近日在北大科技园交流中谈及具身大模型演进趋势。作为横跨具身智能领域产学研的专家,董豪拆解了当前模仿学习、强化学习、仿真数据集等主流技术路线的瓶颈,并提出全新横向二维Scaling Law框架,统一解释世界模型、生成式数据增强、人示教数据转化等前沿方案的底层逻辑,为家用、通用人形机器人落地指明技术演进方向。 以下为报告实录: 我至今仍清晰地记得 AlphaGo 团队做分享的场景 —— 当时我就在伦敦,UCL 离我的住处很近。那场演讲给我留下了极为深刻的震撼,也让我对 AI 技术的演进逻辑有了更本质的思考。 AlphaGo 的成功,清晰地展现了 AI 能力跃升的第一套经典范式:先模仿,后强化。它首先通过海量人类棋谱进行监督学习,本质上就是模仿人类棋手的落子决策。但这种纯模仿学习有一个天然的天花板:模型的能力永远无法超越训练数据中人类的最高水平。 为了突破这个瓶颈,AlphaGo 引入了自对弈强化学习:让两个经过预训练的模型相互对弈,通过胜负结果产生明确的反馈信号。在这个过程中,模型不再受限于人类经验,能够自主探索出人类从未想到过的策略,最终实现了对人类顶尖棋手的超越。 这一 “模仿 – 强化” 的技术演进路径,在后来的 ChatGPT 身上得到了完美复刻。ChatGPT 首先基于互联网海量文本数据进行大规模预训练,这一阶段的核心依然是模仿学习 —— 学习人类语言的表达方式和知识体系。而它之所以能从一个 “会说话的模型” 变成一个 “会好好说话的模型”,关键在于引入了基于人类反馈的强化学习(RLHF):让模型对同一个问题生成多个回答,由人类标注员对不同回答的质量进行打分,再将这些人类偏好作为回报信号来微调模型。 与 AlphaGo 的自对弈相比,ChatGPT 的强化学习之所以需要引入人类,核心区别在于反馈信号的确定性:下棋的胜负由清晰的规则决定,是一个绝对客观的标准;而一个回答的好坏没有统一的规则可循,只能依赖人类的主观判断。 今天的具身智能大模型,依然在沿着这条被反复验证的技术路径前进。现阶段,我们首先通过采集大量人类专家的正确示范数据,让模型进行模仿学习,掌握基本的动作技能和任务流程。但纯模仿学习的固有缺陷在具身领域同样存在:模型只见过 “正确的做法”,从未经历过 “失败的场景”,一旦遇到训练数据中没有的意外情况,就很容易出错。 而目前解决这个问题最直接有效的方法之一,正是 2011 年提出的DAgger(数据集聚合)算法。其核心思想非常朴素:当模型在真实环境中执行任务出现错误时,立即由人类专家接管并进行修正,然后将这些修正后的 “纠错数据” 回流到训练集中,对模型进行持续迭代训练。通过这种 “试错 – 纠错 – 再训练” 的闭环,模型的鲁棒性和泛化能力会不断得到强化。 值得一提的是,DAgger 算法最早被广泛应用于自动驾驶领域,但它在自动驾驶场景中遇到了巨大的落地障碍。一方面,自动驾驶的错误往往伴随着严重的安全风险,我们不可能为了采集纠错数据而放任事故发生;另一方面,自动驾驶对单次任务成功率的要求近乎苛刻,哪怕是万分之一的失误率都可能导致灾难性后果,长尾问题极其复杂。 相比之下,绝大多数具身智能任务的容错空间要大得多。以叠衣服为例,即使单次成功率只有 95%,模型完全可以在失败后重新尝试一次,直到成功为止。更重要的是,这些任务的失败通常不会产生任何不可挽回的严重后果。正是基于这一核心差异,我们有理由相信:具身智能的商业化落地速度,很可能会比自动驾驶更快。 然而,当我们把目光投向更远的未来,就会发现”模仿 + 强化”的scaling law范式虽然能解决单个任务的落地问题,却无法回答通用具身智能的终极命题。 自动驾驶本质上是在追求单一任务的极致优化 —— 它只需要做好 “安全驾驶” 这一件事。但具身智能的终极目标截然不同:我们需要的不是一万个只能做一件事的专用机器人,而是一个能做一万件事的通用机器人。 这就意味着,传统Scaling Law的描述方式已经走到了尽头。过去我们只把数据量、参数量、计算量作为Scaling的维度,认为只要线性增加这些资源,就能获得线性的能力提升。但在具身智能领域,这套逻辑注定失效:你不可能为世界上每一个可能的家务动作、每一种可能的操作场景,都单独采集百万级数据、单独训练一个模型。单任务Scaling的边际收益会极速递减,最终陷入 “逐个任务攻克” 的死胡同。 因此,我们必须建立一个全新的Scaling视角:”任务数量 – 数据量”Scaling Law。我们要把 “任务数量” 作为与 “数据量” 同等重要的核心坐标轴。通用能力从来不是在单个任务上堆出来的,而是在海量不同任务之间迁移出来的。当模型在越来越多不同任务上进行训练时,它会逐渐掌握物理世界的通用规律 —— 比如物体的刚性、重力的作用、摩擦力的影响、工具的通用使用方法。此时,面对一个从未见过的全新任务,模型的初始完成率会显著提升,达成高成功率所需的额外样本量会持续下降,真正实现 “越学越快、越学越省”。 今天行业里百花齐放的技术路线,无论是世界模型、UMI,还是仿真数据生成、人类第一视角视频预训练,看似方向分散,底层逻辑却高度统一:所有这些技术创新,本质上都是为了加速这条新的”任务数量 – 数据量”Scaling曲线的成型。它们要么在提升单条数据的跨任务迁移价值,要么在降低新增任务的训练成本,最终共同推动具身智能从 “专用” 走向 “通用”。
全球权威大模型评测平台 Artificial Analysis 最新 Output Speed 榜单显示,阶跃星辰(StepFun)最新开源基座模型 Step 3.7 Flash 以 409 tokens/s 的输出速度位列主流模型第一,同时在端到端响应时长(End-to-End Response Time)、智能效率(Intelligence vs. Output Speed)与速度价格比(Output Speed vs. Price)等关键指标上均处于领先位置。 从行业趋势来看,大模型竞争正在从「单点能力」转向「Agent 真实任务效率」。在浏览、检索、文档理解、界面分析与工具调用等完整任务链路中,模型不再仅承担问答角色,而是作为持续执行的任务引擎运行,端到端时延、吞吐能力与成本结构成为核心约束。因此,更高吞吐、更低时延与更优成本效率的系统性平衡,正在成为 Agent 规模化落地的关键基础。 在这一背景下,Step 3.7 Flash 在智能效率比、端到端响应时长以及速度价格比等多项维度中均领先同档位模型,实现了智能、速度与成本的协同优化,为高频调用、持续运行、可规模化部署的 Agent 系统提供了基础能力支撑。这一趋势也进一步印证:Agent 时代的核心竞争力,正从「模型能力峰值」转向「真实任务完成效率」,本质是速度、智能与成本之间的系统性平衡。 与此同时,Step 3.7 Flash 自发布后登上 OpenRouter Trending 全球第二位,成为近期全球开发者社区关注度最高的开源模型之一。在开发者实测反馈中,该模型在运行效率、多模态理解以及 Agent 工具调用能力方面表现突出。有开发者将其与 DeepSeek V4 Flash 等同类模型对比后认为,其在速度、响应体验上具备明显优势。 综合来看,Step 3.7 Flash 在权威评测与开发者社区中的双重表现,一方面验证了其高吞吐与低时延的工程能力,另一方面也反映出中国开源模型正加速融入全球开发者生态,并在下一阶段 Agent 基础设施竞争中占据更重要的位置。
6 月 3 日消息,阶跃星辰(StepFun)最新开源基座模型 Step 3.7 Flash 在发布 2 天后登上 OpenRouter Trending 全球第二位,成为近期全球开发者社区最受关注的开源模型之一。 记者观察到,自发布以来 Step 3.7 Flash 在海外开发者社区引发广泛讨论。不仅在发布当天登上 X 平台 「Today’s News」 全球第一,而且在运行速度、多模态、Agent 工具调用等方面得到开发者认可。 在社区分享的实测结果中,Step 3.7 Flash 在运行效率方面表现突出。有开发者将其与 DeepSeek V4 Flash、MiniMax M2.7 等同类模型进行对比后表示,Step 3.7 Flash 在速度与响应体验上展现出明显优势。与此同时,其工具调用能力也成为开发者关注的焦点。有开发者指出,Step 3.7 Flash 是目前首个能够稳定、准确且低成本完成 66 个工具调用测试的开源模型。 Step 3.7 Flash 的走红也反映出 Agent 时代基础模型的发展方向正在发生变化。包括谷歌、DeepSeek 在内,大模型厂商对 Flash 模型的关注度在持续升高。过去,Flash 模型往往被视为旗舰模型的轻量化替代品,其核心价值主要体现在更快的速度和更低的价格。而随着 Agent、Coding、Search 以及多模态工作流逐渐成为模型的主要应用场景,开发者开始更加关注模型在复杂任务中的执行效率、调用成本和稳定性。 从这一角度来看,模型竞争正在从单纯追求峰值智能,转向追求单位成本下能够持续交付多少有效智能。当 Agent 开始承担越来越多真实工作流中的执行任务,高效率 Flash 模型或许将不再是旗舰模型的补充,而会成为 AI 生产化时代最重要的基础模型形态之一。Step 3.7 Flash 在全球开发者社区的快速走红,也显示出中国开源模型正在越来越多地进入国际开发者生态的主流视野,并参与下一阶段 Agent 基础设施的竞争。
2026年的AI模型竞争已从对话能力转向任务完成度,各大厂商密集迭代版本却让选择变得更为复杂。本文深度拆解Claude、GPT、Gemini等12款主流模型的真实战力,从价格策略、工程能力到场景适配,提供一份拒绝「跑分陷阱」的实战选型指南。
B端AI产品为何频频遇冷?当业务人员面对AI生成的结果时,他们真正需要的不仅是高效产出,更是可验证的确定性和可控的风险边界。本文深入剖析B端场景下AI落地的九大痛点,从数据来源透明化、结果可编辑性到风险分级机制,揭示如何让AI真正融入业务流程而非沦为摆设。
“大家好,我是阿境,人称产品界的吴彦祖,一个沉稳又不沉闷的男人。” 先问个问题 “作为一名产品经理,你真的懂得沟通吗?” 诶,先别急着回答,看完文章,再重新思考下这个问题。 产品经理在日常工作当中, 不夸张地说,沟通几乎是占据了40%的工作内容 ,与运营沟通,与开发沟通,与用户沟通,与领导沟通等。 学会如何更高效率地沟通,能够使事情事半功倍,也能够有效地推动产品项目的运转。 同时,我
在可行性和实用性方面,很多新模型已经实现了性能的跨越,不论智力、智能体(Agent)能力还是工具链成熟度,在最近半年里都有巨大的提升。
如果直接抛开视觉编码器,让模型从原始像素一路学到语言,会怎么样?
为了让机器真正理解物理世界,构建“世界模型”逐渐成了具身大脑近年来最拥挤的赛道,各式技术路线层出不穷。
来自上海人工智能实验室、上海交通大学、香港中文大学的研究团队提出了TRM(Thinking Reward Model)。
一个叫ToxPrune的方法,在推理阶段直接把有毒子词(subword)从BPE词表里“连根拔除”,让模型在物理层面说不出脏话。
对 2026 年的大多数实用复合 AI 系统而言,GEPA 值得优先尝试。RL 仍然重要,但当“读懂一次 rollout”比“再跑成千上万次 rollout”更便宜时,提示词反思优化会非常有吸引力。​
京东开源JoyAI-VL-Interaction,把视频AI从「你问我答」的轮次对话,推进到「持续在场、主动开口、按时机说话」的流式交互新范式。