🔥51CTO热榜:2025-09-04

近日,字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动人物视频生成模型。
本文介绍了一种无需额外训练的GUI定位框架DiMo-GUI,针对多模态大语言模型(MLLMs)在复杂图形用户界面(GUI)定位任务中的挑战,通过动态视觉推理与模态感知优化显著提升性能。
本文介绍可以在微信小程序上应用的端智能技术方案,聚焦 TensorFlow.js 推理和微信原生推理,详细讲解这两种方案在项目中的应用过程,为小程序开发者提供可复用的端智能技术选型策略与工程化解决方案。
灵犀(LingXi)系统的成功实践,标志着自适应视频流优化范式的一次关键演进,即从以往追求单一、静态的系统级优化目标,转向了为成千上万个动态、独立的个性化用户目标提供量身定制的策略,实现了真正的 “千人千面”。
美团悄悄放了个大招——LongCat-Flash。 这个家伙有5600亿参数,听起来就是个"大胃王",但神奇的是,它每次处理一个词的时候,只用270亿参数就够了。
言归正传,早在3个月前,Figure机器人就展示了其在物流场景包裹分拣的能力,整个过程长达一小时。面对各种形态的包裹,它都能进行完成识别、抓取、翻转,并运送到传送带上,其操作灵活性和速度已接近人类水平。
就在今天,Xcode最流行的超强编程Copilot插件Alex,宣布被OpenAI收编,全员加入Codex开启新工作!这会为Codex在开发者更偏爱的Mac端的攻城略地带来哪些变数?
最令人兴奋的是,这种测试时计算可能展现出与预训练相似的扩展规律 —— 换言之,就像增加训练计算量能带来模型能力的指数级提升一样,若在推理阶段分配更多计算资源(延长思考时间),模型性能理论上也会出现可预测的指数级增长。