51CTO热榜

华东师范大学智能教育学院发布OmniEduBench,首次从「知识+育人」双维度评测大模型教育能力。测评2.4万道中文题后,实验结果显示:GPT-4o等顶尖AI会做题,却在启发思维、情感支持等育人能力上远不及人类,暴露AI当老师的关键短板。
随着现在的主流大模型都能轻松通过图灵测试,这个持续了数十年的标准开始逐渐过时。奥特曼和量子计算之父David Deutsch讨论得出了一个新的图灵测试2.0标准,可以更好地衡量究竟怎样AI才算拥有真正的智能。
仅用两年时间,一个从实验室孕育的AI编程神器Cursor,年度经常性收入破10亿美元,冲刺300亿美元估值。新一轮23亿美元融资中,谷歌、英伟达重金押注。四名MIT本科辍学生,如今已是妥妥的亿万富翁。
本文通过提出一个新框架,将模态跟随重新定义为“相对推理不确定性”和“固有模态偏好”共同作用的动态过程。研究揭示了一条稳健的法则:模型跟随一个模态的可能性,会随着其相对不确定性的增加而单调下降。同时,“平衡点”为此固有偏好提供了原则性的度量。
本文将通过五个无可辩驳的理由,向你阐明:为什么现在,是时候“放弃”os模块,全面转向pathlib了。
研究者们提出了 FDA(Model Merging with Functional Dual Anchors)——一个全新的模型融合框架。
真正的无锁线程池其实是个伪命题,但无锁内存池和无锁队列却是低延迟系统的标配。让我从实战角度,结合顶级开源项目的设计思路,给你讲透这三个组件的设计哲学。
Character AI和耶鲁大学的研究团队联手推出OVI(Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation)。
VibeThinker-1.5B证明了在逻辑推理这一核心认知领域,精巧的算法设计可以超越蛮力的参数堆砌。
NVIDIA和多伦多大学的研究者们提出了一个绝妙的想法:假如我们不把图像编辑看作是修改一张静态图片,而是看作在拍摄一部只有两帧的微型电影呢?
近日,来自 IDEA 研究院的团队通过仅有 3B 参数的通用视觉感知模型 Rex-Omni,打破了这一僵局。
Ansible​是自动化的基础,而这个工具,是“让自动化更自动”的一步。 我们不再被YAML文件牵着鼻子走,而是通过模板思维,让任务生成更灵活、更高效。
VFM-VAE 通过直接集成冻结的基础视觉模型作为 Tokenizer,能够显著加速模型收敛并提升生成质量,展示了 LDM Tokenizer 从像素压缩迈向语义表征的演化方向。
就在昨天,LMArena 做出了今年最大的更新,发布了新世代大模型编码评估系统:Code Arena,这可以说是编程大模型能力评估领域的重大事件。
AI的革命,不在算法,而在使用者。同样一台机器,有人只拿它写笑话,有人靠它写论文、跑模型、生成研究报告。20美元成了新的「知识分界线」,AI正在制造一种隐形的社会分层——技术平权的时代,思维反而开始分级。真正的竞争,不是掌握工具,而是学会与它共思。
LLM的一个训练来源是开源代码库。攻击者要打开250-500个包含一致投毒文件的开源仓库并不困难。单个恶意行为者可以将这种投毒传播到多个广泛使用的LLM中。我不认为LLM训练软件足够智能,能够检测到大多数投毒尝试。这似乎可能对LLM造成灾难性后果。
DeepMind的AlphaProof在IMO拿到接近金牌的银牌成绩。它结合大模型直觉、强化学习和Lean形式化证明,攻克多道高难题。它虽在速度、泛化和读题上仍有限,但已开启人类数学家与AI协作的新阶段。
AI已足够聪明,却不够温柔。Zelikman离开xAI的决定,既是技术路线之争,也是价值取向之选:我们要一台更快的计算机,还是一个更懂人的伙伴?当资本开始为「共情」下注,真正的考题是——算法能否承担理解的重量,而非仅仅生成正确的句子。
ICLR 2026评审结果震撼出炉:投稿量暴增至近2万篇,却迎来分数大滑坡,平均分从5.12跌至4.2。审稿人吐槽论文质量低下,甚至疑似AI生成,这场学术盛宴为何变味?
传统的视觉模型可以标记物体,但难以描述实际发生的事情。本文将深入解析CLIP模型,这是一个连接视觉和语言的多模态模型,旨在帮助机器理解和描述图像背后的含义。本文将以openai/clip-vit-base-patch32模型为例,逐步讲解其数据流动过程。
传统的季度甚至月度补丁节奏已完全失效。攻击者如今能在漏洞披露后数小时内完成武器化,远早于企业分析验证漏洞的时间,通常更远早于修复补丁的部署周期。
Hulu-Med代表了迈向整体化、透明化、高效能医学AI的重要一步,它不仅是一个高性能的模型,更是一个开源开放的研究起点和一份详尽的技术蓝图。
我们非常荣幸地宣布,我们试图回答这些问题的论文 UNCOMP 已被 EMNLP 2025 主会接收!我们不仅提出了一个高效的推理框架,更重要的是,我们提供了一个全新的理论视角来理解 LLM 内部的信息动态。
DemoHLM以“单仿真演示驱动泛化移动操作”为核心,通过分层控制架构与高效数据生成 pipeline,破解了人形机器人训练成本高、泛化差、迁移难的三大痛点。
香港科技大学(广州)联合阿里巴巴通义实验室展开系统性探索,首次提出通用视频检索概念,并构建了包含16个数据集、覆盖多任务与多领域的综合评测基准UVRB;合成了155万条高质量、多模态、任务多样化的视频-语言训练对;并为多模态大模型底座量身设计了任务金字塔课程训练策略。
这篇带“Le”的论文,介绍了一种自监督学习方法,于11月11日在arXiv提交,是LeCun的最新公开成果。
在持续压力下,堆占用更紧、长尾更晚出现,吞吐更像平滑降级,而不是随机晃。 如果要严格控资源,我会选 Rust:薄框架起步,剖析分配点,避免在高扇出里滥 clone。
本文将探讨基于Swift的iOS应用中常见的10个安全隐患,并提供切实可行的应对策略。
许多企业在使用AI时仍停留在“盲人摸象”的阶段:用孤立的试点衡量成败,只关注节省时间或成本,从而错失系统性变革的机会。真正的AI价值不在于单个任务的加速,而在于以系统视角重塑工作设计、消除跨部门摩擦并重新定义价值交付。
AI带来决策加速、智能化和自动化机遇,但风险深不可测,传统治理模式已难以应对自我修改和自适应的智能体。
无论你是想快速开发一个小工具,还是构建复杂的企业级应用,总有一款适合你。下面就为大家介绍8个值得关注的Python GUI库。
多个请求同时对同一条数据进行操作。如果没有任何保护措施,结果会是混乱的——某个线程还在修改数据,另一个线程已经开始读取,最后导致数据不一致。
在技术选型上,Java 生态凭借其成熟的企业级能力和强大的类型系统,为构建生产就绪的 MCP 服务器提供了理想的基础。特别是 Spring AI 框架的 MCP 支持,让开发者能够基于熟悉的技术栈构建可靠、可扩展的智能服务。
Ingress NGINX 退役事件揭示了云原生基础设施技术债、迁移路径与未来流量治理标准化趋势。
行业内通用的解决方案是设计主动查询 + 重试机制 — 支付服务每隔1分钟查询未支付订单的支付状态,如果第一次查询没结果,会继续重试,持续查询 30 分钟。确保不错过任何一笔支付结果。
在JDK 8之前,HashMap完全基于数组+链表实现。当发生哈希冲突时,新元素会被添加到链表末尾。随着元素增多,链表可能变得很长,导致查询效率从O(1)退化为O(n)。
微服务拆分,是高并发架构的基石。首先,将业务拆分为粒度适当的微服务,尽量设计为无状态或将状态外置。拆分应以业务边界、和数据自治为依据,确保单一服务职责明确、耦合度低且便于独立扩展。
说白了,GPT-5.1 的升级就像一面镜子,一下把大家对大模型 的各种情绪都照了出来——有人觉得它更聪明更自然了,有人又担心太“像人”不太舒服。对用户来说,更像是一次新的实验:看看我们到底希望大模型离人类多近,离工具多远。​
如果有一天,你写了十年 JavaScript, 却突然发现:你根本不会写“新 JS”了—— 那八成是 ES2026 上线的那天。它看起来只是“又一版标准”, 实际上是在悄悄篡改我们对数据、异步、类型安全的全部认知。
MySQL 的事务隔离级别是一个层次分明、权衡精妙的系统。从 RC 到 RR,不仅仅是隔离性的提升,更是 MVCC 从“每次生成视图”到“第一次生成视图”的转变,以及锁机制从“行锁”到“Next-Key Lock”的升级。
全新一代主打原生全模态,最开始就把语言/图像/视频/音频放在同一套自回归统一架构里,做统一的理解与生成训练。
在 HaluMem‑Medium 上,SuperMemory 综合表现最佳;而 Mem0 系列的写入时间过长,表明其在对话处理和记忆构建阶段效率不足。在长语境下,部分记忆系统的耗时有所下降,主要源于提取记忆点的减少,而非算法优化带来的改进。
你面对一道复杂数学题,不是一个人死磕,而是能瞬间召唤3-4个"分身"同时从不同角度进攻,还能动态调配任务、合并成果。这不是科幻,而是LLM通过强化学习学会的真本事。
谷歌DeepMind的IMO金牌模型,完整技术全公开了!延续DeepMind的命名传统,这次叫:AlphaProof。依然是Nature刊发的形式,放出了AlphaProof的完整论文,首次详细公开了其背后的技术架构和训练方法。值得一提的是,无师自通的下棋AlphaZero,也在这次论文里被多次提及。
作为首先关注 GRPO 在视觉生成中过优化现象的研究,GRPO-Guard 通过比率归一化(RatioNorm)和跨步梯度平衡,有效稳定策略更新,恢复裁剪机制对正样本的约束,并缓解过度优化。
轻量化、开箱即用的LimiX-2M,在科研探索和实际落地场景均有巨大潜力。它保持前代 LimiX-16M 支持分类、回归、缺失值插补等多样化能力,性能远超现有其它表格模型,同时大幅度降低了显存占用和时间消耗。
DeepEyesV2不仅延续了DeepEyes的视觉推理优势,更突破性地实现了「代码执行+网页搜索+图像操作」的全工具协同,从「会看细节」进化为「能主动解决复杂问题的智能体」。
HarmonyOS开发媒体文件管理服务前言前面我们在图片识别的时候需要读取本地图片,用户可以在本地图片中选取,也可以拍照,那么在这里,我们...
[toc](目录)前言在万物互联的时代浪潮中,开发者正面临着前所未有的挑战与机遇。如何让一款应用在手机、平板、折叠屏、2in1设备等多种终端上...