🔥51CTO热榜:2025-07-11

最新研究发现,模型的规模和通用语言能力与其处理敏感内容的判断能力并无直接关联,甚至开源模型表现的更好。特别值得注意的是,通过文中提出的训练方法,研究团队在非推理模型和推理型模型上都取得了显著进展:成功缓解了过度拒绝问题,同时保持了模型的安全性,这为提升AI系统的实用性和可靠性提供了新的解决方案。研究揭示了当前SOTA LLM模型依然存在显著的过度谨慎倾向。
最近,一款全新的奖励模型「POLAR」横空出世。它开创性地采用了对比学习范式,通过衡量模型回复与参考答案的「距离」来给出精细分数。不仅摆脱了对海量人工标注的依赖,更展现出强大的Scaling潜力,让小模型也能超越规模大数十倍的对手。