庆阳市网站建设_网站建设公司_博客网站_seo优化
2026/3/2 12:00:53 网站建设 项目流程

文章:OneThinker: All-in-one Reasoning Model for Image and Video

代码:https://github.com/tulerfeng/OneThinker

单位:香港中文大学


一、问题背景:传统视觉模型的“单打独斗”困境

过去的多模态模型要么只能处理图片,要么只专攻视频,就算能兼顾少数任务,也存在两个致命问题:

  1. 任务割裂:每个任务都要单独训练模型,比如做视频问答的模型,没法直接用来做图像分割,效率极低;

  2. 知识浪费:图片理解里的空间感知、视频分析中的时间推理,这些能力本可以互通,但传统模型被限制在单一模态和任务里,没法实现跨领域迁移;

  3. 训练失衡:不同任务的“评分标准”不一样(比如答题对了给满分,定位准了给渐变分),直接一起训练会导致有的任务被忽视,模型整体性能拉胯。

二、方法创新:OneThinker的“全能修炼手册”

为了打破这些局限,香港中文大学和美团联合推出的OneThinker,靠两大核心创新实现了“一模型通吃”:

1. 超大规模统一数据集:60万样本全覆盖

构建了包含60万样本的OneThinker-600k数据集,涵盖图片+视频的10类核心任务——从看图答题、配字幕,到空间定位、视频追踪、物体分割全包含。更贴心的是,还专门给34万样本加了“思考过程”注释(比如“先找图片里的圆,再用几何定理算角度”),让模型一开始就知道“怎么想”,而不只是“怎么答”。

2. 创新训练算法:EMA-GRPO解决“偏科”问题

针对不同任务训练失衡的问题,设计了EMA-GRPO算法:

  • 给每个任务单独定制“训练权重”,比如数学答题的“满分奖励”和定位任务的“渐变奖励”分开计算,不会互相干扰;

  • 用动态统计的方式调整训练强度,既不会让简单任务占主导,也不会让难任务被放弃,保证模型在所有任务上均衡进步。

3. 统一任务接口:所有任务“一句话搞定”

不管是答题、追踪还是分割,都让模型用统一格式输出——先写思考过程,再给结果(比如分割任务输出坐标,答题任务输出选项),不用为不同任务设计不同接口,大大提升了实用性。

三、实验结果:31个基准测试全面领先

OneThinker在31个主流视觉基准测试中都交出了亮眼成绩,部分关键结果如下:

  • 图片答题:MMMU基准准确率70.6%,MathVista达77.6%,超过所有开源模型;

  • 视频答题:LongVideo-Reason基准79.2%,远超同类模型的67.2%,就算是复杂的视频数学题也领先开源模型;

  • 定位与追踪:视频事件定位(ActivityNet)R@0.5达43.6%,物体追踪(GOT-10k)R@0.5达84.4%,稳定性拉满;

  • 分割任务:图片分割(RefCOCO)cIoU达75.8%,视频分割(ReasonVOS)J&F达54.9%,精准度行业顶尖。

更惊喜的是,它还能“举一反三”——没专门训练过的任务(比如旋转物体检测、图像质量评估),也能靠已有知识完成,展现出超强的零样本泛化能力。

四、优势与局限:全能模型的两面性

核心优势

  1. 一站式解决方案:一个模型搞定图片+视频的10类任务,不用切换工具,落地更高效;

  2. 知识互通:图片任务学到的能力能帮视频任务提分,比如空间定位经验让视频追踪更精准;

  3. 开源开放:代码、模型、数据集全部公开,开发者可以直接复用和二次开发。

现存局限

  1. 训练成本高:需要32块H800显卡训练10天,普通团队难以复现;

  2. 视频处理效率:目前最多支持128帧视频,面对超长篇视频(比如几小时的纪录片)还需优化;

  3. 细分场景精度:在某些极端场景(比如低光照图片分割、快速移动物体追踪),比专门的单任务模型还有小幅差距。

五、一句话总结

OneThinker用统一数据集+创新训练算法,打破了图片与视频、不同任务间的壁垒,成为首个能高效处理多类视觉任务的“全能模型”,为AI视觉理解迈向通用化迈出了关键一步。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询