庆阳市网站建设_网站建设公司_博客网站_seo优化-济宁市网站建设公司

文章：OneThinker: All-in-one Reasoning Model for Image and Video

代码：https://github.com/tulerfeng/OneThinker

单位：香港中文大学

一、问题背景：传统视觉模型的“单打独斗”困境

过去的多模态模型要么只能处理图片，要么只专攻视频，就算能兼顾少数任务，也存在两个致命问题：

任务割裂：每个任务都要单独训练模型，比如做视频问答的模型，没法直接用来做图像分割，效率极低；
知识浪费：图片理解里的空间感知、视频分析中的时间推理，这些能力本可以互通，但传统模型被限制在单一模态和任务里，没法实现跨领域迁移；
训练失衡：不同任务的“评分标准”不一样（比如答题对了给满分，定位准了给渐变分），直接一起训练会导致有的任务被忽视，模型整体性能拉胯。

二、方法创新：OneThinker的“全能修炼手册”

为了打破这些局限，香港中文大学和美团联合推出的OneThinker，靠两大核心创新实现了“一模型通吃”：

1. 超大规模统一数据集：60万样本全覆盖

构建了包含60万样本的OneThinker-600k数据集，涵盖图片+视频的10类核心任务——从看图答题、配字幕，到空间定位、视频追踪、物体分割全包含。更贴心的是，还专门给34万样本加了“思考过程”注释（比如“先找图片里的圆，再用几何定理算角度”），让模型一开始就知道“怎么想”，而不只是“怎么答”。

2. 创新训练算法：EMA-GRPO解决“偏科”问题

针对不同任务训练失衡的问题，设计了EMA-GRPO算法：

给每个任务单独定制“训练权重”，比如数学答题的“满分奖励”和定位任务的“渐变奖励”分开计算，不会互相干扰；
用动态统计的方式调整训练强度，既不会让简单任务占主导，也不会让难任务被放弃，保证模型在所有任务上均衡进步。

3. 统一任务接口：所有任务“一句话搞定”

不管是答题、追踪还是分割，都让模型用统一格式输出——先写思考过程，再给结果（比如分割任务输出坐标，答题任务输出选项），不用为不同任务设计不同接口，大大提升了实用性。

三、实验结果：31个基准测试全面领先

OneThinker在31个主流视觉基准测试中都交出了亮眼成绩，部分关键结果如下：

图片答题：MMMU基准准确率70.6%，MathVista达77.6%，超过所有开源模型；
视频答题：LongVideo-Reason基准79.2%，远超同类模型的67.2%，就算是复杂的视频数学题也领先开源模型；
定位与追踪：视频事件定位（ActivityNet）R@0.5达43.6%，物体追踪（GOT-10k）R@0.5达84.4%，稳定性拉满；
分割任务：图片分割（RefCOCO）cIoU达75.8%，视频分割（ReasonVOS）J&F达54.9%，精准度行业顶尖。

更惊喜的是，它还能“举一反三”——没专门训练过的任务（比如旋转物体检测、图像质量评估），也能靠已有知识完成，展现出超强的零样本泛化能力。

四、优势与局限：全能模型的两面性

核心优势

一站式解决方案：一个模型搞定图片+视频的10类任务，不用切换工具，落地更高效；
知识互通：图片任务学到的能力能帮视频任务提分，比如空间定位经验让视频追踪更精准；
开源开放：代码、模型、数据集全部公开，开发者可以直接复用和二次开发。

现存局限

训练成本高：需要32块H800显卡训练10天，普通团队难以复现；
视频处理效率：目前最多支持128帧视频，面对超长篇视频（比如几小时的纪录片）还需优化；
细分场景精度：在某些极端场景（比如低光照图片分割、快速移动物体追踪），比专门的单任务模型还有小幅差距。

五、一句话总结

OneThinker用统一数据集+创新训练算法，打破了图片与视频、不同任务间的壁垒，成为首个能高效处理多类视觉任务的“全能模型”，为AI视觉理解迈向通用化迈出了关键一步。

庆阳市网站建设_网站建设公司_博客网站_seo优化

一、问题背景：传统视觉模型的“单打独斗”困境

二、方法创新：OneThinker的“全能修炼手册”

1. 超大规模统一数据集：60万样本全覆盖

2. 创新训练算法：EMA-GRPO解决“偏科”问题

3. 统一任务接口：所有任务“一句话搞定”

三、实验结果：31个基准测试全面领先

四、优势与局限：全能模型的两面性

核心优势

现存局限

五、一句话总结

热门文章

文章分类

标签云

需要专业的网站建设服务？

庆阳市网站建设_网站建设公司_博客网站_seo优化

一、问题背景：传统视觉模型的“单打独斗”困境

二、方法创新：OneThinker的“全能修炼手册”

1. 超大规模统一数据集：60万样本全覆盖

2. 创新训练算法：EMA-GRPO解决“偏科”问题

3. 统一任务接口：所有任务“一句话搞定”

三、实验结果：31个基准测试全面领先

四、优势与局限：全能模型的两面性

核心优势

现存局限

五、一句话总结

热门文章

2026年物业门控五金耗材推荐榜：中企创联工业品，小区/写字楼/物业多场景门控配件全覆盖

2026年白莲子厂家推荐榜：湖南莲易湘莲有限公司，直营/收购/加工/去芯大号全品类供应

2026年流化床干燥机厂家推荐：常州市荣发干燥设备有限公司，沸腾/振动/大豆纤维等全系流化床干燥机供应

2026年防腐涂料厂家实力推荐：河北全宝防腐材料，多品类防腐涂料全系供应

2026年真空泵厂家推荐榜：环保/小型/水环/无油/节能/罗茨/螺杆真空泵优质供应商解析

2026年预应力双t板推荐榜：菏泽大正新型建材，高强度/大跨度/混凝土双t板全系供应

文章分类

标签云

相关文章

智能硬件语音前端：FSMN-VAD边缘部署实战教程

跨平台GUI应用构建：libwebkit2gtk-4.1-0安装要点

WEBP高兼容挑战：unet新型格式支持现状分析

需要专业的网站建设服务？