小米MiMo－VL－7B－RL－2508：手机里的“全能AI帮手”（1/2）

好书推荐：抗战：从血战淞沪到割据东南反派：小跟班你要干嘛抗战：重生川军，杀鬼子续命传说，从纸扎匠开始无尽灰夜快穿：主神独宠的病秧子他是上神金丹证道穿越：我修仙自带BGM 叮咚！天道家的宁宝上线啦大明：开局革职，我教朱棣屠龙术

一、先搞懂名字：一串字母数字不是密码，全是“能力标签”

刚看到“mimo-vl-7b-rl-2508”这串字符时，不少人会觉得像乱码，其实每个部分都藏着它的“身份说明书”，拆开来一看就懂：

- mimo：这是它的“大名”，就像咱们的名字一样好记，是“小米多模态模型”的简称。“多模态”是关键，意思是它不是“偏科生”，能同时处理多种信息，就像人既能看、能听，又能说、能理解一样。

- vl：俩字母代表“视觉语言”，直白说就是它“眼脑并用”——既能看懂图片、视频、手机界面这些视觉内容，又能理解文字、语音这些语言信息。不像早期的语音助手，要么只能听指令，要么只能读文字，它是“全能感知型选手”。

- 7b：这里的“b”是“十亿”的缩写，7b就是70亿，指的是模型的“参数规模”。参数可以理解成它的“知识点储备库”，就像咱们上学时记的单词、公式、常识，储备越多，处理问题越灵活。70亿参数属于“轻量级但能力强”的级别，能在手机上流畅运行还不费电。

- rl：全称“强化学习”，是它“变聪明”的方法。好比咱们学骑车，摔了就知道要调整重心，骑歪了就修正方向，通过不断尝试和反馈越来越熟练。这个智能体也一样，完成任务后会收到“好坏评价”，对的就记住，错的就改正，越用越懂你。

- 2508：简单理解成“版本号”就行，就像软件更新的v1.0、v2.0，代表这是2025年8月左右优化的特定版本，和其他mimo模型区分开。

这么一拆解，是不是觉得这名字瞬间“接地气”了？其实本质就是“小米2025年8月推出的70亿参数、能看能懂、还会自己学聪明的多模态智能体”。

二、性能有多能打？考试拿第一，干活超靠谱

光说不练假把式，这个智能体的本事都是“考出来的”“干出来的”，而且成绩相当亮眼。

1. 权威测评拿金牌，手机场景稳赢

有个叫superclue的权威机构做过一期手机ai大考——agentclue-mobile测评，专门考13款国内外智能体在手机上的实战能力，小米这个模型直接拿了金牌，总分90.01分，还和另一个顶尖模型并列第一。

考试覆盖了咱们日常用手机的七大场景：音乐播放、视频娱乐、交通导航、旅行预订、社交通讯、生活服务、本机应用，重点看两个核心能力——能不能准确找到手机界面上的按钮（ui元素定位），能不能把指令执行到位。比如你说“帮我订明天去上海的高铁票”，它得先找到购票app的入口，再定位到“出发地”“目的地”输入框，最后完成查询，整个流程一步都不能错。小米这个智能体在这些任务里的完成度、操作准确率都名列前茅，尤其对中文语境的理解特别到位，毕竟考题全是按国内用户习惯设计的。

2. 四大核心能力刷新纪录，比同类模型强太多

除了手机场景，它在专业测试里也“屠榜”了，四项关键能力都打破了开源模型的纪录，甚至能超过参数比它多10倍的大模型：

- 学科推理：能解复杂题，堪比“ai学霸”

在mmmu这个最严苛的多模态推理测试里，它首次考到了70分以上。这个测试涵盖了数学、科学、历史等多学科，还得结合文字和图片答题，比如给一张物理实验图让算浮力，或者给历史事件时间表让分析因果。更厉害的是，它在高中数学竞赛、奥林匹克竞赛题里，正确率比720亿参数的竞品还高，甚至比gpt-4o还高出15%，响应速度还快30%。

- 文档理解：看报表比人快，图表数据一眼懂

处理文档的能力在chartqa测试里拿了94.4分的高分。不管是财务报表里的复杂表格、合同里的条款细则，还是带公式的学术论文，它都能快速看懂。比如给它一张公司季度财报，它能立马说出“营收同比增长多少”“哪个业务板块利润最高”，甚至能把表格里的数据转换成可编辑的格式。银行用它处理票据，原来一张要3分钟，现在20秒就搞定，效率提升了9倍。

- 界面定位：手机电脑界面，按钮一找一个准

在screenspot-v2测试里得了92.5分，简单说就是“认界面”的本事超强。不管是手机app的复杂界面，还是电脑软件的菜单布局，你让它找哪个按钮它都能精准定位。比如你说“帮我关掉手机后台里的微信”，它能直接找到后台界面的微信图标和关闭按钮；工厂用它做质检，它能快速定位到检测界面上的异常区域，新产品适配时间从2周缩短到3天。

- 视频理解：看视频能抓重点，还能分析细节

视频理解能力在videomme测试里提升到70.8分，能看懂视频里的剧情、动作和关键信息。比如你给它看一段小米汽车的宣传视频，它能说出“视频里展示了su7的自动泊车功能，还提到了续航里程600公里”；在医疗场景里，它能看内窥镜视频，实时标记出可能的病变区域，识别早期胃癌的准确率达到89%，接近资深医生水平，处理速度却是人工的50倍。

三、最贴心的设计：能“说思路”也能“快回答”，两种模式随便切

这个智能体有个特别实用的功能——能在“思考模式”和“非思考模式”之间自由切换，就像你做题时，既能写解题步骤，也能直接写答案，完全看你的需求。

1. 思考模式：“知其然，更知其所以然”

默认情况下是思考模式，回答问题时会把自己的推理过程说出来，就像老师讲题一样。比如你问“这张图里是不是小米su7？”，它会说：“我先看车标，是小米的‘mi’标志，再看车身线条，溜背造型、低趴姿态，还有前脸的贯穿式车灯，这些都是su7的特征，所以判断这是小米su7。”

这种模式适合需要搞懂逻辑的场景：比如学生问数学题，能跟着它的思路学方法；职场人分析数据，能验证它的结论有没有依据；甚至你调试手机功能时，能知道它为啥点这个按钮而不是那个。而且这种模式的控制成功率是100%，不会乱跳步骤。

2. 非思考模式：快准狠，省时间省电量

要是你赶时间，不想听过程，只要加个“\/no_think”指令，它就切换到非思考模式，直接给答案。比如刚才的问题，它会直接说“是红色小米su7轿车”。

这个模式的优势特别明显：响应速度比思考模式快40%，计算资源消耗少35%，也就是更省电、更不占手机内存，成功率还高达99.84%，几乎不会出错。平时你问“现在几点了”“附近有啥咖啡店”这种简单问题，用这个模式秒出答案；老师批改作业时批量核对答案，用它能省一半时间；财务做日常数据汇总，快速提取关键数字也靠它。

四、为啥这么聪明？小米的“训练妙招”藏不住了

能有这么强的能力，不是靠“堆参数”瞎练出来的，小米在训练上花了不少心思，总结下来就是“数据好、方法巧、架构优”。

1. 数据：2.4万亿token“喂饱”，还专加“思考料”

模型学得好不好，关键看“吃”什么数据。小米给它喂了足足2.4万亿token的高质量数据，涵盖文字、图片、视频、音频等各种类型。更关键的是，后期特意加了大量“长链思维数据”——就是把人类思考问题的全过程记录下来的数据，比如“算1+2x3”，不仅写答案7，还写“先算乘法2x3=6，再加1得7”。

这些“思考料”让模型不是死记硬背答案，而是学会了“怎么想”。而且小米还用了“拒绝采样”的方法，不好的数据直接扔掉，只留高质量的，相当于给模型“挑食”，只吃有营养的。

2. 方法：先打基础再优化，强化学习练实战

训练分了四阶段预训练，先让模型掌握基础能力，比如认识图片、理解文字，再慢慢增加复杂推理数据的比例。后期还用上了强化学习，就像运动员赛前集训——先让模型尝试执行任务，再根据结果打分，做得好就强化这个方法，做得不好就调整。比如第一次订车票时找错了app，下次就记住“高铁票要找而不是机票app”，越练越精准。

本章未完，点击下一页继续阅读。

新书推荐：从三十而已开始的收集之旅宝可梦之豪门崛起民间异闻传记五枚：鬼王重生后死缠烂打师尊我，木偶戏神，斩断阴阳和苏大佬的万界副本游鬼灭：弃医从武能当上弦？白帝托孤后，我在霍格沃兹念遗诏九叔：身为邪修，我偏要降妖除魔景逸华年知梦瑶