小米 MiMo V2.5 指南:为什么这个中国大模型值得关注
MiMo V2.5 有意思的地方,不只是“小米也发了大模型”。真正值得看的是发布形态:1M 上下文、多模态输入、Agent 标签、定制化部署说明,以及面向长链路软件工程的 Pro 版本。
MiMo V2.5 是什么
MiMo V2.5 官方模型卡显示,它采用 MIT 许可,带有 custom_code、多模态、视觉语言、音频、视频理解、Agent、长上下文和 FP8 等标签。模型卡描述它是基于 MiMo-V2-Flash 的稀疏 MoE 模型,310B 总参数、15B 激活参数,支持最高 1M token 上下文,并覆盖文本、图像、视频和音频。
MiMo V2.5 Pro则更偏向 Agent 和软件工程。它是 1.02T 总参数、42B 激活参数的 MoE 模型,支持最高 1M 上下文,定位于复杂软件工程、长链路任务和工具调用场景。
怎么理解 V2.5 和 Pro
MiMo V2.5 更适合先看多模态和长上下文:截图、视频、音频、长文档、知识库和混合资料。MiMo V2.5 Pro 更适合测试代码 Agent、仓库级修复、终端任务和多轮工具调用。
公开分数应该谨慎看待。模型卡中的 SWE Bench、TerminalBench、Claw-Eval 等指标说明了官方想让模型被如何评估,但这些仍是发布方声明。真正决定是否可用的,是它能否通过你的文档、代码库、权限边界和失败模式。
1M 上下文不是万能答案
1M context 听起来很强,但生产价值取决于模型能否在长材料中找到正确证据,并忽略无关内容。更好的测试不是“能不能塞进一百万 token”,而是“能不能从长文档里找到关键段落、指出冲突、承认证据不足”。如果你关注本地多模态流程,可以参考站内的 local multimodal AI workflows。
部署风险
MiMo V2.5 带有 custom_code,示例中会用到 trust_remote_code。团队应该固定版本、隔离环境、审查远程代码路径。Pro 示例还涉及 fp8、reasoning-parser mimo、tool-call-parser mimo 和 1048576 上下文长度,这意味着它不是随手本地跑的小模型,而是需要认真规划的基础设施项目。
该怎么评估
建议用真实任务做小型评测:多模态证据定位、长上下文矛盾识别、工具调用停止点、代码仓库修复、视频或图片工作流。可以结合 personal evals 和 AI agents reliability 的方法。
MiMo 值得关注,但正确态度不是被参数和上下文窗口吓到,也不是直接相信榜单。读模型卡,做自己的评测,再决定它适合多模态、Agent、代码还是研究用途。