小米 MiMo V2.5 指南：为什么这个中国大模型值得关注 - Toolsify AI Blog

MiMo V2.5 有意思的地方，不只是“小米也发了大模型”。真正值得看的是发布形态：1M 上下文、多模态输入、Agent 标签、定制化部署说明，以及面向长链路软件工程的 Pro 版本。

MiMo V2.5 是什么

MiMo V2.5 官方模型卡显示，它采用 MIT 许可，带有 custom_code、多模态、视觉语言、音频、视频理解、Agent、长上下文和 FP8 等标签。模型卡描述它是基于 MiMo-V2-Flash 的稀疏 MoE 模型，310B 总参数、15B 激活参数，支持最高 1M token 上下文，并覆盖文本、图像、视频和音频。

MiMo V2.5 Pro则更偏向 Agent 和软件工程。它是 1.02T 总参数、42B 激活参数的 MoE 模型，支持最高 1M 上下文，定位于复杂软件工程、长链路任务和工具调用场景。

怎么理解 V2.5 和 Pro

MiMo V2.5 更适合先看多模态和长上下文：截图、视频、音频、长文档、知识库和混合资料。MiMo V2.5 Pro 更适合测试代码 Agent、仓库级修复、终端任务和多轮工具调用。

公开分数应该谨慎看待。模型卡中的 SWE Bench、TerminalBench、Claw-Eval 等指标说明了官方想让模型被如何评估，但这些仍是发布方声明。真正决定是否可用的，是它能否通过你的文档、代码库、权限边界和失败模式。

1M 上下文不是万能答案

1M context 听起来很强，但生产价值取决于模型能否在长材料中找到正确证据，并忽略无关内容。更好的测试不是“能不能塞进一百万 token”，而是“能不能从长文档里找到关键段落、指出冲突、承认证据不足”。如果你关注本地多模态流程，可以参考站内的 local multimodal AI workflows。

部署风险

MiMo V2.5 带有 custom_code，示例中会用到 trust_remote_code。团队应该固定版本、隔离环境、审查远程代码路径。Pro 示例还涉及 fp8、reasoning-parser mimo、tool-call-parser mimo 和 1048576 上下文长度，这意味着它不是随手本地跑的小模型，而是需要认真规划的基础设施项目。

该怎么评估

建议用真实任务做小型评测：多模态证据定位、长上下文矛盾识别、工具调用停止点、代码仓库修复、视频或图片工作流。可以结合 personal evals 和 AI agents reliability 的方法。

MiMo 值得关注，但正确态度不是被参数和上下文窗口吓到，也不是直接相信榜单。读模型卡，做自己的评测，再决定它适合多模态、Agent、代码还是研究用途。