小米 MiMo V2.5 指南:為什麼這個中國大模型值得關注
MiMo V2.5 值得看的地方,不只是「小米也發了大模型」。真正重要的是它的發布形態:1M 上下文、多模態輸入、Agent 標籤、客製化部署說明,以及面向長鏈路軟體工程的 Pro 版本。
MiMo V2.5 是什麼
MiMo V2.5 官方模型卡顯示,它採用 MIT 授權,帶有 custom_code、多模態、視覺語言、音訊、影片理解、Agent、長上下文和 FP8 等標籤。模型卡描述它是基於 MiMo-V2-Flash 的稀疏 MoE 模型,310B 總參數、15B 啟用參數,支援最高 1M token 上下文,並覆蓋文字、影像、影片與音訊。
MiMo V2.5 Pro則更偏向 Agent 和軟體工程。它是 1.02T 總參數、42B 啟用參數的 MoE 模型,支援最高 1M 上下文,定位於複雜軟體工程、長鏈路任務與工具調用。
怎麼理解 V2.5 和 Pro
MiMo V2.5 更適合先看多模態和長上下文:截圖、影片、音訊、長文件、知識庫和混合資料。MiMo V2.5 Pro 更適合測試程式碼 Agent、倉庫級修復、終端任務和多輪工具調用。
公開分數應該謹慎看待。模型卡中的 SWE Bench、TerminalBench、Claw-Eval 等指標說明官方希望模型被如何評估,但這些仍是發布方聲明。真正決定是否可用的,是它能否通過你的文件、程式碼庫、權限邊界和失敗模式。
1M 上下文不是萬能答案
1M context 聽起來很強,但生產價值取決於模型能否在長材料中找到正確證據,並忽略無關內容。更好的測試不是「能不能塞進一百萬 token」,而是「能不能從長文件中找到關鍵段落、指出衝突、承認證據不足」。可以參考 local multimodal AI workflows。
部署風險
MiMo V2.5 帶有 custom_code,示例中會用到 trust_remote_code。團隊應固定版本、隔離環境、審查遠端程式碼路徑。Pro 示例還涉及 fp8、reasoning-parser mimo、tool-call-parser mimo 和 1048576 上下文長度,代表它不是隨手本地跑的小模型,而是需要認真規劃的基礎設施項目。
該怎麼評估
建議用真實任務做小型評測:多模態證據定位、長上下文矛盾識別、工具調用停止點、程式碼倉庫修復、影片或圖片工作流。可結合 personal evals 和 AI agents reliability 的方法。