MiniCPM-V 最佳实践

MiniCPM-V是面向图文理解的端侧多模态大模型系列。该系列模型接受图像和文本输入，并提供高质量的文本输出。自2024年2月以来，我们共发布了5个版本模型，旨在实现领先的性能和高效的部署，目前该系列最值得关注的模型包括：

MiniCPM-V 2.6

MiniCPM-V系列的最新、性能最佳模型。总参数量 8B，单图、多图和视频理解性能超越了 GPT-4V。在单图理解上，它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等商用闭源模型的表现，并进一步优化了 MiniCPM-Llama3-V 2.5 的 OCR、可信行为、多语言支持以及端侧部署等诸多特性。基于其领先的视觉 token 密度，MiniCPM-V 2.6 成为了首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。

部署教程
训练教程
量化教程

MiniCPM-Llama3-V 2.5

MiniCPM-Llama3-V 2.5 基于 SigLip-400M 和 Llama3-8B-Instruct 构建，总共有 80 亿参数。其性能相比 MiniCPM-V 2.0 有了显著提升。

量化教程
训练教程
端侧部署
部署教程
高清解码教程
模型结构

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

best_practice_summary_zh.md

best_practice_summary_zh.md

MiniCPM-V 最佳实践

MiniCPM-V 2.6

MiniCPM-Llama3-V 2.5

Files

best_practice_summary_zh.md

Latest commit

History

best_practice_summary_zh.md

File metadata and controls

MiniCPM-V 最佳实践

MiniCPM-V 2.6

MiniCPM-Llama3-V 2.5