免费全国空降同城微信,400元3小时快餐,附近200元四小时快餐,深圳上门服务24小时接单平台

欢迎光临北京软件和信息服务业协会官方网站
面壁“小钢炮”登上 Nature 子刊,端侧多模态能力获学术顶级认可
发布日期:2025-07-07    来源:面壁智能    分享到:

7 月 1 日,国际顶级学术期刊《Nature》旗下子刊《Nature Communications》正式刊登了面壁「小钢炮」MiniCPM-V 核心研究成果。值得一提的是,这是《Nature》系列期刊第二次刊登面壁智能相关研究成果。MiniCPM-V 是由面壁智能、OpenBMB 团队联合研发的端侧多模态模型,仅依靠 8B 参数实现了多模态综合性能超越 GPT-4V、Gemini Pro 等万亿参数云端模型,并首次在手机、平板、汽车等算力受限的终端设备上实现实时推理的重大突破,也标志着以面壁智能为代表的中国高效大模型技术创新成果获得国际学术界充分认可。

 ?  论文链接: 

?? https://www.nature.com/articles/s41467-025-61040-5

1751853019099.jpg

业界普遍视 2025 年为“端侧 AI 元年”,AI 手机、AI PC、AI 眼镜等终端智能产品相继问世,大模型与端侧设备的深度融合迎来了前所未有的市场关注度,未来十年将催生万亿级市场机遇。其中,端侧大模型因在隐私安全、响应速度、离线可靠性及降低成本等方面具备显著优势,在推动端侧 AI 产业应用中将发挥关键作用,但同时也对模型在有限算力下的性能、效果提出了更加苛刻的要求。

此次论文提及的 MiniCPM-V 模型是面壁智能于 2024 年 5 月发布的端侧多模态大模型,该模型仅以 8B 小参数,在高分辨率图像识别、光学字符识别(OCR)、多语言交互、可信行为等方面展现了出色性能,创造了当时端侧模型中的最佳多模态综合成绩与最佳运行效率水平。得益于面壁自研的高清图像高效编码技术, MiniCPM-V 不仅能理解单一文本或图像等模态信息,还能跨越不同模态间的综合信息,做出更准确和深入的复杂推理能力。此外,为了提升模型端侧性能和体验,MiniCPM-V 在图像编码方面,首次整合 NPU 和 CPU 加速框架,并结合显存管理、编译优化技术,在多模态大模型的端侧图像编码方面实现了显著加速提升。

今年 1 月,面壁智能再次全方位升级了模型能力,并延续以小博大、高效低成本的优势,发布了行业首个端侧全模态流式模型——面壁小钢炮 MiniCPM-o 2.6,「持续看、实时听、自然说」等多项关键能力均为业界首创,能力全面跻身国际领先水平。

MiniCPM-V 和 MiniCPM-o 系列模型一经发布,获得了来自学术及开源社区的广泛认可,连续多天在 Hugging Face Trending、GitHub Trending 和 Papers With Code Trending Research 榜单排名第一,GitHub 开源项目获得星标近 2 万次,模型下载量超过 1000 万次,并入选 Hugging Face 2024 年度最受欢迎和下载开源模型榜单。技术论文发布以来获得谷歌学术引用近 500 次,并得到图灵奖获得者 Yoshua Bengio 和 Yann LeCun 的引用。


关于《Nature Communications》

《Nature Communications》是国际顶级学术期刊《Nature》发行的子刊,其目的在于发布颇具综合性并代表某一领域重大进展的研究论文,被誉为顶尖成果的试金石。作为国际“综合性期刊”领域的顶级杂志,该刊物内容涉及自然科学所有领域,发表的论文极具科研及应用价值,为各领域的创新发展提供了重要的参考意义。根据 2025 年 3 月的中科院期刊分区中,《Nature Communications》位列全球多学科综合性期刊第 4 位,仅次于《Nature》、《Science》以及《Nature Reviews Methods Primers》。

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.