面壁MiniCPM 4与Intel全面适配 实现AI PC 2.2倍长文本推理优化
近日,面壁智能正式发布并开源了「面壁小钢炮」端侧系列最新力作—— MiniCPM 4.0 模型,实现了端侧可落地的系统级软硬件稀疏化的高效创新。英特尔与面壁智能从模型开发阶段就紧密合作,实现了长短文本多重推理效率的提升,端侧 AI PC 在 Day 0 全面适配,128K 长上下文窗口等多方面突破。
双方开展了深度技术协同,基于英特尔硬件架构定制投机解码配置。通过硬件感知的草稿模型优化策略,结合英特尔加速套件与 KV Cache 内存增强技术,实现端到端推理效率的 2.2 倍提升1,携手为业界带来了全新的模型创新和端侧性能体验。
此次,面壁推出的 MiniCPM 4.0 系列 LLM 模型拥有 8B、0.5B 两种参数规模,针对单一架构难以兼顾长、短文本不同场景的技术难题,MiniCPM 4.0-8B 采用「高效双频换挡」机制,能够根据任务特征自动切换注意力模式:在处理高难度的长文本、深度思考任务时,启用稀疏注意力以降低计算复杂度,在短文本场景下切换至稠密注意力以确保精度,实现了长、短文本切换的高效响应。 目前,具有 CPU、GPU、NPU 三个 AI 运算引擎的英特尔酷睿 Ultra 处理器已迅速对此适配,并借助 OpenVINO? 工具套件为 MiniCPM 4.0 系列模型提供优化的卓越性能表现。英特尔再次在 NPU 上对模型发布提供第零日(Day 0)支持,为不同参数量模型和应用场景提供更多样化的、更有针对性的平台支持。
* 上述测试评估了在 int4 混合精度和 fp16 精度设置下 1K 输入的首词元延迟和平均吞吐量。每项测试在预热阶段后执行三次,选取平均值作为报告数据。性能结果基于以下 SKU1 或 SKU2 配置2
在长上下文窗口的技术创新方面,英特尔也有了新的突破。依托分块稀疏注意力机制,结合深度算子融合与硬件驱动的算法优化,实现了长文本缓存的大幅锐减,和推理效率的进一步提升。 在保证输出质量的前提下,我们首次在基于英特尔锐炫? Pro B60 上将长上下文窗口扩展至 128K。相较于稠密模型,首 Token 延迟降低了 38%3,Token 速率提升多达 3.8 倍3。经过这样的提升,一整部 300 多页的哈利波特小说,可以在 90 秒内完成阅读、分析和总结。这不仅极大地提升了 AI PC 的用户体验,也为解锁更多端侧AI新应用建立了强大的基础。未来,英特尔将持续保持与面壁的深度合作和协同研发,进一步提升长上下文窗口应用的性能。
通过整合双方的技术优势和资源,英特尔平台和 MiniCPM 4.0 系列模型联合解决方案的广泛应用和落地部署已经奠定了坚实的基础,有望在智能生活、生产力提升等多个场景中发挥关键作用。