2024 年 12 月 16 日,科技领域迎来重大突破,无问芯穹正式开源全球首款端侧全模态理解模型 Megrez-3B-Omni,同时还开源了纯语言版本模型 Megrez-3B-Instruct,为端侧智能的发展注入了强大动力。
多模态处理能力卓越:Megrez-3B-Omni 能够同时处理图片、音频和文字三种模态的数据,并且在各个模态上均展现出了极高的精度,无需牺牲任何一种模态的性能来换取其他模态的优势。在图像理解方面,尽管其体积仅为 3B,但综合性能表现却能全面超过 34B 的大型模型,如在 OpenCompass、MME、MMMU、OCRBench 等多个主流测试集上,它是精度最高的图像理解模型之一,能够准确洞察和分析图像中的场景内容,高效地提取文本信息,无论是模糊的印刷体还是复杂的手写字,都能轻松识别 。在文本理解方面,该模型将上一代 14B 大模型的优秀能力压缩至 3B 规模,显著降低了计算成本,同时还在 C-EVAL、MMLU/MMLU Pro、AlignBench 等权威测试集上取得了端上模型的最优精度,确立了其在文本理解领域的全球领先地位。在语音理解方面,Megrez-3B-Omni 的效果比肩行业主流方案,支持中文和英文的语音输入,可处理复杂的多轮对话场景,还能支持对输入图片或文字的语音提问,实现不同模态间的自由切换,让用户能够以更直观、自然的方式与模型进行交互。
推理速度大幅领先:Megrez-3B-Omni 选择了最适合手机、平板等端侧设备的 30 亿参数黄金尺寸,其结构规整,通过软硬件协同优化策略,确保了各参数与主流硬件高度适配,从而实现了硬件性能的最大化利用。与同精度模型相比,它的最大推理速度领先 300%,能够在端侧设备上快速响应用户的请求,为用户提供流畅的使用体验。
具备智能 WebSearch 功能:Megrez-3B-Instruct 模型特别提供了 WebSearch 功能,能够智能地判断何时需要调用外部工具进行网页搜索,辅助回答用户的问题。这一功能有效克服了小模型的幻觉问题和知识储备不足的局限,使用户能够构建属于自己的 AI 搜索,通过网络获取最新信息,进一步提升了模型的实用性和回答的准确性。
无问芯穹的技术团队源自清华大学电子工程系 NICS-EFC 实验室,在模型压缩、推理加速及硬件能耗优化等领域拥有深厚的学术研究和工程实践经验。此次开源的 Megrez-3B-Omni 仅是一个能力预览,该团队表示未来还将持续迭代 Megrez 系列,提升自动化水平至 “edge device use” 效果,让用户仅需简单的语音指令,即可完成端设备的设置或应用操作,并将其作为 “端模型 + 端软件 + 端 IP” 端上智能一体化解决方案的重要构成推向市场。通过这种一体化的设计,无问芯穹不仅能够为端侧设备提供更完整、更高效的智能方案,还将促进大模型在端侧设备上实现更高的推理速度与更低的能耗,推动端侧智能的快速发展。
Megrez-3B-Omni 的开源对于整个智能设备行业和人工智能领域都具有深远的影响。对于开发者而言,这一开源模型提供了一个强大的基础工具,将激发更多的创造力,推动各种创新应用场景的拓展,加速端侧智能应用的落地。对于消费者来说,意味着未来将能够享受到更为智能、高效、便捷的设备体验,如更加智能的语音助手、图像识别应用等,真正实现人与设备之间更加自然、流畅的交互。此外,该模型的出现也为智能设备厂商提供了新的发展方向和技术参考,有望推动整个行业在多模态交互领域的创新和竞争,促使更多厂商加大在端侧智能技术研发上的投入,共同推动端侧大模型的发展和应用。
无问芯穹此次开源全球首款端侧全模态理解模型 Megrez-3B-Omni,无疑是人工智能领域的一个重要里程碑,为端侧智能的未来发展开辟了广阔的前景。
