IT采购网4月17日消息,近日,科技领域对于模型训练的效率和性能展开了新的讨论。这主要源于面壁智能发布的一系列高效、低参数的大模型,这些模型在保持高性能的同时,显著降低了参数规模和训练成本。
大约一个月前,马斯克旗下的xAI团队开源了名为Grok-1的巨型MoE模型,其参数量高达3140亿,被誉为“庞然大物”。然而,令人惊讶的是,尽管Grok-1在参数规模上占据优势,但其性能表现却仅与MistralAI的8x7B MoE模型相当。这一现象引发了业内对于“参数数量与模型性能”关系的深入反思。
在此背景下,面壁智能的最新研究成果显得格外引人注目。据悉,面壁智能自2020年开始训练大模型以来,便始终致力于提升模型训练的效率。他们坚信,“让每一个参数发挥最大的作用”,在同等参数量上实现更好的性能,才是解决大模型“高效”训练的核心。
今年2月,面壁智能发布了MiniCPM2B模型,该模型在较小的参数量基础上实现了与Mistral-7B相当的性能,验证了其“低参数、高性能”的方法论。更重要的是,面壁智能通过这一系列研究,成功降低了千亿大模型的训练成本。
4月11日,面壁智能又推出了新一代端侧旗舰大模型系列,包括显著增强OCR能力的2.8B多模态模型MiniCPM-V2.0、仅1.2B却强过llama2-13B的MiniCPM-1.2B模型等。这些模型的推出进一步证明了面壁智能在高效训练大模型方面的实力。
据IT采购网了解,面壁智能之所以能够在模型训练效率和性能上取得显著成果,得益于他们独特的“高效训练”理念以及在小模型上的深入探索。通过小模型验证大模型的训练投入产出比,面壁智能走出了一条独特的研发路线。这不仅使他们在资源有限的情况下实现了模型的高效训练,还为未来实现通用人工智能(AGI)奠定了坚实的基础。
近日,面壁智能也完成了新一轮数亿元融资,这将为他们未来的研发工作提供更多的资金支持。在追求高效训练的道路上,面壁智能正不断取得新的突破,为大模型领域的发展注入了新的活力。