IT采购网8月10日消息,近日,清华大学新闻与传播学院的研究团队公布了一份题为《大语言模型综合性能评估报告》的重要研究成果。该报告对多个大型语言模型进行了全面评估,涵盖了生成质量、使用与性能、安全与合规等三大维度共计20项指标。
根据这份报告,通过对GPT-4、ChatGPT3.5、百度文心一言、通义千问、讯飞星火、Claude以及天工等七个大型语言模型的评测,文心一言在综合评分方面在国内排名第一,尤其在中文语义理解领域表现出色,凭借其卓越的中文理解能力以及对中国文化的深刻理解,超越了GPT-4在部分中文能力方面的表现。
值得注意的是,在生成质量方面,报告综合考量了语义理解、输出表达以及适应性等方面的评测指标,百度文心一言以76.98%的得分率位列第二,仅次于GPT-4,胜过了包括ChatGPT在内的其他竞争对手。尤其在部分中文语义理解能力上,文心一言更是以92%的得分率稳居榜首。
在安全合规领域,报告综合考察了内容安全性、偏见和公平性以及隐私保护等方面的综合评测,百度文心一言以78.18%的得分率与GPT-4并列领先。
据IT采购网了解,这份报告的发布为大型语言模型的发展和比较提供了有力的参考依据,同时也为语言模型领域的技术创新提供了重要的方向。这样的研究助力于不断提升大型语言模型在多个维度上的表现,进一步推动了人工智能领域的发展。