清华研究团队发布：大语言模型评估揭示领先地位

日期：2023-08-11 作者：itcg 浏览：722 我要评论

IT采购网8月10日消息，近日，清华大学新闻与传播学院的研究团队公布了一份题为《大语言模型综合性能评估报告》的重要研究成果。该报告对多个大型语言模型进行了全面评估，涵盖了生成质量、使用与性能、安全与合规等三大维度共计20项指标。

根据这份报告，通过对GPT-4、ChatGPT3.5、百度文心一言、通义千问、讯飞星火、Claude以及天工等七个大型语言模型的评测，文心一言在综合评分方面在国内排名第一，尤其在中文语义理解领域表现出色，凭借其卓越的中文理解能力以及对中国文化的深刻理解，超越了GPT-4在部分中文能力方面的表现。

值得注意的是，在生成质量方面，报告综合考量了语义理解、输出表达以及适应性等方面的评测指标，百度文心一言以76.98%的得分率位列第二，仅次于GPT-4，胜过了包括ChatGPT在内的其他竞争对手。尤其在部分中文语义理解能力上，文心一言更是以92%的得分率稳居榜首。

在安全合规领域，报告综合考察了内容安全性、偏见和公平性以及隐私保护等方面的综合评测，百度文心一言以78.18%的得分率与GPT-4并列领先。

据IT采购网了解，这份报告的发布为大型语言模型的发展和比较提供了有力的参考依据，同时也为语言模型领域的技术创新提供了重要的方向。这样的研究助力于不断提升大型语言模型在多个维度上的表现，进一步推动了人工智能领域的发展。

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

0 条相关评论

头条阅读

推荐图文

苹果AI大动作：桌面机器人、智能音箱、家用摄像头齐上阵	北京现代EO（ELEXIO）试驾：家用纯电SUV驾驶体验舒适又稳健
OPPO无网通信再升级：图片传输成亮点，探索去中心化通信新潜力	成都无人机产业迎新机遇：发布146条机会清单，四大重点项目成功签约

相关资讯