推广 热搜: 京东  联通  iphone11  摄像头  企业存储  iPhone  XSKY  京东智能采购  网络安全  自动驾驶 

清华研究团队发布:大语言模型评估揭示领先地位

   日期:2023-08-11     作者:itcg    浏览:623    我要评论    

IT采购网8月10日消息,近日,清华大学新闻与传播学院的研究团队公布了一份题为《大语言模型综合性能评估报告》的重要研究成果。该报告对多个大型语言模型进行了全面评估,涵盖了生成质量、使用与性能、安全与合规等三大维度共计20项指标。

根据这份报告,通过对GPT-4、ChatGPT3.5、百度文心一言、通义千问、讯飞星火、Claude以及天工等七个大型语言模型的评测,文心一言在综合评分方面在国内排名第一,尤其在中文语义理解领域表现出色,凭借其卓越的中文理解能力以及对中国文化的深刻理解,超越了GPT-4在部分中文能力方面的表现。

值得注意的是,在生成质量方面,报告综合考量了语义理解、输出表达以及适应性等方面的评测指标,百度文心一言以76.98%的得分率位列第二,仅次于GPT-4,胜过了包括ChatGPT在内的其他竞争对手。尤其在部分中文语义理解能力上,文心一言更是以92%的得分率稳居榜首。

在安全合规领域,报告综合考察了内容安全性、偏见和公平性以及隐私保护等方面的综合评测,百度文心一言以78.18%的得分率与GPT-4并列领先。

据IT采购网了解,这份报告的发布为大型语言模型的发展和比较提供了有力的参考依据,同时也为语言模型领域的技术创新提供了重要的方向。这样的研究助力于不断提升大型语言模型在多个维度上的表现,进一步推动了人工智能领域的发展。

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯
0相关评论

头条阅读
推荐图文
相关资讯
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2
Processed in 0.212 second(s), 11 queries, Memory 1.48 M