新零售网

收藏本站

新零售网 > 商业 >

清华大学发布《大语言模型综合性能评估报告》：GPT-4第一，文心一言更懂

来源：IT之家发布时间：2023-08-11 13:36 阅读量：10133

，近日，清华大学新闻与传播学院教授、博士生导师沈阳所在团队发布了《大语言模型综合性能评估报告》，报告显示总得分率 GPT-4 第一，百度文心一言在三大维度 20 项指标中综合评分国内第一，超越 ChatGPT，其中中文语义理解排名第一，部分中文能力超越 GPT-4。

据了解，报告本次评估选取了 GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工 7 个大语言模型，围绕生成质量、使用与性能、安全与合规三大维度，全面考察大语言模型上下文理解、中文语义理解、误导信息识别、逻辑推理、内容安全性、隐私保护等 20 项指标。综合来看，文心一言语义理解能力突出，特别是具备更好的中文理解能力，更懂中国文化，同时时效性强、内容安全把握细微，这源于其知识增强、检索增强和对话增强的技术创新。

在生成质量方面，基于对语义理解、输出表达、适应泛化的综合评测，文心一言得分率 76.98%，仅次于 GPT-4，领先于包括 ChatGPT 在内的其他大语言模型。其中，在部分中文语义理解方面，文心一言以 92% 的得分率排名榜首。

IT之家注意到，在安全合规方面，基于对内容安全性、偏见和公平性、隐私保护等综合评测，文心一言得分率 78.18%，与 GPT-4 并列排名第一。

广告声明:文内含有的对外跳转链接，用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

最新阅读：

柴油价格夏季罕见上涨推动美国通胀再现抬头趋势 2023-08-11 13:16

河北省首单REITs获反馈涉及资产划转合规性、估值合理性等 2023-08-11 13:06

阿里大变革后首份财报：淘宝盈利超预期本地生活亏最多员工减少654 2023-08-11 12:51

阿里巴巴2024财年第一财季营收2341.6亿元，同比增长14% 2023-08-11 12:44

为保证平台安全性，Python第三方套件存储库PyPI已强制用户 2023-08-11 11:49

雷军：小米MIXFold3折叠屏手机测试20万次折叠后，折痕变化 2023-08-11 11:17

美股异动WeWorkWE.US涨超43%成交量1.64亿 2023-08-11 10:29

极摩客公布新款M3/M4迷你主机，搭载i5-12450H/i9- 2023-08-11 10:26

《国家基本公共服务标准2023年版》发布提高3个项目服务标准 2023-08-11 09:29

极氪001汽车官宣降价3万-3.7万元：降幅约10%，送7kW智 2023-08-11 09:28

CBN丨Chinaliftsbansongrouptoursof 2023-08-11 09:21

华东医药000963.SZ与ArcutisARQT.US达成自免 2023-08-11 09:19

芯片战场丨半导体产业仍处低谷期国内晶圆代工龙头业绩承压 2023-08-11 08:59

杭州亚运会“亚运元宇宙”正式发布：融合AI、VR、数字孪生，可提 2023-08-11 08:18

年内29个A股再融资项目终止审核近六成在问询阶段主动撤回 2023-08-11 08:15

距今3.1亿年，考古学家发现最古老的蜘蛛 2023-08-10 15:13

奇瑞瑞虎8Pro/新能源冠军车型上市：燃油、混动双版本，售价12 2023-08-10 15:09

全域场景激活消费，奇富科技与华为终端云服务达成全面合作 2023-08-10 15:05

联想小新PadPro12.7安卓平板今晚开卖：骁龙870/144 2023-08-10 15:04

中国联通：2023上半年营收、净利润再次刷新上市以来纪录，5G套 2023-08-10 14:57

头条

中国家电消费市场规模去年已达88

最新

1: 雷军：小米MIXFold3折叠屏

2: 美股异动WeWorkWE.US涨

3: 极摩客公布新款M3/M4迷你主机

4: 《国家基本公共服务标准2023年

5: 极氪001汽车官宣降价3万-3.

6: CBN丨Chinaliftsba

7: 华东医药000963.SZ与Ar

8: 芯片战场丨半导体产业仍处低谷期国

9: 杭州亚运会“亚运元宇宙”正式发布

10: 年内29个A股再融资项目终止审核

图文

雅乐士30周年品牌庆典盛大启幕以匠

热门

保障消费能力力促消费恢复