清华大学告诉你中文AI谁最强

来源：网友投稿 2024-04-22 07:50

作者手机内常用的AI软件

AI大模型方兴未艾，国内互联网巨头纷纷下场推出自己的AI大模型，那么谁家大模型最强？

笔者从去年开始使用ChatGPT以及微软edge浏览器自带的bing AI，深感国外大模型对中文的支持以及本地化做的仍然不足，所以十分关注国内厂家的AI产品。很荣幸的是我很早拿到了讯飞星火和百度文心一言的内测资格，实话实说，初期的星火和文心一言比bing AI都难用数倍，之后我对字节系的豆包APP更是常常吐槽。

没想到到了今年年初，悄然发现，我已经很久很久没用国外大模型，除了需要做一些涉外种种工作时会偶尔用到Copilot（原Bing AI，ChatGPT 4 Turbo大模型）外，我已经习惯国内大模型，它们的进化速度令人欢喜鼓舞，但你要问我谁最好，实话实说，个人用起来PC端更习惯星火，移动端偏向豆包（云雀大模型），图画偏向天工（天工大语言模型）。

但这只是基于我自己习惯的主观看法，清华大学用更加严谨和复杂的统计方法，以量化的方式评比出了他们心目中最佳中文AI大模型。

2024年3月，清华大学基础模型研究中心携手中关村实验室发布《SuperBench大模型综合能力评测报告》。

这份报告网罗了目前国内外最具影响的十四个AI大模型。通过综合能力评测，该报告认为百度文心一言是目前（或者说截至今年三月份之前）针对中文语言理解、数学能力等领域最好的AI大模型。

最引人关注的无疑是各大模型对中文的处理能力，也就是中文理解方面。文心一言（文心一言4.0，下同）在推理和语言评测中分数遥遥领先，其他模型与之相比差距较为明显，最令笔者震惊的是，我最习惯使用的讯飞星火竟然挂车尾。要说明的是，在不考虑中文的前提下，语言能力上文心一言降到第三，不及谷歌的Claude-3和GLM4，但仍领先ChatGPT 4的Turbo版和网页版。

所有人都在期待ChatGPT 5的发布

数学能力方面，文心一言与Claude-3并列第一，这一成绩体现了文心一言在数学逻辑和推理方面的强悍实力，并让人眼前一亮。此外，文心一言还在安全方面排名第一。

其它大模型也非吴下阿蒙，它们各有各的强项和优势，比如ChatGPT 4 Turbo版和网页版就分别拿下了代码编写第一、第二；智能力方面Claude-3和ChatGPT 4也是领先对手包揽前三，其中阿里的通义千问2.1是国内表现最好的智能力大模型，文心一言反而排名靠后。

总的来说，国内AI大模型方面基本接近美国水平，可以说和美国组成AI大模型领域的第一梯队，远远甩开其它国家的竞争对手。

不过我们还是要证实差距，美国AI大模型在方向创新上还远远强于我们，比如Meta，又比如ChatGPT 5，我们现阶段仍是在国外大模型背后亦步亦趋，带领行业走出自己的创新道路短时间内仍然艰难，需要从业者们继续努力。

相关阅读

拜仁官方冬训计划：放假12天，1月6日和萨尔茨堡红牛踢友谊赛

2024-12-23 22:55:22

晋疆冲突处罚官宣！齐麟停赛3场，古德温停赛2场，新疆被罚5万！

2024-12-23 22:53:33

赫拉芬贝赫：我们想比热刺付出更多；对排名满意但赛季还很长

2024-12-23 22:53:18

皇家社会总监：苏比门迪有解约条款，但我预计他1月不会离开

2024-12-23 22:52:13

官方：瓦伦西亚主帅巴拉哈下课球队暂居倒数第二位

2024-12-23 22:50:04

官方：西蒙尼当选西甲12月最佳教练

2024-12-23 22:49:38

官方：萨卡腿筋拉伤，将缺阵数周，无缘战热刺曼联

2024-12-23 22:35:13

阿斯：弗里克要求莱万更多参与防守，后者遭到一定质疑

2024-12-23 22:31:45

凯恩：转会拜仁是一次令人兴奋的挑战，我在慕尼黑有家的感觉

2024-12-23 22:30:41

詹俊评萨卡伤缺：特罗萨德能替代他首发，热苏斯也能踢右边锋

2024-12-23 22:18:14

常用频道

CCTV5 CCTV5+ jrs直播广东体育

清华大学告诉你中文AI谁最强

最新赛程

最新录像/集锦

常用频道

热门直播