谁最“聪明”:大模型为何需要测评
近日由北京商报社、深蓝媒体智库主办的“大模型见真章”AI主题沙龙上,360智脑产品资深专家葛灿辉在做“360智脑认知型通用大模型”的产品分享时,引用了三个测评结果,其中一个来自第三方评估机构SuperCLUE。
听到这个引用,台下元语智能联合创始人兼COO朱雷笑了笑。朱雷的另一个身份,便是SuperCLUE联合发起人。葛灿辉显然不知道这一层关联。
国产大模型竞赛如火如荼,好像每一个大模型都很牛,但具体牛在哪又始终缥缈,由此大模型测评应运而生。但这又可能注定是一件要“烧情怀”的事,它同样面临着“开源”还是“闭源”的两难选择,和刷题与竞价排名的诸多争议。
(资料图)
武林大会
国产大模型又多一份测评,这次的状元是讯飞星火。近日,《麻省理工科技评论》从研发和商业化能力、外界态度以及发展趋势等维度全方位检测大模型的能力,最终,讯飞星火认知大模型V2.0以81.5分的成绩登顶,荣获“最聪明”的国产大模型称号。
8月15日,科大讯飞发布“讯飞星火认知大模型V2.0版本”,科大讯飞董事长刘庆峰介绍,从业界参考测试集上的效果对比来看,星火V2.0基于Python和C++进行代码写作能力已高度逼近ChatGPT,差距仅为1%和2%。
刘庆峰说,到10月24日星火大模型代码能力全面超越ChatGPT,明年上半年将正式对标GPT4。
讯飞星火像是一个缩影。过去这段时间,大模型频繁更新让人眼花缭乱,动辄千亿的参数、各种专业术语也让人不明觉厉。但人们似乎很难找到一把统一的尺子,公平、客观、直观地感知大模型真正的效果,而不被纷杂的信息流所蒙蔽。
天使投资人、资深人工智能专家郭涛对北京商报记者分析称,“大模型是一个非常复杂的系统,它由大量的数据和算法组成,在训练和推理过程中需要考虑很多因素。对大模型进行测评可以帮助我们更好地了解模型的性能和特点、评估价值和意义、局限性和潜在风险等,从而为大模型的发展和应用提供有力支持”。
深度科技研究院院长张孝荣将测评形容为一场“武林大会”,要试试各家身手。他对北京商报记者分析称,大模型涉及到庞大的参数和复杂的算法,对于性能和效果的评估十分重要。通过测评可以大致地了解大模型的性能、稳定性、准确性等内容,为用户选择合适的大模型提供参考。
测评开始补位。今年3月,真格基金以投资者的身份入场,设计了一套大模型测试集Z-Bench。高校也是测评的中坚力量,例如清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval。
有媒体报道,5月以来,10多家国内外多家调研机构、权威媒体和高校等发布大模型评测报告,包括新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告2.0》、天津大学和信创海河实验室发布的《大模型评测报告》、国际数据公司IDC发布的《AI大模型技术能力评估报告,2023》等。
难统一的标准
当该有测评成为共识,迎面而来的下一个问题就是,我们需要一个怎样的测评。
《麻省理工科技评论》提到,评测使用的测试集包含600道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共8个一级大类,126个二级分类,290个三级标签,并针对问题的丰富性和多样性做了优化。
此前IDC则在测评中将大模型分为三层,服务生态、产品技术以及行业应用,对每一层的能力进行测评,主要考察指标为算法模型、通用能力、创新能力、平台能力、安全可解释、大模型的应用行业以及配套服务和大模型生态等,具体包括36项细颗粒度的评估标准。
对于大模型测评的必要性,朱雷提到,模型测评基准是通用人工智能的基石,没有测评就意味着没有目标,很难准确地判断究竟哪些做得好哪些做得不好,同时对于AI的安全性也无法把控。从国际视角上看,对于大模型的测评也是没有绝对标准的,因为大模型发展太快了。但在国内要做出一个客观公正的评测基准,也会遇到很多阻力。
北京市社会科学院副研究员王鹏对北京商报记者分析,目前大模型尚属新兴事物,国际上还没有一个覆盖面非常广、能够得到大家公允的评估方法或整套指标体系,需要加强国际合作,形成广泛共识。
“但这也会面临一定的问题,即大模型本身类型繁多,通用还是专用、垂类还是跨行业、偏技术还是偏应用等区别也会带来一定的阻碍,因此更需要权威机构加强研究,尽快形成共识,促进技术进步和行业发展。”王鹏称。
在他看来,一个合格的测评,应该由四个维度组成。首先是技术本身,包括稳定性、效率、效果等;其次是与行业的结合,在行业应用中是否有效果、成本是否可控、是否能够形成商业闭环;再次还要考虑是否安全可控;最后要从社会及行业认知角度,了解其在行业中的关注度,毕竟“酒香也怕巷子深”。
张孝荣也提到,由于大模型涉及的领域和应用非常广泛,不同领域、不同应用的大模型需要关注的指标和评估方法不尽相同。因此,针对具体应用领域和需求,不同机构和组织可能会提出不同的评估标准和方法。“尽管没有统一的标准,但测评的意义在于提供了一种评估和比较不同大模型性能和效果的方法,帮助用户选择适合自己需求的大模型。”
测评还是营销
“测评的意义侧重于营销推广”。张孝荣还提到了一个观点。
葛灿辉在引用SuperCLUE测评结果的时候,提炼出了一句总结:“360智脑”多项能力位列国产大模型第一。《麻省理工科技评论》的测评报告,传播最多的也是“讯飞星火被评为中国‘最聪明’的大模型”。
更早些时候,刷屏的是百度。比如IDC的大模型报告中,“百度文心大模型3.5获多项满分”,清华大学新闻与传播学院沈阳团队发布的《大语言模型综合性能评估报告》中,百度文心一言在三大维度20项指标中综合评分国内第一,超越ChatGPT。
每每涉及榜单,榜首归谁总是容易成为话题中心,从这个角度上看,测评本身或许就带着些营销的天然属性。但也正是如此,延伸出了一些不容忽视的问题。
“SuperCLUE出6月榜单的时候,第一时间就有人指责我们是不是收了360的钱,但事实是,直到这次沙龙,我们与360智脑产品负责人才有了第一次接触。”朱雷如此说道。
事实上,大模型测评同样面临着“开源”和“闭源”的两难选择。朱雷称,大模型测评题集也有开源闭源之分,但开源的题目就会面临受试者提前训练进而刷分“打榜”的可能,而闭源的题目就会陷入到是否有暗箱操作乃至竞价排名的争议。
朱雷表示,SuperCLUE还是选择了闭源的测评路线,但不是任何机构都可以闭源的,之所以公众较为相信SuperCLUE的测评结果,主要还是基于过去四年CLUE社区对中文语言模型的贡献和公信力。
据了解,CLUE开源社区发起于2019年,旨在建立科学、客观、中立的AI评测基准,过去几年CLUE社区分别建立了ZeroCLUE、FewCLUE等知名的语言模型评测基准,又于今年5月发布首个中文通用大模型综合性评测基准SuperCLUE。
SuperCLUE分为SuperCLUE-Opt、SuperCLUE-LYB琅琊榜以及SuperCLUE-Open三个不同维度的评测基准,相辅相成。其中SuperCLUE-Opt是首个中文通用大模型综合性评测基准,聚焦客观题;SuperCLUE-Open为首个中文通用大模型综合性多轮开放域评测基准,聚焦主观题;SuperCLUE-LYB琅琊榜的定位则是中文大模型匿名对战平台,让用户参与投票。据介绍,SuperCLUE目前也是中文AI领域最完整的综合性测评基准,同时也是罕见的“闭卷”考试。
“我们暂时还没有找到折中的方法,所以决定先‘保密’,大模型厂商不知道我出了什么样的问题,自然不好刷分。至于‘保密’带来的黑盒化,目前来看还是一个两者不可兼得的问题,但我们坚信自己的第三方中立性,评测的结论也是十分科学的。”朱雷称。
SuperCLUE以“月考”形式进行,每个月也会更新迭代,包括补齐缺失的维度、更新现有的测试题等。“现阶段我们仍选择以闭源的形式把测评摸清楚,建立比较健全的标准后可能会选择部分开源,即便如此我们也会保证每次测评前厂商无法拿到相关的测试题,等到测试结果公布后再将题目放出,这样外界可以根据题目进行复现,或许会减弱类似于竞价排名的争议。”朱雷称。
王鹏分析称,任何一项评估或排名,都可能面临一些问题,但这其实相当于一个“否定之否定”的过程。首先评估体系本身并不是完美的,需要不断优化提升,应对大家可能产生的质疑。
其次,专业的评测机构、技术机构等,也要注重自己的口碑,建立完善的体系,储备丰富的经验,有较好的技术团队和技术储备,作出更加客观公允、公平公正的评价。“因为一旦出现‘人情分’等问题,不仅会影响自己的声誉,也不利于行业的未来发展”,王鹏称。
(文章来源:北京商报)
标签:
电脑
-
电脑任务栏点击无反应怎么办?电脑任务栏一直转圈圈怎么办?
电脑任务栏点击无反应怎么办方法一、卸载补丁1、出现这个原因可能是某个windows10系统补丁更新,导致的...
-
电脑打字乱码怎么办?串口显示乱码的原因有哪些?
电脑打字乱码怎么办?1、在桌面上新建一个名为TEST的文本文档并打开。2、我们在文本文档中输入你好两个字...
-
台式机或笔记本摄像头不显示怎么办?电脑弹窗提"无法定位序数"怎么办?
台式机或笔记本摄像头不显示怎么办摄像头黑屏问题解决方法:1、检查摄像头是否损坏,如果您的摄像头是内...
-
-
电脑网络适配器有感叹号怎么办?读卡器插电脑读取失败怎么办?
电脑网络适配器有感叹号怎么办?解决方法:方法1、右键点击驱动程序,然后选择卸载,卸载之后再重新启动...
硬件
- MBR和GPT的区别有哪些?MBR和GPT怎么选择?
- SSD能用多久在哪看?硬盘中缓存有什么用?
- m.2和SATA区别大吗 ?买M.2 NVME要注意什么?
- 固态硬盘应该怎么选择?m.2固态硬盘和ssd固态硬盘哪款好?
- u盘文件found怎么恢复? 什么叫U盘量产?
- u盘能在手机上用吗?手机如何直接连接u盘?
- u盘建议买多大内存?什么u盘质量最好最耐用?
- u盘发烫怎么办?u盘发烫不识别怎么办?
- U盘分配单元大小怎么设置?电脑不显示u盘盘符怎么办?
- 如何将大于4g的文件拷贝到u盘?U盘显示0字节怎么办?
- 固态u盘和普通u盘有什么区别 ?怎么解除U盘保护?
- 电脑怎么连接打印机?电脑怎么连接电视?
- 电脑怎么连上蓝牙音响?蓝牙耳机连接电脑后没有声音该怎么办?
- 怎么看电脑有没有声卡?结束不了系统进程怎么办?
- 俄“月球-25”号探测器失联坠毁,登陆月球为何如此艰难?
- 均胜电子:上半年净利约4.76亿元 同比扭亏为盈
- 日媒:岸田文雄称计划最早8月24日进行核污染水排海
- 个人税收计算器2023最新版_个人税收计算器
- 杰伦格林只是2当家?美媒为火箭球员实力排名:顶薪新援独占鳌头
- Citywalk京津冀: 生态优先 、绿色发展、公共服务……三地奏响协同乐章
- 发改委等四部门研究部署抓好今年遏制“天价”月饼工作
- 突破300万!我国已累计建成5G基站305.5万个
- 外交部:绝不接受打着和平的幌子干涉中国内政
- 当贝F6 4K大屏不虚焦,巨幕观影巴适得板!
- 《博德之门3》怎么获得跨步之靴
- 谷歌PixelWatch2出现谷歌Play控制台上
- 中国西电: 股价表现与公司经营、宏观经济因素、资本市场环境、投资者预期等众多因素相关
- 为生态文明建设提供科技支撑
- 戴维医疗:上半年净利同比增156.79%
- 谋杀7名新生儿 英国“恶魔护士” 或面临终身监禁
- 庆余年程巨树死没有 《庆余年》的程巨树
- 深圳人才房放宽申购条件:3人家庭可认购三房 学历覆盖专科人才
- 烟台发布8月下旬天气预报,旬初和旬末有强对流天气过程
- 三星Exynos 2400曝光:10核CPU 比骁龙8 Gen3更激进
- 单词翻译在线查询 单词翻译在线
- “城市漫步”路线有了“生态版”
- 排队给姆巴佩道歉!愿放弃1亿奖金,逼宫离队,实为清洗内马尔
- 延边光东村:靠当地特色走出的致富之路
- 《最后的真相》发点映海报 闫妮涂们玩起旋转木马
- 2023年天猫七夕节活动什么时候开始?怎么玩?
- 东海部分水域范围明日实弹射击训练,禁止驶入
- 赝品曾国藩“白水云楼”书法对联
- 科学居家护理 改善脑梗死预后
- 如何正确服用药物
- 了解抗生素
- 六岁孩子适合玩什么游戏
- 李宇春素装与小朋友大合唱 透露“黄房子”项目缺乏美术老师
- 欧元/美元今日货币走势分析(2023年8月21日)
- 青少年如何预防生长激素缺乏症
- 经肛全直肠系膜切除术的优缺点
- 首批海外医生料下月可到港就业
- 在知行合一中历练成长(金台随笔)
- 韶阳楼开展“阅读韶关·寻找‘从前慢’”七夕系列活动
- 都体:没有球队报价萨勒马科尔斯,米兰已不期望能收到很好的报价
- 心肌酶谱检测
- 做好糖尿病管理 提高患者生活质量
- 腰椎间盘突出症为何容易复发
- 老年人临睡前慎用中枢性止咳药
- 如何缓解孕期肚皮痒
- 河北邯郸市开展产改政策进企业宣讲活动
- 上海黄金交易所金条价格今天多少一克(2023年08月21日)
- 红糖可乐姜汤的做法和功效(可乐姜汤的做法和功效)
- 中介利用AI换脸破解多省政务APP:冒名开公司,10分钟完成登记注册
- 伊之密:8月18日融券净卖出7100股,连续3日累计净卖出4.51万股
- 林俊杰求婚歌曲(林俊杰向金莎求婚)
- 贵广网络8月21日快速反弹
- 三盘鏖战230分钟!德约逆转复仇阿尔卡拉斯,夺大师赛第39冠
- 开评:三大股指集体低开 券商等板块跌幅居前
- 国际米价高企对我国影响有限
- 快递进村勿照搬城市模式
- here we go!曼城铁卫加盟沙特投奔C罗马内 转会费近3000万欧
- 西流河镇“现场”练兵 “挑刺”提质
- ipad2现在还能装什么(ipad2能打电话么)
- 职业资格、技能等级证书如何查询(民生服务港)
- 我国首个跨国高等教育质量评估框架出炉
- 【有色金属】有色金属行业跟踪周报:美元持续走强,金属价格承压回落
- 小米手机怎么查电池健康值
- 汽车set键是什么功能(汽车上set键是什么意思?)
- 坐月子可以吃辣椒吗_坐月子可以吃荔枝吗
- 习惯孤单以后一个人便是全世界(习惯孤单)
- 灵魂有香气的女子在线观看(灵魂有香气的女子)
- 武汉6名高校师生组团到五峰开展暑期实践
- 蒙古族传统习俗(关于蒙古族传统习俗简述)
- 刚看完《消失的她》 没忍住做了个《消失的大A》
- 转经筒编法教程_转经筒编法
- u盘密码忘记了怎么办 不在原电脑上(u盘密码忘记了怎么办)
- 徐浩峰回归话剧舞台执导《搭手飞人》,借武行故事传递中国精神
- 消费市场持续复苏
- 环绕大半个中国?长安凯程GDI双车万里节油大测评鉴证节油强芯实力
- 张伟丽成功卫冕!现场高呼“我来自中国”
- 哪吒S新款上市:动力提升 外观更个性
- 我的母校 瑞安师范学校
- 北京发布暴雨蓝色预警!涉12区,局地短时强降水
- 聚合双酸铝铁商品报价动态(2023-08-20)
- 280tsi大众是多少排量(280tsi大众什么意思?)
- 这就是美国拼凑排他性“小圈子”的算盘
- 10.98.48.6北京农学院登录(北京农学院信息平台)
- 2022郑州封控区域地图最新(新封控区域全图)
- 拒绝向老美低头,大厂5G芯片正加速回归,摊牌时刻或在下月!
- 2岁男孩严重腹泻,9个月体重仅10斤!两个多月在“沙漠肠”中重建“绿洲”创奇迹
- 应城市城区首家“水电气暖网”共享营业厅投入运行
- 孙运涛(关于孙运涛简述)
- 95的车突然加了一次92的油有没有事(95突然加92的油会怎么样)
- 联合国驻塞浦路斯维和部队谴责袭击联合国维和人员
- 厦门"健康中国"地铁专列发车 坐地铁认一认厦门杰出医师
- 河北大范围降雨来袭,小心强对流!各市具体预报
- 我43岁,跟前夫离异10年,凌晨2点,无意中翻到18岁女儿的朋友圈,失眠了
- 300万台电机量产下线 龙头企业为重庆制造业助力
- 夏威夷毛伊岛大火死亡人数升至114人 6名遇难者身份确认
- 状态正佳,皇马时隔将近1年后再度取得西甲客场两连胜
- 贝美互动(关于贝美互动的基本详情介绍)
- 国家防办、应急管理部:进一步落实落细各项防汛抗旱救灾措施
- 孙坚虎虎甄嬛传是哪一期(孙坚虎虎)
- 紫光的资料(紫光任务)

电竞

数码

事件
- 谁最“聪明”:大模型为何需要测评08-21
- 开工两个月主体工程进度过半!青岛这个产业园建成后将落户58个项目08-21
- 海螺水泥2023年上半年净利64.68亿 同比减少34.26%08-21
- 青岛农村人居环境2023年第2次集中暗访抽查评估“大排名”结果发布,详情→08-21
- 加快推进世界一流海洋港口建设!西海岸新区重点实施七大行动25项重点任务08-21
- 西海岸综保区添跨境电商冷链物流新基地,这个项目两栋建筑结构封顶08-21
- 全球“去美元化”怪不得别人!顶级经济学家:美元最大威胁是美国自身08-21
- 五年发放1.4亿元生态补偿“大红包”!青岛水环境质量实现新跃升08-21
- 湖北省“网聚职工正能量”主题活动开启08-21
- 外交部:绝不接受打着和平的幌子干涉中国内政08-21
- 做好降雨应对工作!青岛出动防汛抢险人员300余人次,保障城市排水畅通08-21
- 沃尔沃中国管理层调整:钦培吉加盟吉利 潘鹤松重返中国08-21
- 官方通报执法局人员向景区员工泼热水:行拘10日08-21
- 中国印钞造币集团原董事陈义清被查08-21
- 聊城市纪委副书记、市监委副主任肖德刚接受纪律审查和监察调查08-21