悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆
为推动大模型在产业落地和技术创新,智源研究院发布“开源商用许可语言大模型系列+开放评测平台” 2 大重磅成果,打造“大模型进化流水线”,持续迭代、持续开源开放。
悟道·天鹰(Aquila)开源商用许可语言大模型系列
(相关资料图)
悟道·天鹰(Aquila) 语言大模型是首个具备中英双语知识、支持商用许可协议、国内数据合规需求的开源语言大模型。
悟道·天鹰(Aquila)语言大模型在中英文高质量语料基础上从 0 开始训练,通过数据质量的控制、多种训练的优化方法,实现在更小的数据集、更短的训练时间,获得比其它开源模型更优的性能。系列模型包括 Aquila基础模型(7B、33B),AquilaChat对话模型(7B、33B)以及 AquilaCode-7B “文本-代码”生成模型,后续将持续更新迭代并开源更新版本。
Aquila基础模型(7B、33B)在技术上继承了 GPT-3、LLaMA 等的架构设计优点,替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer,升级了 BMTrain 并行训练方法,实现了比 Magtron+DeepSpeed ZeRO-2 将近8倍的训练效率。
AquilaChat 对话模型(7B、33B)支持流畅的文本对话及多种语言类生成任务,通过定义可扩展的特殊指令规范,实现 AquilaChat对其它模型和工具的调用,且易于扩展。例如,调用智源开源的 AltDiffusion 多语言文图生成模型,实现了流畅的文图生成能力。配合智源 InstructFace 多步可控文生图模型,轻松实现对人脸图像的多步可控编辑。
AquilaChat 训练过程中,实现了模型能力与指令微调数据的循环迭代,包括数据集的高效筛选与优化,充分挖掘基础模型的潜力。
图注:多轮对话
图注:高考作文生成
AquilaChat 支持可扩展的特殊指令规范,令用户可在AquilaChat中轻松实现多任务、工具的嵌入,如文图生成,下图示例为在对话中调用智源开源的多语言文图生成模型 AltDiffusion。
图注:文图生成
AquilaChat 具备强大的指令分解能力,配合智源InstructFace多步可控文生图模型,轻松实现对图片的多步可控编辑。
图注:多步可控人脸编辑
AquilaCode-7B “文本-代码”生成模型,基于 Aquila-7B 强大的基础模型能力,以小数据集、小参数量,实现高性能,是目前支持中英双语的、性能最好的开源代码模型,经过了高质量过滤、使用有合规开源许可的训练代码数据进行训练。
此外,AquilaCode-7B 分别在英伟达和国产芯片上完成了代码模型的训练,并通过对多种架构的代码+模型开源,推动芯片创新和百花齐放。
图注:文本-代码生成
天秤(FlagEval)大模型评测体系及开放平台
天秤(FlagEval)大模型评测体系及开放平台,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能,同时探索利用AI方法实现对主观评测的辅助,大幅提升评测的效率和客观性。目前已推出语言大模型评测、多国语言文图大模型评测及文图生成评测等工具,并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象,包括自然语言处理(NLP)、计算机视觉(CV)、语音(Audio)及多模态(Multimodal)等四大评测场景和丰富的下游任务。
首期推出的 FlagEval 大语言模型评测体系,创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果,总计 600+ 评测维度,任务维度包括 22 个主观&客观评测数据集。除了知名的公开数据集 HellaSwag、MMLU、C-Eval等,FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ,北京大学与闽江学院共建的语义关系判断、多义词理解、修辞手法判断评测数据集。更多维度的评测数据集也在陆续集成中。
FlagEval 评测榜单目前涵盖了前面谈到的22 个主观和客观评测集,84433 道题目,细粒度刻画大模型的认知能力。基于“悟道 · 天鹰”Aquila 基础模型(7B)打造的 AquilaChat 对话模型,在 FlagEval 大语言模型评测榜单上,目前暂时在“主观+客观”的评测上领先其他同参数量级别的开源对话模型。
在我们当前的最新评测结果中,AquilaChat 以大约相当于其他模型 50% 的训练数据量(SFT 数据+预训练数据分别统计)达到了最优性能。但由于当前的英文数据仅训练了相当于Alpaca的40%,所以在英文的客观评测上还暂时落后于基于 LLaMA 进行指令微调的Alpaca。随着后续训练的进行,我们相信很快可以超越。
悟道·天鹰(Aquila)模型还在迭代进步的过程中,天秤(FlagEval)评测能力也在不断的扩充中, 因而此评测结果只是暂时的,新的评测结果还会不断更新。此外,FlagEval的评测体系方法及相关研究还需要继续深入,当前对模型能力的覆盖程度仍有很大的进步空间,智源也期待与多方合作,共同打造全面、科学的评测方法体系。
图注:在评测时,FlagEval 根据数据集的不同规模进行了自动化采样,总计采样 28041 条数据。
天秤(FlagEval)开放评测平台现已开放申请(flageval.baai.ac.cn),打造自动化评测与自适应评测机制,可辅助模型研发团队利用评测结果指导模型训练,同时支持英伟达、昇腾(鹏城云脑)、寒武纪、昆仑芯等多种芯片架构及 PyTorch、MindSpore 等多种深度学习框架。
作为“科技创新2030”旗舰项目重要课题,天秤(FlagEval)正与北京大学、北京航空航天大学、北京师范大学、北京邮电大学、闽江学院、南开大学、中国电子技术标准化研究院、中国科学院自动化研究所等合作单位共建(按首字母排序),定期发布权威评测榜单。
总的来说,智源此次发布的 2 大重磅成果仅仅是一个新的起点:
一方面,悟道 · 天鹰 Aquila 语言大模型将不断完善训练数据、优化训练方法、提升模型性能,在更优秀的基础模型基座上,培育枝繁叶茂的“模型树”,持续开源开放。
另一方面,天秤 FlagEval 大模型评测体系及开放平台将继续拓展“大模型认知能力”框架,集成丰富的数据集与评测指标,并探索与心理学、教育学、伦理学等社会学科的交叉研究,以期更加科学、全面地评价语言大模型。
「模型 + 评测」双轮驱动,加速大模型技术创新与产业落地。欢迎学界、产业界同仁提供建议。
标签:
电脑
-
win11怎么看电脑是32位还是64位?macos怎么看电脑是32位还是64位?
win11怎么看电脑是32位还是64位win11系统并不支持32位的处理器进行安装,也就是windows11系统默认就是64...
-
xp怎么看电脑是32位还是64位?win7怎么看电脑是32位还是64位?
xp怎么看电脑是32位还是64位?虽然xp系统理论上也存在64位系统,但实际中安装该版本的用户极少,因此所有...
-
电脑怎么用截图快捷键?电脑c盘爆红了怎么办?
电脑怎么用截图快捷键?方法一1、ctrl加Prt Sc SysRq,或者直接按下Prt Sc SysRq键也是可以截图的。2...
-
怎么防止电脑自动安装垃圾软件?我的电脑图标没了怎么办?
怎么防止电脑自动安装垃圾软件?方法一、1、同时按下win+R键打开电脑中的运行,在里面输入gpedit msc并...
-
img文件怎么打开?IMG文件怎么制作?
img文件怎么打开?一、使用HDCOPY软件HDCOPY的使用方法:1、进入HDCOPY主界面(注意:要在纯DOS下使用),...
硬件
- 组装电脑有哪些搭配技巧?怎么看电脑配置?
- i7-3770怎么组装?i7 8700k配什么显卡?
- x58主板配什么cpu好?GTX1660用什么显示器?
- 做直播视频剪辑电脑配置有哪些要求?办公电脑配置有哪些推荐?
- 组装电脑需要哪些配件?b85主板如何组装电脑?
- 3060显卡配什么cpu和主板?x79主板配什么cpu好
- 2023十大高性价比台式机有哪些推荐?华硕怎么样?
- 12400f怎样搭配性价比最高?英特尔i9-13900k配什么主板好?
- 机械键盘哪个牌子性价比高?RTX3070TI配什么显示器好?
- 笔记本固态硬盘哪个牌子好?无线蓝牙鼠标有哪些好用品牌?
- 加热鼠标垫会不会导致键盘失灵?发热鼠标垫使用有哪些注意事项?
- 鼠标上的按键分别有什么功能?鼠标六个按键功能介绍
- 自己怎么组装电脑?需要哪些配件?
- 移动硬盘不识别怎么办?怎么解决移动硬盘不识别问题?
- 悟道·天鹰 Aquila + 天秤 FlagEval,打造大模型能力与评测标准双标杆
- 环球快报:2023年6月27日山东省乙二醇二乙酸酯价格最新行情预测
- 锡南科技涨20.59% 机构净卖出1687万元-每日看点
- 手机怎样使用语音功能搜索_手机谷歌浏览器如何设置语音搜索功能|通讯
- 中国诚通发展集团(00217)附属与山东凯马汽车制造就若干汽车生产设备订立售后回租协议|全球实时
- 中消协发布“618”消费维权舆情分析报告
- 新密市青屏街街道坚持“三项机制”守护蓝天碧水净土 快播报
- 世界微动态丨华如科技股东户数增加7.16%,户均持股14.48万元
- 老照片:德国摄影师拍摄的1907年河北承德热河金碧辉煌的皇宫|观点
- 全球新资讯:麻将桌布更换视频_麻将桌遥控
- 今日热闻!许尤佳个人简介(许佑嘉)
- 当前报道:06.27实盘:打板英联股份、长白山,买入福斯特
- 隆众资讯:河南、安徽尿素走访调研报告_今日热议
- 每日动态!与富士康投资协议破裂,Lordstown(RIDE.US)申请破产
- 七彩化学再收警示函 因业绩预告不准、信披不及时
- 真“刑”!男子种植1469株罂粟竟是为了炖肉
- 全球速递!南京杨书记眼光真不错!与其激吻的刘女士韵味十足,身价千万
- “毕业寄”这块蛋糕,不是你想吃就能吃上?
- 外地人在佛山怎么买房_外地人在佛山买房条件是什么
- “清朗·2023年暑期未成年人网络环境整治”专项行动启动 聚焦7方面问题-焦点速讯
- 今日视点:投哥看盘(6月27:如何看待今天大涨)
- 十四届全国人大常委会举行第六次委员长会议 听取有关草案和议案审议情况汇报 赵乐际主持
- 四川省纪委监委:2人被查
- 中央网信办:即日起开展暑期未成年人网络环境整治专项行动
- 锦屏县铜鼓镇:“三力”齐发 推动食品安全“两个责任”机制落地 全球微动态
- 婚前债务离婚如何分配?
- 观焦点:十大容易通过的借款App,审核容易过,成功率高,容易下款
- 误会她是绿茶,是我错了
- 23.78亿!基金发行频出喜讯!投资名将集体新发,什么信号?-全球讯息
- 快消息!折价出售最赚钱子公司但交易方成立尚未满月,三五互联为何这样做?
- 宝贵的舌头|品油师:品油并非完全靠喝油,嗅觉比味觉更重要 头条
- 认同否?记者评史上最佳中场:魔笛第一,齐祖第二,马特乌斯第三
- 逆水寒手游安卓和苹果互通吗 安卓和苹果可以一起玩吗[多图]
- “能人”回乡打造群众增收致富新引擎
- sin15度等于多少准确_sin15度等于多少_环球快看点
- 每日简讯:大牙老公回应陈建州被指控性骚扰:支持老婆勇敢站出来发声
- 长安马自达举办第五届粉丝盛典 推出"悦马臻享"五大服务
- 济南经十路东延工程施工展开,将以双向八车道连通淄博
- 6月27日 13:41分 硕贝德(300322)股价快速拉升
- 快看:B站:将以播放分钟数代替次数,去年UP主收入同比增28%
- 增速放缓,股价下跌超30%,“河北王”老白干该如何破局?|每日关注
- 策划活动主题方案_策划活动主题怎么写_即时看
- 小班上学期工作计划表-小班上学期工作计划 资讯推荐
- 【独家焦点】宝刀不老——谁说中老年人不会玩电脑
- 开荒动画招聘直播运营啦~
- 电影七月与安生 七月与安生结局七月死了吗
- 暗黑破坏神4迅血威能获取位置 热文
- 山东李氏家谱字辈大全(李氏家谱字辈5000例)
- 强制扫码关注?这毛病不能惯!
- 今日快看!2023版熊猫金币15克今日价格(2023年06月27日)
- 配备“高压油箱”,坦克500 Hi4-T上市,售33.5万
- 通讯!共获“屋檐下”的幸福!宝山这些社区达人携手打造“七彩楼组”品牌
- 刘建龙到永城市信访局约访接待信访群众|当前视点
- 资讯:江西省赣州市市场监管局组织开展化妆品经营企业交叉检查
- 当前头条:【乡村振兴云梦实践】好漂亮的瓜呀!云梦四季长青有个“瓜博览馆”
- 民事申诉 关于民事申诉介绍
- 亚马逊在美国推出新交付计划Amazon Hub Delivery
- 云南省临沧市2023-06-19 22:08发布雷电黄色预警|焦点报道
- 猪内脏哪个部位好吃? 全球即时
- 中国移动5G终端客户已达4.7亿
- 天天即时:乡村教师,当有更多职业认同
- 乡村治理:培养复合型、高素质“三农”管理专业人才 今日报
- *ST中捷6月27日盘中涨停 当前独家
- 小沈阳晒照纪念结婚19周年 一家三口温馨互动
- 怎么录制电脑内部声音_录制电脑内部声音
- 马自达与梁家辉世纪大和解!MAZDA DAY花样宠粉,CX-50行也震撼助阵
- 搜歌词找歌曲名字_查歌词找歌曲名字|资讯推荐
- 方正电机涉信披违法违规被立案调查 董秘:“不好说”是否与年报问询函有关
- 世界热门:万代南梦宫夏季游戏发布会公布 7月2日开幕
- 授旗出征,青春绽放——商丘工学院教育与现代艺术学院举行“萤火光”暑期社会实践团出征仪式 时讯
- 粉条怎么做好吃又简单?|世界新资讯
- 【环球播资讯】元旦的朋友圈文案唯美精彩5篇
- 尊嘟假嘟是什么意思网络用语|世界讯息
- 环球观天下!“候鸟”老人生活现状,新大同时代广场PK万城春天哪个上海人比较多?
- 史上规模最大!全国中成药集采结果出炉,这些公司中选|焦点热文
- 今日最新!今日上市:广康生化、锡南科技、安凯微、华丰科技、天罡股份
- 专家论坛预告 | 俞妍研究员特邀报告 看热讯
- 仙佑医药“老字号”膏药贴牌生产,传承百年传统工艺
- 世界新消息丨俄发布普京在克宫处置危机画面,“与往常一样”
- 看热讯:泉州5G基站建设数量超1.9万座 规模全省第一
- 蒙草生态:连续4日融资净买入累计1327.5万元(06-26) 即时看
- 解放七代卡车同框巡游!
- 新冠病毒致病力变弱了吗?中国科学家有新发现,还将研究猴痘 每日观察
- 【世界热闻】启迪环境:融资净偿还5.4万元,融资余额2.29亿元(06-26)
- 内蒙古:314条绿色通道保障迎峰度夏能源物资运输 天天热头条
- 州的部首是哪一点_州的部首
- 全球热点!k40充电死机重启是哪里坏了
- 焦点播报:山火频发!加拿大蒙特利尔被烧成“全球空气最差”城市
- qq聊天记录怎么迁移到另一台手机(qq 聊天)_每日速看
- 官方:巴萨2+1合同签下三冠王曼城队长 违约金4亿 快资讯
- 天天微头条丨成都市劳动保障信息网站 成都市劳动保障信息网
- 环球快资讯:内高班可以报考的大学名单(内高班可以报考的大学)
- 全球热讯:普门科技(688389):6月26日北向资金减持15.24万股
- 电脑键盘复制粘贴是哪几个按键(电脑为什么不能复制和粘贴)
- 欧佩克秘书长:预计2045年全球每天石油需求量将达1.1亿桶 天天快资讯
- 大洋电机:拟5000万元至5500万元回购公司股份 回购价不超6.5元/股_每日观点
- 【湖北应急网评大赛⑲】东湖评论:防风险清隐患 筑牢安全生产“铜墙铁壁”-全球动态
- 【热闻】美股异动 | 邮轮板块普跌 嘉年华邮轮(CCL.US)跌超9%
- 机构投资者调研热情高涨 四家公募基金年内调研均已超千次
- 宋鹏

电竞

数码

事件
- 如何推进住宅小区环境综合治理?上海浦东这样做 全球百事通06-27
- 低迷需求下产能转移加速 印染纺织企业“精挑细选”出海建厂06-27
- 50余家国内重点高校代表走进上合!第十届“博士行”活动计划8月初在青开展 每日热议06-27
- 天天消息!俄称瓦格纳准备向俄军移交重武装,撤销针对普里戈任的刑事立案06-27
- 局部冰雹+暴雨+雷电+11级风!山东明后天自西向东迎来大范围强对流天气06-27
- 增设8个专业19个班次,青岛授牌成立9所军休老年大学分校06-27
- 【天天时快讯】美国财长耶伦将于下月访华?外交部:建议向主管部门询问06-27
- 航行警告!南海海域进行军事训练06-27
- 日媒:福岛核污染水排海隧道建设工程已完工-全球快资讯06-27
- 十大高发电信网络诈骗类型被曝光06-27
- 环球资讯:日本拟法律要求苹果开放第三方应用06-27
- 中央网信办:即日起开展暑期网络环境专项整治06-27
- 所属重点车辆违法数量较多!青岛交警点名12家高风险危化品运输企业06-27
- 完全稀释06-27
- 内人的拼音(内人)06-27