商汤大模型“商量”评测表现超ChatGPT,用户可申请试用 新消息
商汤科技近日公布了自研中文语言大模型“商量sensechat 2.0”在mmlu、agieval、c-eval三个权威大语言模型评测基准的成绩。评测显示,“商量”在这三个测试集中的表现均领先chatgpt,实现了我国语言大模型研究的突破。
今年4月,商汤发布了“商汤日日新sensenova”大模型体系以及中文语言大模型“商量sensechat”。目前,“商量”已在众多行业和场景中发挥作用。例如在需要大量文案工作的场景中,它可以协助处理各类文章、报告、信函、产品信息、it信息等,进行编辑、重写、总结、分类、提取信息、制作q&a(问答)等,有效提高员工的生产效率。在客户服务场景中,它还可以扮演许多不同的企业角色,如银行客服、给孩子讲故事的绘本老师等,并进行顺畅的交流互动,提升客户体验。
据悉,已有近千家企业客户通过申请,应用和体验“商量”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力。想申请试用“商量sensechat 2.0”的用户,可登录该网站:https://lm_experience.sensetime.com/document/authentication。
(资料图片仅供参考)
各大语言模型在mmlu、agieval、c-eval三个评测基准中的得分
mmlu是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,测试知识和解决问题的能力。
在该评测中,“商量”综合得分为68.6,远超glm-130b的得分(45.7分),也超过了chatgpt(67.3分)、llama-65b(63.5分),仅落后于gpt-4(86.4分),位居第二。
图中粗体表示结果最佳,下划线表示结果第二。
agieval由微软研究院发布,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。该基准选取20 种面向人类考生的考试,包括大学入学考试(中国高考和美国sat考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。
在该评测中,“商量”得分为49.91,遥遥领先于glm-130b(34.2分)、llamma-65b(34.0分),也超过chatgpt(42.9分),仅次于gpt-4(56.4分)。在其中的agieval(gk)评测子集中,“商量”以58.5分排名第二,仅以微弱差距落后于gpt-4(58.8分)。
图中粗体表示结果最佳,下划线表示结果第二。
c-eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含13948道多项选择题,涵盖52个不同的学科和四个难度级别。
在该评测中,“商量”获得66.1分,在参评的18个大模型中仅次于gpt-4(68.7分),全面领先chatgpt、claude、bloom、glm-130b、llama-65b等大模型。其中,c-eval(hard)子评测集选择了8个具有挑战性的数学、物理和化学科目,考核大语言模型的推理能力,“商量”的表现也居于前列。
最新c-eval 排行榜
商汤研发团队在训练阶段采用自研的一系列增强复杂推理能力的方法,以及更加有效的反馈学习机制,让大模型在增强推理能力的同时,减轻了传统大模型的幻觉问题。
据介绍,“商量”还拥有广泛的知识储备,能结合企业自身所在行业的专有数据,打造满足企业需要的高阶知识库。它还是ai代码助手,可以实现新的“二八定律”,即80%的代码由ai生成,20%由人工生成。
栏目主编:黄海华
本文作者:俞陶然
标签:
- 商汤大模型“商量”评测表现超ChatGPT,用户可申请试用 新消息
- Fsc公链开发技术架构解析 今日观点
- 禁欲少校大哥的囚禁txt赵大善人(禁欲少校大哥的囚禁)
- 异界重生像素冒险什么时候出 公测上线时间预告
- 每日热门:复合型塑胶跑道
- 数据中折射出的经济“加速度”
- 美联储主席鲍威尔:美国经济去年大幅放缓 劳动力市场依然紧张
- 铁路端午运输期5天 国铁集团郑州局预计发送旅客296万人_世界快消息
- 世界关注:招联逾期说要上门催收真的假的?上门催收是合法的吗?
- 【世界速看料】今日18时或将严重拥堵 成都交警发布出行提示
- 中建璞园:一脉相宸|售楼处|孙河别墅区苇沟|户型图|樓市資訊|世界快播
- 新开源(300109.SZ):预计今年在新能源电池领域出货量4000余吨 今日热闻
- 端午假期全国旅游市场复苏,这份指南请收好!-天天速递
- 景峰医药(000908)6月21日主力资金净卖出926.21万元 世界热闻
- 汨罗江畔,听这支乡村龙舟队的端午故事 焦点热讯
- 全球热点评!手机浏览器广告拦截插件_手机浏览器广告拦截
- 2023河南高考分数线出炉 艺术类分数线最新公布
- 6月21日涨停复盘:*ST美谷4板,宝馨科技涨停
- 最新消息:24女真·肉搏,杀出年度最强黑马!
- 京东618创纪录,新CEO再出发
- 福建省漳州市2023-06-16 15:26发布暴雨黄色预警
- 全球观点:汽车刮擦怎么处理流程_汽车刮擦怎么处理
- 糖尿病人能吃猕猴桃吗_糖尿病猕猴桃能吃不? 环球要闻
- 广州农商银行(01551)将于7月20日派发末期股息每股0.11501港元
- 九九八十一诸葛亮洛小叶-九九八十一诸葛亮|世界微动态
- 炉山镇_关于炉山镇介绍
- 哈德元首举行会谈 两国将扩大油气、绿氢能源领域联系
- 金融服务“双碳” 邮储银行北京分行“绿行记”-天天热文
- 确定了!新能源汽车购置税优惠延续…-环球讯息
- 卓胜微(300782):6月20日北向资金减持31.77万股 全球微头条
- 《高山清渠》播出过半 李健用真实形象诠释黄大发的奋斗轨迹
- 现实题材电视剧《分界线》8月1日播出 何冰张国强强手过招
- 花篮的花儿香!民族歌剧《唱响南泥湾》在保利剧院迎来首演
- 韩国电信公布未来五年非基础设施投资预算拨出12万亿韩元
- 冰墩墩设计者给北京四中学生回信:祝福可爱奋进的中国少
- 江苏南通发现1人检测结果呈阳性 系外地返通人员
- 湖南郴州报告2例香港返湘人员新冠肺炎确诊病例
- 广西百色疫情社区传播链基本阻断
- 广西新增1例本土确诊病例 本轮本土疫情累计报告确诊病例
- 葫芦岛市两医院不再收治非绥中地区患者 就医患者闭环管理
- 苏州14日新增本土确诊1例,无症状感染者3例 详情及轨迹公布
- 2021年北京空气质量创历史最优 首次全面达标