熟女久久中文,黄91久久久人妻,日本黄五区,青青久久久,色999日韩,欧美熟女草逼,99国内精品久久,色天使亚洲,人妻丰满精品一区二

正在閱讀:“千模大戰(zhàn)”下,訊飛星火被評為中國“最聰明”的大模型

“千模大戰(zhàn)”下,訊飛星火被評為中國“最聰明”的大模型

2023-08-18 14:19:28來源:科大訊飛 關鍵詞:大模型人工智能閱讀量:25024

導讀:《麻省理工科技評論》中國從研發(fā)和商業(yè)化能力、外界態(tài)度以及發(fā)展趨勢等維度全方位檢測大模型的能力,力圖評出“最聰明”的國產(chǎn)大模型。選取了“訊飛星火”、“百度文心一言”、“商湯商量”、“阿里通義千問”作為中文大模型平臺的代表,展開系統(tǒng)、科學的評測。
  國內(nèi)“千模大戰(zhàn)”下,誰是最聰明的大模型?《麻省理工科技評論》中國最新發(fā)布的大模型評測報告給出了答案。
 
  報告顯示,在8個一級大類的600道題目的測試和盲評中,訊飛星火認知大模型V2.0在6個大類中得分率排名第一,在此次評測中表現(xiàn)突出,以 81.5 分(百分制計)的成績在本次評測中登頂,榮獲“最聰明”的國產(chǎn)大模型稱號。
 
圖:大模型評測綜合得分率
 
圖:4個大模型各項能力雷達圖
 
  《麻省理工科技評論》中國從研發(fā)和商業(yè)化能力、外界態(tài)度以及發(fā)展趨勢等維度全方位檢測大模型的能力,力圖評出“最聰明”的國產(chǎn)大模型。選取了“訊飛星火”、“百度文心一言”、“商湯商量”、“阿里通義千問”作為中文大模型平臺的代表,展開系統(tǒng)、科學的評測。
 
  本次評測使用的測試集包含600道題目,覆蓋了語言專項、數(shù)學專項、理科綜合、文科綜合、邏輯思維、編程能力、綜合知識、安全性共 8 個一級大類,126 個二級分類,290 個三級標簽,并針對問題的豐富性和多樣性做了優(yōu)化。
 
  在題目類型上,為了兼顧定量、定性的評價與測試,設置了“單選”、“多選”、“填空”、“簡答”4個題型,分別有 145 道、138 道、136 道和 181 道。大模型評測體系使用盲評方式,客觀評估國產(chǎn)大模型的聰明程度。
 
  作為“最聰明”的大模型的基礎能力,語言專項評測包含對話理解、多語種、諷刺、古詩詞理解、文本生成、要點總結(jié)、情感分析、語義判斷等 61 個二級分類,題型則以簡答為主。結(jié)果顯示,訊飛星火 85.73%的得分率排名第一,明顯高于平均值。
 
圖:語言專項評測得分率
 
  數(shù)學專項評測,是“最聰明”大模型必不可少的評測維度。本次評測包含代數(shù)、幾何、解方程、復雜數(shù)學、統(tǒng)計學等 9 個二級分類,以選擇題為主。
 
  其中,訊飛星火以 77.75% 的得分率名列第一,遠高于平均得分率 56%,其他平臺得分率基本相當。報告稱,在大模型普遍“數(shù)學不好”的情況下,訊飛星火這一成績頗為難得,其在數(shù)學專項上的領先同樣體現(xiàn)在二級分類的評分結(jié)果上,在 77.8%的二級分類中得分率第一,遠超其他平臺,初步判斷其擅長幾何與情景應用。
 
圖:數(shù)學專項評測得分率
 
  作為體現(xiàn)大模型“聰明程度”不可或缺的“硬核”部分,理科綜合評測包含表格問答、化學、生物、物理、醫(yī)學 5 個二級分類,題型上以單選和簡答為主。
 
  評測結(jié)果中,訊飛星火 78.50% 的得分率排名第一。另外,訊飛星火在理科綜合大類下 80% 的二級分類評測中得分率為第一,化學與生物較為突出。
 
圖:理科綜合評測得分率
 
  邏輯思維也是“最聰明”大模型的重要體現(xiàn),本次邏輯思維評測在邏輯推理、思維鏈等方面設計了較多的題目,包含類比、常識推理、空間方位、演繹推理、邏輯謬誤檢測、因果推理等 19 個二級分類,題型上相對平均,其中填空題最多,多選題最少。
 
  在邏輯思維題目中,訊飛星火 81.25%的得分率名列第一,明顯高于 72.6% 的平均值。此外,訊飛星火在邏輯思維 63.2% 的二級分類問題上得分率第一。邏輯思維對于大模型真正理解物理世界相當重要。
 
圖:邏輯思維評測得分率
 
  編程能力是大模型比較高階的能力,本次的編程能力評測包含 ASCII、ASCII碼識別、Python、代碼、代碼修正、計算機 6 個二級分類,其中 Python 主要以簡答形式評估大模型的代碼生成能力和正確率,其他則以客觀題的形式考察。
 
  結(jié)果顯示,訊飛星火 80% 的得分率明顯高于 71%的平均值,其他平臺得分率基本相當。值得一提的是,在許多人關心的生成代碼的簡答題單項上,訊飛星火的得分率高達 82%,遠高于其他平臺,表現(xiàn)頗為亮眼。
 
圖:編程能力評測綜合得分率
 
  作為比較難的評測維度,綜合知識對大模型的“聰明”程度要求也很高,涉及的題目較雜,包含百科問答、常識、科學知識、事實問答、工作技巧、謎語等 13 個二級分類,題型以多選為主。
 
  在綜合知識評測上,訊飛星火 80.61% 的得分率排名第一,在 84.6% 的二級分類上得分率第一,初步顯示出在百科問答和歷史人文上的“過人之處”。
 
圖:綜合知識評測得分率
 
  報告指出,在本輪大模型評測中,訊飛星火以 81.5 分的成績拔得頭籌,成為“最聰明”的國產(chǎn)大模型。
 
  訊飛星火在編程能力、理科綜合、邏輯思維、數(shù)學專項、語言專項和綜合知識這 6 個一級大類中得分率排名第一,在此次評測中表現(xiàn)十分全面,尤其是在代碼生成、數(shù)學能力、理科與邏輯等方面優(yōu)勢明顯,是本次“最聰明的理科生”。
 
  值得一提的是,從題型角度來看,主觀簡答題中訊飛星火憑借 83.98% 的得分率位居第一;而在客觀題上,訊飛星火以 75.7% 的得分率排名第一,在主客觀體型中均有良好表現(xiàn)。
 
  此外,就在8月12日,新華社研究院中國企業(yè)發(fā)展研究中心發(fā)布的《人工智能大模型體驗報告2.0》中,訊飛星火V1.5以總分1013分位列本次國產(chǎn)主流大模型測評榜首位,在四大評測維度中的智商指數(shù)和工具提效指數(shù)兩個維度獲得第一,《報告》認為訊飛星火“在工作提效方面優(yōu)勢明顯”。
 
  在剛剛過去的8月15日,訊飛星火認知大模型V2.0如期發(fā)布,進一步突破代碼能力和多模態(tài)能力。技術獲得重大突破的同時,搭載訊飛星火V2.0核心能力的應用和產(chǎn)品也越來越豐富:既有輔助程序員高效工作的智能編碼助手iFlyCode1.0、能夠進行視頻創(chuàng)作的訊飛智作2.0、能夠便捷搭建輕應用的教育數(shù)字基座應用開發(fā)助手,還有幫助教師設計教學活動、一鍵生成課件的星火教師助手、面向英語學習者口語練習的星火語伴2.0,訊飛AI學習機也升級AI 1對1智能編程助手和AI 1對1創(chuàng)意繪畫伙伴。此外,科大訊飛還和華為聯(lián)合發(fā)布星火一體機,讓每一家企業(yè)都有機會構(gòu)建專屬大模型。
我要評論
文明上網(wǎng),理性發(fā)言。(您還可以輸入200個字符)

所有評論僅代表網(wǎng)友意見,與本站立場無關。

版權(quán)與免責聲明:

凡本站注明“來源:智能制造網(wǎng)”的所有作品,均為浙江興旺寶明通網(wǎng)絡有限公司-智能制造網(wǎng)合法擁有版權(quán)或有權(quán)使用的作品,未經(jīng)本站授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的,應在授權(quán)范圍內(nèi)使用,并注明“來源:智能制造網(wǎng)”。違反上述聲明者,本站將追究其相關法律責任。

本站轉(zhuǎn)載并注明自其它來源(非智能制造網(wǎng))的作品,目的在于傳遞更多信息,并不代表本站贊同其觀點或和對其真實性負責,不承擔此類作品侵權(quán)行為的直接責任及連帶責任。如其他媒體、平臺或個人從本站轉(zhuǎn)載時,必須保留本站注明的作品第一來源,并自負版權(quán)等法律責任。如擅自篡改為“稿件來源:智能制造網(wǎng)”,本站將依法追究責任。

鑒于本站稿件來源廣泛、數(shù)量較多,如涉及作品內(nèi)容、版權(quán)等問題,請與本站聯(lián)系并提供相關證明材料:聯(lián)系電話:0571-89719789;郵箱:1271141964@qq.com。

不想錯過行業(yè)資訊?

訂閱 智能制造網(wǎng)APP

一鍵篩選來訂閱

信息更豐富

推薦產(chǎn)品/PRODUCT 更多
智造商城:

PLC工控機嵌入式系統(tǒng)工業(yè)以太網(wǎng)工業(yè)軟件金屬加工機械包裝機械工程機械倉儲物流環(huán)保設備化工設備分析儀器工業(yè)機器人3D打印設備生物識別傳感器電機電線電纜輸配電設備電子元器件更多

我要投稿
  • 投稿請發(fā)送郵件至:(郵件標題請備注“投稿”)1271141964.qq.com
  • 聯(lián)系電話0571-89719789
工業(yè)4.0時代智能制造領域“互聯(lián)網(wǎng)+”服務平臺
智能制造網(wǎng)APP

功能豐富 實時交流

智能制造網(wǎng)小程序

訂閱獲取更多服務

微信公眾號

關注我們

抖音

智能制造網(wǎng)

抖音號:gkzhan

打開抖音 搜索頁掃一掃

視頻號

智能制造網(wǎng)

公眾號:智能制造網(wǎng)

打開微信掃碼關注視頻號

快手

智能制造網(wǎng)

快手ID:gkzhan2006

打開快手 掃一掃關注
意見反饋
我要投稿
我知道了
兰西县| 和田县| 新蔡县| 富平县| 鲁甸县| 凤冈县| 恩平市| 吉水县| 大宁县| 吉木乃县| 互助| 昭平县| 武隆县| 梅河口市| 南陵县| 济宁市| 光泽县| 两当县| 浪卡子县| 读书| 佛山市| 芜湖市| 特克斯县| 马鞍山市| 广西| 玉门市| 霍邱县| 桂林市| 赞皇县| 平舆县| 象州县| 东台市| 荆州市| 岑溪市| 岫岩| 滦平县| 枞阳县| 剑川县| 泽州县| 泰来县| 临汾市|