在當下人工智能領域,大語言模型將為各行各業帶來顛覆性的效率革命和體驗升級,這已經成為了業界共識。借此,一場由ChatGPT引發的“百模大戰”早已轟轟烈烈地拉開序幕,縱觀整個科技圈,幾乎所有高科技公司都在打造自己的大語言模型,更有專家斷言,不出意外,將很快升級為“千模大戰”。
面對國內大語言模型萬箭齊發的局面,如何更好地提升大語言模型對中文的理解能力,更好地服務于全球的中文用戶,甲骨易AI研究院首創性地推出了高質量中文評測數據集——一款名為“超越”(MassiveMultitask Chinese Understanding,簡稱MMCU)的大規模的多任務測試數據集,填補了中文大語言模型能力測試缺失的一大空白。5月20日,一場以“大模型實際應用與場景化落地”為主題的研討沙龍暨“超越”MMCU測試數據集產品發布會在甲骨易第三空間拉開序幕。
本次沙龍由甲骨易AI研究院主辦,來自中科院、北京大學、北京外國語大學、哈薩克恩斯坦國立大學等學術界代表,中關村軟件園、小米、咪咕、快手、商湯、霖瓏云、博思眾智、智譜華章、中航出版傳媒等產業界代表以及多家科技媒體代表出席了本次沙龍活動,并針對大語言模型的數據量與評價標準等相關話題,暢所欲言,展開了熱烈的討論。
邁向認知智能演進的過程
在本次沙龍活動中,北京外國語大學人工智能與人類語言重點實驗室主任、多語自然語言處理研究中心主任李佐文進行了精彩的開場致辭。李佐文認為,語言智能包括對人類語言機理的研究以及對自然語言的技術處理研究兩大板塊,這兩個領域都應深入研究,并肩發展,機器方能有望像人一樣理解自然的語言,生成自然的語言。來自甲骨易的數據服務事業部負責人王敏在致辭中提及,甲骨易創始之初正是為了搭建人與人之間的溝通交流,跨越語言跨越文化之間的障礙,而當下正是要搭建人與機器,甚至是機器與機器之間的溝通橋梁——這也正是甲骨易AI研究院成立的初心。
圖1:北京外國語大學人工智能與人類語言重點實驗室主任 李佐文致辭
圖2:甲骨易數據服務事業部負責人 王敏致辭
眾所周知,人工智能技術在飛速演進。沙龍上,來自小米公司的大模型數據負責人彭力進行了以《小米遇上大模型》為主題的精彩演講,他介紹了業界中定義的人工智能產業發展演變的四個層面:第一層叫運算智能層(早已實現),第二層叫感知智能層(目前已在多領域接近人類水平),第三層是認知智能(尚在推進中),第四層才是通用智能層(尚有距離)。其中,第三層的認知智能指的是在感知智能的基礎上進一步的理解、思考和解釋。他指出,我們正在向通用人工智能演進,而大語言模型則可以加速人工智能演進的進程與當前面臨的技術難點,并展示了小米在大語言模型領域的最新進展。
圖3:小米大模型數據負責人 彭力發言
實際上,ChatGPT最早主要是針對文本語料進行大規模的學習,后來數據參數達到了數千億量級,便有了大語言模型的說法。彭力表示,在訓練大語言模型的過程中,諸如廣告等噪聲數據,以及大量的同質化語料等因素都會影響訓練的效果,甚至還會面臨數據版權的風險。來自北京外國語大學的李佐文則在分享中直言,業界通過自然語言處理等辦法,竭盡全力想讓機器理解人類的語言,依舊是挑戰重重。
國產中文大語言模型體系亟待完善
我們需要看清這樣的現實,國內大語言模型和國際一流仍有差距,超越并非一朝一夕就可以實現。當下,國內廠商往往采取的是模仿與跟隨策略,盡管未來有望彎道超車,甚至后來者居上,但當下就有一些廠商宣稱將實現通用模型對標ChatGPT,中文大模型能夠超越ChatGPT的當前版本,與之旗鼓相當,并在多領域做到業界領先,無疑這樣的說辭,也只是停留在口號之上,尚未經過實踐驗證。
盡管對標ChatGPT等豪言壯語已響徹耳畔,但只憑借廠商只言片語的宣傳描述,以及對特定數據評測案例的展示,其數據樣本遠遠不足以及摻入了廠商的主觀意愿,導致現有數據資料不足以展現各大廠商之間大模型技術能力之間的差異性,也使得用戶很難真正了解各家技術能力的優勢所在。在這樣的背景之下,許多優秀的國產大模型被淹沒在這種噪聲當中,嚴重制約了國產大模型乃至人工智能產業的發展。因此,如何發現大模型的缺陷,以及如何更好地理解包括中文在內的人類語言文本?.....這一系列問題擺在了當下以ChatGLM、MOSS、文心一言、通義千問、商量、星火等眾多具備中文能力的大模型廠商面前。
鑒于國外率先開啟了大模型研究,針對英文大語言模型已經有較為完善的評測方式,如2021年由DanHendrycks等人發布的MMLU。然而針對中文大語言模型,卻仍處于空白。需要指出的是,國外的很多機構研究發現,數據量與分布對于訓練模型的配比方式非常重要,Commoncrawl這種大數據集語言分布是不均勻的,英文占了46%,中文只占了5%。這樣配比導致后續的大模型進行參照訓練時,會發現在中文語料缺失的情況下,中文的理解能力是欠缺的,國內研究機構和人工智能企業都在去增補這些中文語料來提升中文能力。
與此同時,對理解中文的大語言模型及時加以客觀公正的評價,使其“越”來越強大,也成為了當務之急。因此,甲骨易推出“超越”MMCU數據集恰逢其時,通過綜合評估模型在多個學科上的知識廣度和深度,能夠幫助研究者更精準地找出模型的缺陷,并對模型的能力進行打分。
“把大模型當成一個真正的人類”
在分享過程中,來自甲骨易AI研究院的首席研究員Felix坦言,要評價這些大語言模型的基礎能力,實際上是一個非常難以解決的問題。甲骨易憑借多年數據服務行業探索的技術優勢,率先推出的針對于中文預訓練大模型的大規模多任務評測數據集以及相應的評測方法,旨在衡量中文大模型在處理眾多任務上的準確度,主要覆蓋醫療、法律、心理學和教育四大領域,題目形式涵蓋單項選擇和多項的選擇題,共包含11900個問題。
圖4:甲骨易AI研究院 Felix發言
“我們是把大模型當作一個真正的人類來看待,”Felix如是說,測試集之所以涉及語、數、物理、化學這些科目,因為人工智能必須像人類一樣,具備對于世界的基礎的認知;而醫療、法律、心理學專業領域則是將大模型視為專業人士進行考核。通過對多領域知識廣度與深度的測試,甲骨易AI研究院可以幫助技術研發人員發現大語言模型在哪些領域有缺陷,或者說可能在其整體上都有缺陷。
沙龍上,中國科學院大學網絡數據重點實驗室的咸寧先生則針對MMCU測試集的使用情況進行分享,解釋了測試數據集的分析原理,對幾大模型的測試成果進行了展示與客觀分析,并指出了超越MMCU測試數據集當下尚存在一些亟待解決的問題。
圖5:中國科學院大學網絡數據重點實驗室咸寧發言
通過發布會召開前開展的大模型測試發現,在本應有明顯優勢的語文科目中,國產大模型的表現卻差強人意。Felix指出,現在很多模型評估還是處于人工評估階段,甲骨易推出“超越”MMCU數據集的初衷是希望實現對大模型進行大規模的評估。當下的評測結果可能存在隨機誤差,但未來還將持續優化評測方式并擴充評測領域。
攜手共建,未來可期
自ChatGPT的驚艷亮相,人類生活的方方面面已發生了巨變。大模型仍有許多難關亟待解決,借助超越MMCU評測數據集,一舉打破市面上所有的大語言模型只能基于英文數據集去進行測試的現狀,中文大語言模型將有望構建起一個完善的評測的體系,通過發現提升大語言的缺陷提升大語言模型對于中文的理解能力,更好地服務于全球的中文用戶。
圖6:大模型實際應用與場景化落地沙龍現場
“大模型的訓練以及大規模評估需要大量算力。”甲骨易AI研究院最后表示,愿與業界更多機構聯手,一道攜手推進大模型的發展,加速人工智能技術的產學研用進程。超越評測數據集的發布,只是起點,甲骨易還將大有可為。更多精彩,敬請期待甲骨易第三空間未來更多活動。
MMCU論文鏈接:https://arxiv.org/abs/2304.12986
感興趣的可以關注,期待這一工作能夠推動國內大模型發展。