【中國版ChatGPT】復旦大學推MOSS 點解英文叻過中文？

社會熱點

發布時間： 2023/02/21 14:48

最後更新： 2023/02/21 15:15

ChatGPT熱潮席捲全球，不同國家的不同科研機構就聊天機器人展開競賽，復旦大學教授邱錫鵬團隊周一（20日）晚發佈中國首個類ChatGPT人工智能模型，命名為MOSS，與電影《流浪地球》太空站上的人工智能一樣。MOSS上線後測試反應非常熱烈，平台服務器流量一度過載。測試者還發現，MOSS的英語水平似乎比中文好，就此，復旦大學團隊給出了解釋。

▼點擊圖片放大

MOSS可執行對話生成、編程、事實問答等一系列任務，打通了讓生成式語言模型理解人類意圖並具有對話能力的全部技術路徑。邱錫鵬表示，儘管MOSS還有很大改善空間，但它的問世證明了在開發類ChatGPT產品的路上，中國國科研團隊有能力克服技術上的重要挑戰。

MOSS開發的基本步驟與ChatGPT一樣，包括自然語言模型的基座訓練、理解人類意圖的對話能力訓練兩個階段。

在對話能力訓練階段，ChatGPT開發方OpenAI收集了至少幾十萬條人類指令，讓各行各業的專業標注員寫出指令回覆，再將它們輸入模型基座，以幫助系統逐步理解各種指令。復旦團隊則採用不同的技術路線，通過讓MOSS和人類以及其他對話模型都進行交互，顯著提升學習效率和研發效率，短時間內就高效完成了對話能力訓練。

但邱錫鵬坦言：「MOSS與ChatGPT的差距主要在自然語言模型基座預訓練這個階段。MOSS的參數量比ChatGPT小一個數量級，在任務完成度和知識儲備量上，還有很大提升空間。」

與此同時，據內地傳媒報道，MOSS內測展開至今，測試者一個顯著的反饋是，MOSS的英文回答水平比中文高，這在公眾與ChatGPT的互動中也有類似體現。

MOSS研究團隊承認，MOSS的英文回答水平比中文高，因為它的模型基座學習了3000多億個英文單詞，中文詞語只學了約300億個。

澎湃新聞引述粵港澳大灣區數字經濟研究院（IDEA）認知計算與自然語言中心文本生成算法團隊負責人王昊稱，相較於英文數據，中文數據的開源程度較低，導致中文數據集的規模相對較小。此外，英文作為科研主流語言，在學術界和工業界中得到廣泛應用，積累了大量高質量的語料數據，這為英文自然語言處理的研究提供了極大的優勢。

王昊認為，對於中文來說，高質量無監督語料和指令數據尤其嚴重不足。因此，中文自然語言處理領域需要更多的投入和努力來積累高質量的數據，並將其開源，以促進中文自然語言處理的發展。

網傳杭州3月1日取消限行謠言源頭是ChatGPT

時入上萬元！內地ChatGPT代註冊爆火

內地官媒談ChatGPT：概念雖好不要瞎炒

責任編輯：連兆鋒

開啟hket App，閱讀全文

人工智能科技產品中國