青草国产精品,欧美91在线|欧美,国产91精品对白在线播放,免费观看不卡av

中國西藏網 > 即時新聞 > 國內

大模型發展亟需高質量“教材”相伴

發布時間:2024-01-15 14:39:00來源: 科技日報

  【AI世界】

  ◎本報記者 羅云鵬

  1月5日,美國人工智能公司OpenAI表示,正在與數十家出版商洽談達成文章授權協議,以獲取內容來訓練其人工智能模型。2023年12月27日,《紐約時報》起訴OpenAI和微軟公司,指控這兩家公司未經許可使用其數百萬篇文章訓練人工智能模型。而早在2023年3月,就有消息顯示谷歌Bard模型的部分訓練數據來源于ChatGPT。

  這些事件劍指同一個問題——大模型高質量語料短缺。“對于從頭開始訓練的模型,語料短缺會在非常大的程度上限制大模型發展。”近日,哈爾濱工業大學(深圳)計算機科學與技術學院教授邵睿在接受科技日報記者采訪時說:“增加語料對于提升大模型能力的邊際效益正在減弱,高質量語料的缺乏正日益成為限制大模型發展的瓶頸。”

  大模型訓練語料短缺問題嚴重

  科技部新一代人工智能發展研究中心2023年發布的《中國人工智能大模型地圖研究報告》顯示,從全球已發布的大模型數量來看,中國和美國大幅領先,占全球總數的80%以上。

  雖然大模型發展如火如荼,但大模型高質量語料短缺已成為全球共性問題。公開資料顯示,大模型對數據供給要求極高。比如,訓練GPT-4和Gemini Ultra大概需要4萬億至8萬億個單詞。麻省理工學院等高校研究人員預測,到2026年之前,機器學習數據集可能會耗盡所有可用的高質量語料數據。研究機構EpochAI亦公開表示,最早在2024年,人類就可能會陷入訓練數據荒,屆時全世界的高質量訓練數據都將面臨枯竭。OpenAI也公開表達過對數據告急的擔憂。

  值得注意的是,當前大模型數據集主要為英文。中文語料面臨的短缺問題更加嚴峻。

  中國工程院院士、鵬城實驗室主任高文曾公開表示,全球通用的50億大模型數據訓練集里,中文語料占比僅為1.3%。

  上海數據交易所市場發展部副總經理章健此前公開表示,當前大模型行業存在語料供應不足的問題,特別是在垂直細分領域,一些共享、免費下載的語料數量雖然大,質量卻不高。“我們在追求語料數量增長的同時,也要重視質量。”章健說。

  高質量語料應具備七大特征

  那么,何為高質量語料?記者采訪時,包括騰訊、商湯科技、哈爾濱工業大學(深圳)等企業和高校專業人士均給出一致答案:高質量語料應具備多樣性、大規模、合法性、真實性、連貫性、無偏見和無害等七大特征。

  邵睿表示,高質量語料應具有多樣性高、句式流暢的特點。騰訊機器學習平臺算法負責人康戰輝認為,語料的多樣性是保證語料質量的基礎,要通過不同的途徑采集新聞、小說、詩歌、科技文章等不同類型的語料。這有助于大模型學習到更豐富的語言表達。

  同時,高質量語料要具有較大規模,因為大模型需要大量語料來學習語言規律并提高泛化能力。只有擁有充足的語料,大模型才能更好地捕捉細微的語言特征。

  此外,高質量語料應是合法且無害的。不合法或有害的語料可能導致模型產生不恰當的回答或建議,或無意中泄露他人隱私。

  “高質量語料還應該具有真實性和連貫性,以便讓大模型更好地理解語境并生成符合邏輯的回答。”康戰輝說,語料庫應該充分反映語料的多樣性并避免偏見,這樣大模型在不同場景下回答不同用戶的問題時才能做到盡可能科學客觀。

  完善相關機制提高語料質量

  記者在采訪中了解到,目前訓練大模型的語料有一部分是從數據公司購買的,也有一部分是從網絡公開語料或者公開數據集中獲取并整理的。“從數據公司購買的語料質量較高,并且大多是垂域數據,但其數據量較少且價格較貴。”邵睿說,“網絡公開語料通用性較好,數據量大,但數據質量無法保證,數據格式難以統一。”

  “人類產生的有效信息,包括大量高價值信息可能不一定是互聯網數據,而是沉散在各行各業里的數據。”商湯科技發言人說,“怎樣更多匯聚數據,設計更多、更好的網絡結構,用更多的計算資源去支撐更大容量的高質量語料,產生更強的智能,是一個至關重要的問題。”這位發言人認為,要解決語料問題,不僅要靠增加語料總量,還需要提高語料質量,甚至要考慮完善數據交換機制,推動人工智能數據基礎設施化。

  正如這位發言人所說,目前業界正在采取一些措施,推動數據交換機制的建設。記者梳理發現,2023年7月,深圳數據交易所聯合近50家單位成立開放算料聯盟。該聯盟將圍繞高質量中文訓練數據和多模態訓練數據,協調數據要素、數據治理、訓練數據、數據標注、合成數據等相關標準制定,協助數據交易所增加與大模型相關的新品類和新專區。

  同樣是2023年7月,在2023世界人工智能大會現場,中國大模型語料數據聯盟成立。同年8月,上海人工智能實驗室宣布,聯合中國大模型語料數據聯盟成員單位共同開源發布“書生·萬卷”1.0多模態預訓練語料。這次開源的數據總量超過2TB,包含超5億個文本、2200萬個圖文交錯文檔、1000個影像視頻。

  除了建設更為完善的體制機制,數據清洗等技術手段也能在一定程度上解決高質量語料短缺難題。但要看到,這些技術手段有較高門檻。商湯科技發言人透露,該公司在數據清洗的過程中投入了上千塊GPU的算力。OpenAI在無數場合介紹過GPT-4訓練的經驗,但從未公開過數據清洗的經驗。(科技日報)

(責編:陳濛濛)

版權聲明:凡注明“來源:中國西藏網”或“中國西藏網文”的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須注明來源中國西藏網和署著作者名,否則將追究相關法律責任。

青草国产精品,欧美91在线|欧美,国产91精品对白在线播放,免费观看不卡av
色爱综合网欧美| 亚洲一区国产| 青青国产精品| 欧美日韩 国产精品| 91精品国产一区二区在线观看| 亚洲精品国产精品粉嫩| 亚洲精品看片| 日韩高清不卡一区二区| 欧美一区在线观看视频| 少妇高潮一区二区三区99| 日本不卡视频一二三区| 欧美在线看片| 精品久久视频| 久久久五月天| 亚洲欧美激情诱惑| 日韩精品成人在线观看| 欧美激情福利| 久久久国产亚洲精品| 亚洲欧美日韩在线观看a三区| 天堂久久av| 久久亚洲资源中文字| 成人在线丰满少妇av| 亚洲网站视频| 香蕉久久久久久| 国产精品久久| 亚洲最新无码中文字幕久久| 免费久久精品| 亚洲精品系列| 久久av国产紧身裤| 日韩在线中文| 午夜在线视频一区二区区别| 日本午夜精品| 成人午夜亚洲| 亚洲少妇诱惑| 欧美亚洲二区| 久久天堂av| 亚洲一区二区三区在线免费| 欧美国产专区| 亚洲女同一区| 欧美激情精品| 亚洲欧美日韩高清在线| 欧美三级第一页| 久久人人97超碰国产公开结果| 亚洲综合中文| 丁香六月综合| 亚洲不卡视频| 成人国产精品一区二区网站| 欧美另类专区| 国产精品一区二区三区www| 久久久成人网| 日韩成人在线看| se01亚洲视频| 欧美一区久久| 欧美午夜不卡| 麻豆精品视频在线| 老色鬼久久亚洲一区二区| 精品91福利视频| 中文字幕成人| 日韩在线高清| 欧美天堂一区| 99国产精品久久久久久久| 老司机精品视频在线播放| 久久亚洲影院| 日韩av有码| 日本不卡一二三区黄网| 色天使综合视频| 欧美亚洲三级| 欧美日韩四区| 精品国产一区二| 丝袜a∨在线一区二区三区不卡| 国产精品久久久亚洲一区| 国产亚洲毛片| 欧美日韩精品免费观看视欧美高清免费大片 | 亚洲欧美日韩国产综合精品二区 | 久久久久久美女精品| 国产日韩一区| 在线亚洲观看| 日韩av首页| 久久精品国产网站| 亚洲精品乱码日韩| 免费av一区| 裤袜国产欧美精品一区| 国产欧美三级| 亚洲精品第一| 红桃视频国产精品| 特黄特色欧美大片| 精品视频网站| 国产乱论精品| 亚洲精品一级| 免费日韩视频| 欧美成人精品| 91精品国产调教在线观看| 国产一区福利| 久久久久久久久成人| 欧美在线日韩| 午夜精品影视国产一区在线麻豆| 中文精品在线| 视频小说一区二区| 色爱综合网欧美| 麻豆极品一区二区三区| 国产亚洲观看| 青青伊人久久| 日本麻豆一区二区三区视频| 最新国产拍偷乱拍精品| 成人自拍av| 久久毛片亚洲| 精品黄色一级片| 国产精品欧美三级在线观看| 日韩高清三区| 亚洲精品在线二区| 久久都是精品| 蜜桃av一区二区三区电影| 久久xxxx| 亚洲色图国产| 四虎在线精品| 日韩高清不卡在线| 久久精品72免费观看| 欧美亚洲专区| 国产美女精品视频免费播放软件| 中文字幕成人| 日韩三级视频| 欧美日韩午夜| 免费亚洲一区| 国产99在线| 四虎884aa成人精品最新| 91看片一区| 免费av一区| 麻豆精品网站| 日韩在线观看中文字幕| 91福利精品在线观看| 国产精品美女在线观看直播| 欧美国产极品| 在线人成日本视频| 999久久久精品国产| 久久久久久久久久久9不雅视频| 亚洲v在线看| 亚洲男女自偷自拍| 日本综合精品一区| 国产精品美女在线观看直播| 精品国产一区二区三区噜噜噜| 福利一区和二区| 亚洲v在线看| 香蕉久久久久久久av网站| 午夜久久av| 欧美国产极品| 99tv成人| 久久国产88| 欧美日韩91| 精品欠久久久中文字幕加勒比| 久久精品国产精品亚洲毛片| 蜜桃精品在线| 国产精品日韩欧美一区| 亚洲人成网77777色在线播放| 久久国内精品视频| 欧美丰满日韩| 在线亚洲自拍| 欧美日韩一视频区二区| www.51av欧美视频| 欧美日韩国产一区精品一区| 一区二区三区国产盗摄| 国产精品啊v在线| 日本精品在线中文字幕| 国产精品美女| 国产精品亚洲欧美日韩一区在线 | 日韩欧乱色一区二区三区在线| 久久99青青| 亚洲香蕉网站| 日韩精品午夜视频| 欧美日韩视频网站| 美国欧美日韩国产在线播放| 毛片不卡一区二区| 伊人精品视频| 国产欧美啪啪| 久久国产成人午夜av影院宅| 亚洲区第一页| 久久久久久网| 日本亚州欧洲精品不卡| 成人午夜毛片| 亚洲免费中文| 老鸭窝一区二区久久精品| 国产国产精品| 免费看一区二区三区| 国产色综合网| 国产极品模特精品一二| 婷婷综合五月| 国产精品2区| 亚洲激情社区| 精品久久在线| 综合一区av| 欧美男人天堂| 日韩国产一区二| 日韩在线看片| 日韩va亚洲va欧美va久久| 天堂а√在线最新版中文在线| 亚洲欧洲av| 久久精品国产68国产精品亚洲| 国产精品主播在线观看| 99国产精品久久久久久久| 高清一区二区| 欧美久久一区二区三区|