青草国产精品,欧美91在线|欧美,国产91精品对白在线播放,免费观看不卡av

中國西藏網 > 即時新聞 > 時政

大模型發(fā)展亟需高質量“教材”相伴

發(fā)布時間:2024-01-19 10:29:00來源: 科技日報

  科技日報記者 羅云鵬

  1月5日,美國人工智能公司OpenAI表示,正在與數(shù)十家出版商洽談達成文章授權協(xié)議,以獲取內容來訓練其人工智能模型。2023年12月27日,《紐約時報》起訴OpenAI和微軟公司,指控這兩家公司未經許可使用其數(shù)百萬篇文章訓練人工智能模型。而早在2023年3月,就有消息顯示谷歌Bard模型的部分訓練數(shù)據來源于ChatGPT。

  這些事件劍指同一個問題——大模型高質量語料短缺。“對于從頭開始訓練的模型,語料短缺會在非常大的程度上限制大模型發(fā)展。”近日,哈爾濱工業(yè)大學(深圳)計算機科學與技術學院教授邵睿在接受科技日報記者采訪時說:“增加語料對于提升大模型能力的邊際效益正在減弱,高質量語料的缺乏正日益成為限制大模型發(fā)展的瓶頸。”

  大模型訓練語料短缺問題嚴重

  科技部新一代人工智能發(fā)展研究中心2023年發(fā)布的《中國人工智能大模型地圖研究報告》顯示,從全球已發(fā)布的大模型數(shù)量來看,中國和美國大幅領先,占全球總數(shù)的80%以上。

  雖然大模型發(fā)展如火如荼,但大模型高質量語料短缺已成為全球共性問題。公開資料顯示,大模型對數(shù)據供給要求極高。比如,訓練GPT-4和Gemini Ultra大概需要4萬億至8萬億個單詞。麻省理工學院等高校研究人員預測,到2026年之前,機器學習數(shù)據集可能會耗盡所有可用的高質量語料數(shù)據。研究機構EpochAI亦公開表示,最早在2024年,人類就可能會陷入訓練數(shù)據荒,屆時全世界的高質量訓練數(shù)據都將面臨枯竭。OpenAI也公開表達過對數(shù)據告急的擔憂。

  值得注意的是,當前大模型數(shù)據集主要為英文。中文語料面臨的短缺問題更加嚴峻。

  中國工程院院士、鵬城實驗室主任高文曾公開表示,全球通用的50億大模型數(shù)據訓練集里,中文語料占比僅為1.3%。

  上海數(shù)據交易所市場發(fā)展部副總經理章健此前公開表示,當前大模型行業(yè)存在語料供應不足的問題,特別是在垂直細分領域,一些共享、免費下載的語料數(shù)量雖然大,質量卻不高。“我們在追求語料數(shù)量增長的同時,也要重視質量。”章健說。

  高質量語料應具備七大特征

  那么,何為高質量語料?記者采訪時,包括騰訊、商湯科技、哈爾濱工業(yè)大學(深圳)等企業(yè)和高校專業(yè)人士均給出一致答案:高質量語料應具備多樣性、大規(guī)模、合法性、真實性、連貫性、無偏見和無害等七大特征。

  邵睿表示,高質量語料應具有多樣性高、句式流暢的特點。騰訊機器學習平臺算法負責人康戰(zhàn)輝認為,語料的多樣性是保證語料質量的基礎,要通過不同的途徑采集新聞、小說、詩歌、科技文章等不同類型的語料。這有助于大模型學習到更豐富的語言表達。

  同時,高質量語料要具有較大規(guī)模,因為大模型需要大量語料來學習語言規(guī)律并提高泛化能力。只有擁有充足的語料,大模型才能更好地捕捉細微的語言特征。

  此外,高質量語料應是合法且無害的。不合法或有害的語料可能導致模型產生不恰當?shù)幕卮鸹蚪ㄗh,或無意中泄露他人隱私。

  “高質量語料還應該具有真實性和連貫性,以便讓大模型更好地理解語境并生成符合邏輯的回答。”康戰(zhàn)輝說,語料庫應該充分反映語料的多樣性并避免偏見,這樣大模型在不同場景下回答不同用戶的問題時才能做到盡可能科學客觀。

  完善相關機制提高語料質量

  記者在采訪中了解到,目前訓練大模型的語料有一部分是從數(shù)據公司購買的,也有一部分是從網絡公開語料或者公開數(shù)據集中獲取并整理的。“從數(shù)據公司購買的語料質量較高,并且大多是垂域數(shù)據,但其數(shù)據量較少且價格較貴。”邵睿說,“網絡公開語料通用性較好,數(shù)據量大,但數(shù)據質量無法保證,數(shù)據格式難以統(tǒng)一。”

  “人類產生的有效信息,包括大量高價值信息可能不一定是互聯(lián)網數(shù)據,而是沉散在各行各業(yè)里的數(shù)據。”商湯科技發(fā)言人說,“怎樣更多匯聚數(shù)據,設計更多、更好的網絡結構,用更多的計算資源去支撐更大容量的高質量語料,產生更強的智能,是一個至關重要的問題。”這位發(fā)言人認為,要解決語料問題,不僅要靠增加語料總量,還需要提高語料質量,甚至要考慮完善數(shù)據交換機制,推動人工智能數(shù)據基礎設施化。

  正如這位發(fā)言人所說,目前業(yè)界正在采取一些措施,推動數(shù)據交換機制的建設。記者梳理發(fā)現(xiàn),2023年7月,深圳數(shù)據交易所聯(lián)合近50家單位成立開放算料聯(lián)盟。該聯(lián)盟將圍繞高質量中文訓練數(shù)據和多模態(tài)訓練數(shù)據,協(xié)調數(shù)據要素、數(shù)據治理、訓練數(shù)據、數(shù)據標注、合成數(shù)據等相關標準制定,協(xié)助數(shù)據交易所增加與大模型相關的新品類和新專區(qū)。

  同樣是2023年7月,在2023世界人工智能大會現(xiàn)場,中國大模型語料數(shù)據聯(lián)盟成立。同年8月,上海人工智能實驗室宣布,聯(lián)合中國大模型語料數(shù)據聯(lián)盟成員單位共同開源發(fā)布“書生·萬卷”1.0多模態(tài)預訓練語料。這次開源的數(shù)據總量超過2TB,包含超5億個文本、2200萬個圖文交錯文檔、1000個影像視頻。

  除了建設更為完善的體制機制,數(shù)據清洗等技術手段也能在一定程度上解決高質量語料短缺難題。但要看到,這些技術手段有較高門檻。商湯科技發(fā)言人透露,該公司在數(shù)據清洗的過程中投入了上千塊GPU的算力。OpenAI在無數(shù)場合介紹過GPT-4訓練的經驗,但從未公開過數(shù)據清洗的經驗。

(責編:李雨潼)

版權聲明:凡注明“來源:中國西藏網”或“中國西藏網文”的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須注明來源中國西藏網和署著作者名,否則將追究相關法律責任。

青草国产精品,欧美91在线|欧美,国产91精品对白在线播放,免费观看不卡av
日韩一区二区三区四区五区| 在线综合视频| 免费一区二区视频| 国产v日韩v欧美v| 久久精品一区| 日韩.com| 一区二区三区四区日本视频| 一区二区精品伦理...| 亚洲欧美久久久| 在线国产日韩| 91精品国产经典在线观看| 亚洲精品免费观看| 国产亚洲高清一区| 97精品国产福利一区二区三区| 欧美影院三区| 欧美另类专区| 日本在线成人| 麻豆精品在线播放| 婷婷国产精品| 97人人精品| 国产精品日本一区二区不卡视频| 精品国产美女a久久9999| 色88888久久久久久影院| 亚洲丝袜啪啪| 国产一区二区三区日韩精品| 蜜臀精品一区二区三区在线观看| 欧美亚洲综合视频| 91一区二区三区四区| 中文字幕日韩欧美精品高清在线| 国产精品原创| 狠狠爱成人网| 亚洲国产成人精品女人| 久久久一本精品| 亚洲男人在线| 久久视频国产| 欧美精品影院| 午夜国产一区二区| 国产精品午夜av| 久久免费国产| 黑丝美女一区二区| 久久中文在线| 亚洲精品免费观看| 久久精品影视| 国内不卡的一区二区三区中文字幕| 麻豆成人在线观看| 国产在线看片免费视频在线观看| 日本一区中文字幕| 综合日韩av| 久久精品国产在热久久| 亚洲一区二区三区高清不卡| 精品一区二区三区中文字幕| 国产精品夜夜夜| 电影天堂国产精品| 高清久久精品| 久久天堂影院| 国产中文字幕一区二区三区| 亚洲视频国产| 国语精品一区| 久久要要av| 国产精品毛片视频| 午夜精品网站| 国产精品毛片在线看| 久久亚洲国产| 在线成人动漫av| 91亚洲国产高清| 国产精品mm| 久久男女视频| 国产一区日韩一区| 水蜜桃久久夜色精品一区的特点| 日韩精品一级二级| 伊人成人在线视频| 精品午夜av| 国产精品久久久久久久久久10秀| 国产精品tv| 久久av综合| 久久av综合| 日韩成人a**站| 成人日韩在线| 欧美日韩第一| 99国产精品久久久久久久| 日韩在线黄色| 亚洲欧洲日韩精品在线| 日韩动漫一区| 成午夜精品一区二区三区软件| 不卡福利视频| 日韩中文字幕麻豆| 日韩国产欧美在线视频| 国产精品久久久久77777丨| 日韩精品水蜜桃| 久久av在线| 青青伊人久久| 日韩高清不卡| 久久成人精品| 日韩在线播放一区二区| 欧美经典一区| 久久国产亚洲| 精品国产亚洲日本| 美国三级日本三级久久99| 国内精品伊人| 激情五月综合| 久久激五月天综合精品| 日韩黄色免费网站| 日韩专区欧美专区| 91久久亚洲| 国产亚洲一区| 精品国产午夜肉伦伦影院 | 精品视频在线你懂得| 久久影视三级福利片| 日韩av在线播放网址| 亚洲一区二区日韩| 日本在线成人| 日韩精品一区第一页| 成人羞羞在线观看网站| 中文字幕一区二区精品区| 久久超级碰碰| 国产精品成人国产| 首页国产欧美久久| 日韩专区精品| 久久免费大视频| 成人午夜在线| 午夜亚洲福利| 国产在线|日韩| 国产精品jk白丝蜜臀av小说| 麻豆91精品| 91成人在线| 国产精品白丝一区二区三区| 午夜久久av| 在线亚洲成人| 国产不卡人人| 国产日本精品| 亚洲欧美网站在线观看| 欧美色图一区| 欧美日韩亚洲一区二区三区在线| 综合亚洲色图| 久久99久久久精品欧美| 久久精品国内一区二区三区| 国产精品久久久免费| 日韩av一级片| 日本午夜精品久久久久| 在线精品小视频| 91精品韩国| 中文字幕在线视频网站| 精品日韩一区| 久久亚洲国产精品一区二区| 精品在线播放| 美美哒免费高清在线观看视频一区二区| 久久国产成人午夜av影院宅| 国产综合精品| 国产不卡精品| 亚洲成av在线| 亚洲精品乱码久久久久久蜜桃麻豆| 综合色一区二区| 婷婷视频一区二区三区| 亚洲国产影院| 国产调教一区二区三区| 国产成人黄色| 蜜桃视频一区二区三区在线观看| 国产二区精品| 日韩中文字幕1| 欧美亚洲色图校园春色| 国产一区白浆| 玖玖精品视频| 麻豆成人在线观看| 久久精品三级| 91精品福利| 欧美一区精品| 99精品在线观看| 亚洲美洲欧洲综合国产一区| 亚洲欧美不卡| 国产精品videossex| 中文视频一区| 亚洲综合婷婷| 欧美日韩1区| 国产精品美女在线观看直播| 日韩欧美精品综合| 黄色在线一区| 久久99精品久久久久久园产越南| 神马日本精品| 女同性一区二区三区人了人一| 麻豆亚洲精品| 国产精品嫩模av在线| 午夜亚洲福利在线老司机| 免费成人网www| 伊人成人在线视频| 亚洲国产成人二区| 日本亚洲欧美天堂免费| 日韩中文影院| 久久99精品久久久野外观看| 国产高清久久| 国产一区二区精品久| 国产精品视区| 国产一区二区三区成人欧美日韩在线观看| 黄色日韩在线| 免费成人在线影院| 国产精品亲子伦av一区二区三区| 中文在线资源| 日韩高清在线不卡| 日韩专区视频网站| 蜜臀av一区二区在线免费观看| 久久xxxx|