青草国产精品,欧美91在线|欧美,国产91精品对白在线播放,免费观看不卡av

中國西藏網 > 即時新聞 > 國內

解決AI“高分低能”需要升級的是考核機制

發(fā)布時間:2022-06-14 11:23:00來源: 科技日報

  解決AI“高分低能”需要升級的是考核機制

  目前部分人工智能沉迷刷榜,在基準測試時高分通過,表現(xiàn)優(yōu)異,但實際應用中卻還會犯一些非常基礎的錯誤。

  ◎本報記者 華 凌

  近日,有媒體報道,目前部分人工智能沉迷刷榜,在基準測試時高分通過,表現(xiàn)優(yōu)異,但實際應用中卻還會犯一些非?;A的錯誤。這種沉迷刷榜,忽略實用性質的行為造成了部分AI模型“高分低能”的現(xiàn)象。那么,對于AI發(fā)展而言,基準測試是否必要?在實際應用中,基準測試哪些問題有待改進完善呢?

  AI模型哪家好,基準測試來說話

  AI模型應該如何衡量其性能?

  “目前AI模型能力的高低取決于數(shù)據(jù),因為AI的本質是學習數(shù)據(jù),輸出算法模型。為了公平衡量AI能力,很多機構、企業(yè)甚至科學家會收集、設計不同的數(shù)據(jù)集,其中一部分喂給AI訓練,得到AI模型,另外一部分數(shù)據(jù)用于考核AI模型的能力,這就是基準測試?!苯?,西安電子科技大學電子工程學院教授吳家驥接受科技日報記者采訪時表示。

  吳家驥介紹說,機器學習越來越多地用于各種實際應用場景,例如圖像和語音識別、自動駕駛汽車、醫(yī)學診斷等。因此,了解其在實踐中的行為和性能變得非常重要。其魯棒性和不確定性的高質量估計對于許多功能至關重要,尤其是在深度學習領域。為掌握模型的行為,研究人員要根據(jù)目標任務的基線來衡量其性能。

  2010年,基于ImageNet數(shù)據(jù)集的計算機視覺競賽的推出,激發(fā)了深度學習領域一場算法與數(shù)據(jù)的革命。從此,基準測試成為衡量AI模型性能的一個重要手段。微軟公司的計算機科學家馬塞洛·里貝羅表示,基準測試應該是從業(yè)者工具箱中的一個工具,人們用基準來代替對于模型的理解,通過基準數(shù)據(jù)集來測試“模型的行為”。

  例如,在自然語言處理領域,GLUE科研人員讓AI模型在包含上千個句子的數(shù)據(jù)集上訓練,并在9個任務上進行測試,來判斷一個句子是否符合語法,并分析情感,或者判斷兩個句子之間是否是邏輯蘊涵等,一度難倒了AI模型。隨后,科研人員提高了基準測試難度,一些任務要求AI模型不僅能夠處理句子,還要處理來自維基百科或新聞網站的段落后回答閱讀理解問題。僅經過1年的發(fā)展,AI模型的性能從不到70分輕松達到90分,超越了人類。

  吳家驥表示:“科學研究要有科學問題、方法、計算、試驗對比等要素。因此在進行科學研究,包括人工智能的科研中,也必須有計算與試驗對比,也就是說AI算法的能力應該是可測量的,目的是驗證研究方法的可行性、有效性。因此,基準測試很有必要,這樣才可以公平驗證AI算法能力的高低好壞,避免各說各話,‘王婆賣瓜自賣自夸’。”

  算法最終服務實踐,而非刷榜

  有人說,高分是AI模型的興奮劑。于是,有的人工智能為了取得好成績而頻頻刷榜。

  微軟公司2020年發(fā)布報告指出,包括微軟、谷歌和亞馬遜在內的各種sota模型包含諸多隱含錯誤,比如把句子里的“what's”改成“what is”,模型的輸出結果就會截然不同,而在此前,從沒有人意識到這些曾被評價還不錯的商業(yè)模型竟會在應用中如此糟糕。顯然,這樣訓練出的AI模型就像一個只會考試、成績優(yōu)異的學生,可以成功通過科學家設置的各種基準測試,卻不懂為什么。

  “為了獲得好成績,研究人員可能會使用特殊的軟硬件設置對模型進行調整和處理,讓AI在測試中表現(xiàn)出色,但這些性能在現(xiàn)實世界中卻無法施展?!蔽靼搽娮涌萍即髮W研究員尚坤指出。

  在智能手機領域,我們談及手機的使用體驗時一般都不免會涉及手機的性能表現(xiàn),這些性能通常會用跑分成績來表現(xiàn)。然而,我們常常會遇到一款手機的跑分成績處于排行榜領先水平,但是在實際使用過程中卻出現(xiàn)動畫掉幀、頁面滑動卡頓、應用假死等的現(xiàn)象。全球頂級評測網站AnandTech的一篇報道曾對這種現(xiàn)象提出質疑,指出某品牌手機跑分時啟動了“性能模式”,而在平時的使用中“性能模式”很少被調用開啟。這種處理方式雖然能夠獲得高跑分,但是不能模擬用戶真實的使用情景,這讓基準測試不具有參考意義。

  尚坤認為,針對上述問題,改進基準的方法主要有:一種是增加更多的數(shù)據(jù)集,讓基準變得更難。用沒有見過的數(shù)據(jù)測試,這樣才能判斷AI模型是否能夠避免過擬合。研究人員可創(chuàng)建一個動態(tài)數(shù)據(jù)收集和基準測試平臺,針對每個任務,通過眾包的方式,提交他們認為人工智能模型會錯誤分類的數(shù)據(jù),成功欺騙到模型的樣例被加入基準測試中。如果動態(tài)地收集數(shù)據(jù)增加標注,同時迭代式的訓練模型,而不是使用傳統(tǒng)的靜態(tài)方式,AI模型應該可以實現(xiàn)更實質性的進化。

  尚坤說,另一種是縮小實驗室內數(shù)據(jù)和現(xiàn)實場景之間的差距?;€測試無論分數(shù)多高,還是要用實際場景下的數(shù)據(jù)來檢驗,所以通過對數(shù)據(jù)集進行更貼近真實場景的增強和擴容使得基準測試更加接近真實場景。如ImageNet-C數(shù)據(jù)集,可根據(jù)16種不同的實際破壞程度對原有的數(shù)據(jù)集進行擴充,可以更好模擬實際數(shù)據(jù)處理場景。

  應用廣泛,需盡快建立國家標準

  美國麻省理工學院Cleanlab實驗室的研究指出,常用的10個作為基準的數(shù)據(jù)集中,有超過3%的標注是錯誤的,基于這些基準跑分的結果則無參考意義。

  “如果說,基準測試堪稱人工智能領域的‘科舉制’,那么,‘唯分數(shù)論’輸贏,是不可能訓練出真正的好模型。要打破此種現(xiàn)象,一方面需要采用更全面的評估方法,另一方面可以考慮把問題分而治之,比如用多個AI模型解決復雜問題,把復雜問題轉化為簡單確定的問題。簡單且經過優(yōu)化的基線模型往往優(yōu)于更復雜的方法。谷歌的研究人員為常見的AI任務引入了不確定性基線庫,來更好評估AI應用的穩(wěn)健性和處理復雜不確定性的能力。”遠望智庫人工智能事業(yè)部部長、圖靈機器人首席戰(zhàn)略官譚茗洲指出。

  雖然行業(yè)正在改變對于基準的態(tài)度,但目前基準測試研究仍然是一個小眾研究。谷歌在一份研究中采訪了工業(yè)界和學術界的53位AI從業(yè)者,其中許多人指出,改進數(shù)據(jù)集不如設計模型更有成就感。

  譚茗洲表示,AI應用基準研究是構建國內統(tǒng)一大市場的內在需要,當前AI已經在國計民生的各類領域中得到廣泛應用,更需要設立標準對AI模型進行全面有效的評估,片面追求和采用高分AI模型,可能會讓模型在復雜極端場景下出現(xiàn)“智障”行為,并且可能由于訓練和推理性能的低效,造成不良社會影響、經濟損失和環(huán)境破壞。

  譚茗洲強調,AI應用基準研究關乎國家戰(zhàn)略。針對重要領域,建立我國自己的AI基準測試標準、AI數(shù)據(jù)集、AI模型評估標準等迫在眉睫。

  據(jù)了解,西安電子科技大學的DvcLab也在AI基準測試這個領域進行了前瞻性研究,特別是針對AI應用基準測試中數(shù)據(jù)集的整體質量與動態(tài)擴展兩個關鍵問題,正在開發(fā)可在線協(xié)作的數(shù)據(jù)標注與AI模型研發(fā)托管項目,并計劃今年陸續(xù)開源,正在為構建國家AI基準評估標準體系進行積極探索。

(責編: 陳濛濛)

版權聲明:凡注明“來源:中國西藏網”或“中國西藏網文”的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須注明來源中國西藏網和署著作者名,否則將追究相關法律責任。

青草国产精品,欧美91在线|欧美,国产91精品对白在线播放,免费观看不卡av
欧美日韩亚洲三区| 尤物网精品视频| 久久成人一区| 久久九九电影| 在线一区视频观看| 午夜精品免费| 四虎精品一区二区免费| 久久精品72免费观看| 国产精品毛片视频| 国产一区日韩| 女人av一区| 日本aⅴ精品一区二区三区| 国产丝袜一区| 国产一区二区三区久久| 神马午夜在线视频| 亚洲啊v在线| 综合日韩av| 国产精品久久久久毛片大屁完整版| 亚洲精选91| 视频一区二区三区中文字幕| 亚洲专区在线| 日韩精品中文字幕一区二区| 日本不卡高清| 亚洲aa在线| 亚洲精品观看| 欧美成a人片免费观看久久五月天| 欧美黑人做爰爽爽爽| 国产不卡一区| 欧美+日本+国产+在线a∨观看| 美女亚洲一区| 久久都是精品| 日韩国产精品久久久久久亚洲| 日韩美女国产精品| 欧美激情视频一区二区三区免费 | 日本综合精品一区| 日本少妇精品亚洲第一区| 国产精品最新| 成人国产精品| 99成人在线视频| 蘑菇福利视频一区播放| 婷婷综合成人| 加勒比视频一区| 日本精品在线中文字幕| 最新国产拍偷乱拍精品| 亚洲综合图色| 美女毛片一区二区三区四区最新中文字幕亚洲 | 亚洲精品大片| 国产欧美二区| 国产一区二区三区天码| 国产精品原创| 91精品国产自产在线观看永久∴| 亚洲高清成人| 亚洲有吗中文字幕| 91成人精品在线| 高清一区二区| 久久夜色精品| 精品一区二区三区免费看| 久久精品官网| 日韩激情网站| 久久久久久久久99精品大| 蜜桃传媒麻豆第一区在线观看| 欧美日韩18| 久久久精品久久久久久96| 日日夜夜免费精品| 日韩啪啪电影网| 日韩精品免费视频一区二区三区| 久久99高清| 久久亚洲国产精品一区二区| 日韩av二区在线播放| 亚洲女同av| 日韩精品亚洲一区二区三区免费| 国产中文字幕一区二区三区| 中文字幕中文字幕精品| 日韩精品中文字幕第1页| 日韩精品视频一区二区三区| 99精品视频在线| 国产精品分类| 中文字幕一区日韩精品| 日韩不卡视频在线观看| 国产欧美日韩精品高清二区综合区| 欧美成人基地| 欧美激情麻豆| 亚洲精品四区| 日韩在线短视频| 国产午夜精品一区在线观看| 一区二区自拍| 国产拍在线视频| 国产精品毛片在线看| 免费一级欧美片在线观看网站 | 日韩精品三级| 最新亚洲激情| 亚洲v在线看| 国产一区二区三区不卡视频网站| 亚洲视频二区| 天堂中文av在线资源库| 青青国产精品| 日本大胆欧美人术艺术动态| 欧美成人精品三级网站| 久久精品国产成人一区二区三区| 日本成人在线视频网站| 久色成人在线| 在线手机中文字幕| 美日韩一区二区三区| 欧美~级网站不卡| 久久精品影视| 久久久亚洲欧洲日产| 欧美一区二区三区久久| 日本精品一区二区三区在线观看视频 | 欧美亚洲色图校园春色| 石原莉奈在线亚洲三区| 日韩视频不卡| 欧美日韩水蜜桃| 久久网站免费观看| 亚洲欧洲高清| 日韩一区二区三区免费播放| 高清在线一区| 国产精品福利在线观看播放| 久久精品国产久精国产爱| 国产精品调教| 三级久久三级久久久| 欧美中文字幕| 美女国产一区| 黄色日韩精品| 香蕉精品999视频一区二区| 精品1区2区3区4区| 好看的av在线不卡观看| 精品中文字幕一区二区三区av| 91精品国产福利在线观看麻豆| 精品三级久久| 欧美/亚洲一区| 亚洲综合日韩| 亚洲我射av| 欧美一级二区| 麻豆国产91在线播放| 超碰在线99| 久久精品欧美一区| 久久亚洲国产| 国产一区白浆| 亚洲久久一区| 奇米狠狠一区二区三区| 国产精品网址| 国产一区二区三区四区大秀| 国产精品蜜芽在线观看| 久久网站免费观看| 性欧美精品高清| 日韩免费精品| 精品国产a一区二区三区v免费| 成人污污视频| 欧美亚洲激情| 亚洲日产国产精品| 久久精品99国产精品日本| 久久不卡日韩美女| 欧美激情99| 四虎4545www国产精品| 亚洲天堂久久| 久久精品国产99久久| 蜜臀精品一区二区三区在线观看 | 高清日韩欧美| 欧美三级网址| 尹人成人综合网| 欧美亚洲一级| 色黄视频在线观看| 亚洲欧美日韩在线观看a三区| 亚洲精品在线二区| 国产一区二区三区不卡视频网站| www成人在线视频| 亚洲精品在线二区| 成人在线超碰| 在线国产日韩| 欧美国产美女| 一区二区高清| 国产人成精品一区二区三| 日本蜜桃在线观看视频| 欧美日韩一区二区综合| 在线日韩成人| 精品一区二区三区中文字幕| 国内自拍视频一区二区三区| 激情婷婷亚洲| 欧美亚洲综合视频| 日韩精品一区二区三区免费观看| 亚洲精品在线国产| 成人羞羞视频播放网站| 欧美有码在线| 成人av二区| 久久伊人亚洲| 日韩精品一卡二卡三卡四卡无卡| 麻豆精品久久| 亚洲精品自拍| 国产精品亚洲一区二区三区在线观看| 日韩在线成人| 91九色精品| 国产成人精品一区二区三区视频 | 日韩成人三级| 国产亚洲一区二区三区啪| 136国产福利精品导航网址| 欧美日一区二区在线观看| 九色精品91| 国产一区二区三区不卡av| 天堂va欧美ⅴa亚洲va一国产| 久久高清精品|