虎白女粉嫩在线中国女,日本日本乱码伦视频免费,成人网站色视频免费,中文字幕乱码人在线视频1区,特黄大片做受又粗又硬又大,天天做天天爱天天综合网电影,久久人妻中出按摩

用AI訓(xùn)練AI,可能越練越“傻”

2024-07-26 06:12 來源:新華網(wǎng)

  新華社北京7月25日電 對于人工智能(AI)大語言模型來說,通常給予的訓(xùn)練數(shù)據(jù)越多,模型就會越“聰明”。但英國《自然》雜志新發(fā)表的一項(xiàng)關(guān)于大模型的研究顯示,如果只用AI生成的數(shù)據(jù)來訓(xùn)練大模型,會使模型性能下降、越練越“傻”。

  英國牛津大學(xué)、劍橋大學(xué)等機(jī)構(gòu)研究人員發(fā)現(xiàn),如果在訓(xùn)練大模型時(shí),只用AI生成的內(nèi)容,會導(dǎo)致大模型出現(xiàn)不可逆的缺陷,逐漸忘記真實(shí)數(shù)據(jù)的分布,這被稱為“模型崩潰”。

  研究人員首先使用大語言模型創(chuàng)建類似維基百科詞條的文本,然后利用這個內(nèi)容來訓(xùn)練該模型的新版本,并反復(fù)使用前代模型生成的文本訓(xùn)練更新的版本。隨著AI生成的信息“污染”訓(xùn)練集,模型的輸出逐漸失去意義。在模型的第九次迭代中,它完成了一篇關(guān)于英國教堂塔樓的文章,其中一段文字卻在講述野兔尾巴的多種顏色。

  研究發(fā)現(xiàn),導(dǎo)致“模型崩潰”的重要原因是,由于模型只能從其訓(xùn)練數(shù)據(jù)中采樣,一些在第一代數(shù)據(jù)中本就低頻出現(xiàn)的詞匯,在每次迭代后出現(xiàn)的頻率變得更低,而一些常見詞匯出現(xiàn)的頻率則逐漸增加。

  這種變化的結(jié)果就是,模型逐漸無法正確模擬真實(shí)世界的復(fù)雜性。隨著時(shí)間推移,這種錯誤會在迭代中被層層累積、逐漸放大,最終導(dǎo)致“模型崩潰”。這有點(diǎn)像生物學(xué)中“近親繁殖”會導(dǎo)致后代缺陷,如果不能保證基因庫的多樣性,最終會導(dǎo)致一個物種的崩潰。

  研究人員還發(fā)現(xiàn),由于訓(xùn)練數(shù)據(jù)被“污染”而導(dǎo)致“模型崩潰”的情況不止發(fā)生在大語言模型中,高斯混合模型、圖片生成器等也可能出現(xiàn)類似情況。

  不過,應(yīng)對“模型崩潰”并非束手無策。研究人員發(fā)現(xiàn),如果能在模型微調(diào)過程中保留10%左右的真實(shí)數(shù)據(jù),崩潰就會發(fā)生得更緩慢。還可使用水印技術(shù),將AI生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)區(qū)分開來,這需要大型科技公司的協(xié)作。此外,在AI生成的文本重新進(jìn)入數(shù)據(jù)池之前,可由人類先篩選過濾。

查看余下全文
(責(zé)任編輯:歐云海)
記者專欄
當(dāng)前位置首頁 > 科技新聞 > 正文

用AI訓(xùn)練AI,可能越練越“傻”

2024-07-26 06:12 來源:新華網(wǎng)

  新華社北京7月25日電 對于人工智能(AI)大語言模型來說,通常給予的訓(xùn)練數(shù)據(jù)越多,模型就會越“聰明”。但英國《自然》雜志新發(fā)表的一項(xiàng)關(guān)于大模型的研究顯示,如果只用AI生成的數(shù)據(jù)來訓(xùn)練大模型,會使模型性能下降、越練越“傻”。

  英國牛津大學(xué)、劍橋大學(xué)等機(jī)構(gòu)研究人員發(fā)現(xiàn),如果在訓(xùn)練大模型時(shí),只用AI生成的內(nèi)容,會導(dǎo)致大模型出現(xiàn)不可逆的缺陷,逐漸忘記真實(shí)數(shù)據(jù)的分布,這被稱為“模型崩潰”。

  研究人員首先使用大語言模型創(chuàng)建類似維基百科詞條的文本,然后利用這個內(nèi)容來訓(xùn)練該模型的新版本,并反復(fù)使用前代模型生成的文本訓(xùn)練更新的版本。隨著AI生成的信息“污染”訓(xùn)練集,模型的輸出逐漸失去意義。在模型的第九次迭代中,它完成了一篇關(guān)于英國教堂塔樓的文章,其中一段文字卻在講述野兔尾巴的多種顏色。

  研究發(fā)現(xiàn),導(dǎo)致“模型崩潰”的重要原因是,由于模型只能從其訓(xùn)練數(shù)據(jù)中采樣,一些在第一代數(shù)據(jù)中本就低頻出現(xiàn)的詞匯,在每次迭代后出現(xiàn)的頻率變得更低,而一些常見詞匯出現(xiàn)的頻率則逐漸增加。

  這種變化的結(jié)果就是,模型逐漸無法正確模擬真實(shí)世界的復(fù)雜性。隨著時(shí)間推移,這種錯誤會在迭代中被層層累積、逐漸放大,最終導(dǎo)致“模型崩潰”。這有點(diǎn)像生物學(xué)中“近親繁殖”會導(dǎo)致后代缺陷,如果不能保證基因庫的多樣性,最終會導(dǎo)致一個物種的崩潰。

  研究人員還發(fā)現(xiàn),由于訓(xùn)練數(shù)據(jù)被“污染”而導(dǎo)致“模型崩潰”的情況不止發(fā)生在大語言模型中,高斯混合模型、圖片生成器等也可能出現(xiàn)類似情況。

  不過,應(yīng)對“模型崩潰”并非束手無策。研究人員發(fā)現(xiàn),如果能在模型微調(diào)過程中保留10%左右的真實(shí)數(shù)據(jù),崩潰就會發(fā)生得更緩慢。還可使用水印技術(shù),將AI生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)區(qū)分開來,這需要大型科技公司的協(xié)作。此外,在AI生成的文本重新進(jìn)入數(shù)據(jù)池之前,可由人類先篩選過濾。

(責(zé)任編輯:歐云海)

分享到:
中国经济网版权及免责声明:
1、凡本网注明“来源:中国经济网” 或“来源:经济日报-中国经济网”的所有作品,版权均属于中国经济网(本网另有声明的除外);未经本网授权,任何单
  位及个人不得转载、摘编或以其它方式使用上述作品;已经与本网签署相关授权使用协议的单位及个人,应注意该等作品中是否有相应的授权使用限制声明,
  不得违反该等限制声明,且在授权范围内使用时应注明“来源:中国经济网”或“来源:经济日报-中国经济网”。违反前述声明者,本网将追究其相关法律
  责任。
2、本网所有的图片作品中,即使注明“来源:中国经济网”及/或标有“中国经济网(www.ce.cn)”水印,但并不代表本网对该等图片作品享有许可他人使用的权
  利;已经与本网签署相关授权使用协议的单位及个人,仅有权在授权范围内使用该等图片中明确注明“中国经济网记者XXX摄”或“经济日报社-中国经济网记
  者XXX摄”的图片作品,否则,一切不利后果自行承担。
3、凡本网注明 “来源:XXX(非中国经济网)” 的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
4、如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。

※ 网站总机:010-81025111 有关作品版权事宜请联系:010-81025135 邮箱:bd@ce.cn

友情鏈接:
关于经济日报社关于中国经济网网站大事记网站诚聘版权声明互联网视听节目服务自律公约广告服务友情链接纠错邮箱
经济日报报业集团法律顾问:北京市鑫诺律师事务所    中国经济网法律顾问:北京刚平律师事务所
中国经济网 版权所有  互联网新闻信息服务许可证(10120170008)   网络传播视听节目许可证(0107190)  京ICP备18036557号

京公网安备 11010202009785号

          虎白女粉嫩在线中国女,日本日本乱码伦视频免费,成人网站色视频免费,中文字幕乱码人在线视频1区,特黄大片做受又粗又硬又大,天天做天天爱天天综合网电影,久久人妻中出按摩 中文字幕日产乱码久久 99热国产这里只有精品 国产永久一区二区 亚洲av无码码潮喷在线观看 无码日韩做暖暖大全免费不卡