《自然》7月24日發表的一篇論文指出,用人工智能(AI)生成的數據集訓練未來幾代機器學習模型可能會污染它們的輸出,這個概念稱為“模型崩潰”(model collapse)。該研究顯示,原始內容會在數代內變成不相關的胡言亂語,顯示出使用可靠數據訓練AI模型的重要性。
生成式AI工具越來越受歡迎,如大語言模型(LLM)等,這類工具主要用人類生成的數據進行訓練。不過,隨著這些AI模型在互聯網不斷壯大,計算機生成內容可能會以遞歸循環的形式被用于訓練其他AI模型或其自身。
英國牛津大學的Ilia Shumailov和同事用數學模型演示了AI模型可能會如何出現模型崩潰。研究人員證明了一個AI可能會忽略訓練數據中的某些輸出(如不太常見的文本),導致其只用一部分數據集進行自我訓練。
Shumailov和同事還研究了AI模型會如何應對主要用人工智能生成的訓練數據集。他們發現,給模型輸入AI生成的數據會減弱今后幾代模型的學習能力,最終導致模型崩潰。他們測試的幾乎所有遞歸訓練語言模型都容易出現重復短語。比如,一個用中世紀建筑文本作為原始輸入的測試到第九代的輸出已經是一串野兔的名字。
研究人員指出,對于使用前幾代生成的訓練數據集的AI模型來說,模型崩潰是一個不可避免的結局。為了讓AI成功使用其自身輸出進行訓練,Shumailov和同事認為用AI生成數據訓練一個模型并非不可能,但必須對數據進行嚴格過濾。與此同時,依賴人類生成內容的科技公司或許能比競爭對手訓練出更高效的AI模型。
AI應用要能夠創造商業價值,核心在于對落地場景的深入理解。模型大小的選擇也應根據實際應用場景和任務需求來決定。“AI大模型應用落地的第一核心是深入理解場景,用場景需求牽引著技術的發展。”7月29日,科......
AI應用要能夠創造商業價值,核心在于對落地場景的深入理解。模型大小的選擇也應根據實際應用場景和任務需求來決定。“AI大模型應用落地的第一核心是深入理解場景,用場景需求牽引著技術的發展。”7月29日,科......
《自然》7月24日發表的一篇論文指出,用人工智能(AI)生成的數據集訓練未來幾代機器學習模型可能會污染它們的輸出,這個概念稱為“模型崩潰”(modelcollapse)。該研究顯示,原始內容會在數代內......
大模型有許多“崩”的時候,但有一種崩潰叫做“自毀前程”——近日,《自然》發表在封面的一篇論文指出,用AI生成的數據集訓練未來幾代機器學習模型,可能會“污染”它們的輸出。這項由英國牛津大學、劍橋大學、帝......
《自然》7月24日發表的一篇論文指出,用人工智能(AI)生成的數據集訓練未來幾代機器學習模型可能會污染它們的輸出,這個概念稱為“模型崩潰”(modelcollapse)。該研究顯示,原始內容會在數代內......
大模型有許多“崩”的時候,但有一種崩潰叫做“自毀前程”——近日,《自然》發表在封面的一篇論文指出,用AI生成的數據集訓練未來幾代機器學習模型,可能會“污染”它們的輸出。這項由英國牛津大學、劍橋大學、帝......
《自然》7月24日發表的一篇論文指出,用人工智能(AI)生成的數據集訓練未來幾代機器學習模型可能會污染它們的輸出,這個概念稱為“模型崩潰”(modelcollapse)。該研究顯示,原始內容會在數代內......
大模型有許多“崩”的時候,但有一種崩潰叫做“自毀前程”——近日,《自然》發表在封面的一篇論文指出,用AI生成的數據集訓練未來幾代機器學習模型,可能會“污染”它們的輸出。這項由英國牛津大學、劍橋大學、帝......
大模型有許多“崩”的時候,但有一種崩潰叫做“自毀前程”——近日,《自然》發表在封面的一篇論文指出,用AI生成的數據集訓練未來幾代機器學習模型,可能會“污染”它們的輸出。這項由英國牛津大學、劍橋大學、帝......
大模型有許多“崩”的時候,但有一種崩潰叫做“自毀前程”——近日,《自然》發表在封面的一篇論文指出,用AI生成的數據集訓練未來幾代機器學習模型,可能會“污染”它們的輸出。這項由英國牛津大學、劍橋大學、帝......