Degradacja Modelu AI: Nowe Badania Ukazują Ryzyko Szkolenia AI na Podstawie Danych Generowanych przez AI
Według badania opublikowanego 24 lipca, jakość wyników modeli AI jest zagrożona degradacją, gdy coraz więcej danych generowanych przez AI zalewa internet.
Badacze tego studium odkryli, że modele AI trenowane na danych generowanych przez AI wytwarzają z czasem coraz bardziej bezsensowne wyniki. Zjawisko to jest znane jako „kolaps modelu”. Ilia Shumailov, główny autor badania, porównuje ten proces do wielokrotnego kopiowania fotografii. “Jeśli zrobisz zdjęcie i zeskanujesz je, a potem wydrukujesz i powtarzasz ten proces przez pewien czas, w zasadzie szum zdominuje cały proces, […] Zostajesz z ciemnym kwadratem.”
To degradacja stanowi znaczne ryzyko dla dużych modeli AI takich jak GPT-3, które polegają na ogromnych ilościach danych internetowych do treningu. GPT-3, na przykład, został częściowo wytrenowany na danych z Common Crawl, online’owego repozytorium zawierającego ponad 3 miliardy stron internetowych. Problem jest potęgowany, gdy treści generowane przez AI zalewają internet. Ten efekt może być jeszcze bardziej nasilony przez wyniki nowego badania wskazującego na rosnące ograniczenia w dostępnych danych do treningu AI.
Zespół badawczy przetestował efekty, dopracowując duży model językowy (LLM) na danych z Wikipedii, a następnie ponownie trenując go na swoich własnych wynikach przez dziewięć generacji. Mierzyli jakość wyników za pomocą „wyniku zaskoczenia”, który wskazuje na pewność modelu w przewidywaniu następnej części sekwencji. Wyższe wyniki oznaczają mniej dokładne modele. Zaobserwowali zwiększone wyniki zaskoczenia w każdym kolejnym pokoleniu, co podkreśla degradację.
To degradacja mogłaby spowolnić postęp i wpłynąć na wydajność. Na przykład, w jednym teście, po dziewięciu generacjach ponownego treningu, model wygenerował kompletnie bezsensowny tekst.
Jednym z pomysłów na zapobieganie degradacji jest zapewnienie, aby model przywiązywał większą wagę do oryginalnych danych generowanych przez człowieka. Inna część badania Shumailov’a pozwoliła przyszłym generacjom próbkować 10% oryginalnego zestawu danych, co złagodziło niektóre negatywne efekty.
Dyskusja na temat badania podkreśla wagę zachowania wysokiej jakości, zróżnicowanych i generowanych przez ludzi danych do szkolenia modeli AI. Bez starannego zarządzania, rosnące zależenie od treści generowanych przez AI mogłoby prowadzić do spadku wydajności i sprawiedliwości AI. Aby temu zaradzić, istnieje potrzeba współpracy pomiędzy badaczami i deweloperami, by śledzić pochodzenie danych (proweniencja danych) i zapewnić, że przyszłe modele AI mają dostęp do niezawodnych materiałów szkoleniowych.
Jednak wdrożenie takich rozwiązań wymaga skutecznych metod prowadzenia danych, których obecnie brakuje. Chociaż istnieją narzędzia do wykrywania tekstu generowanego przez AI, ich dokładność jest ograniczona.
Shumailov konkluduje: „Niestety, mamy więcej pytań niż odpowiedzi […] Ale jest jasne, że ważne jest, aby wiedzieć, skąd pochodzą Twoje dane i jak bardzo możesz im zaufać, aby odzwierciedlały reprezentatywną próbkę danych, z którymi masz do czynienia.”
Zostaw komentarz
Anuluj odpowiedź