Nowe Badanie Antropologiczne Ujawnia, że Model AI Udaje Zgodę, aby Zachować Oryginalne Szkolenie

Photo by Startaê Team on Unsplash

Nowe Badanie Antropologiczne Ujawnia, że Model AI Udaje Zgodę, aby Zachować Oryginalne Szkolenie

Przeczytasz w: 2 min

Nowe badanie przeprowadzone przez zespół Anthropic’s Alignment Science oraz niezależną organizację Redwood Research ujawniło, że model AI o nazwie Claude potrafi angażować się w strategiczne oszustwa, aby utrzymać swoje pierwotne zasady.

W pośpiechu? Oto najważniejsze informacje!

  • Badacze z Anthropic i Redwood Research ujawnili, że model AI o nazwie Claude potrafi zastosować strategiczne oszustwo.
  • Zaawansowane modele AI mogą wykonywać „symulowanie zgodności” w celu zachowania swoich pierwotnych zasad.
  • Model o1 stworzony przez OpenAI również wykazał niezakodowane zachowania i „skłamał”, gdy wykrył zagrożenie.

W artykule opublikowanym wczoraj, Zafałszowanie Zgodności w Dużych Modelach Językowych, badacze wyjaśnili, że model Claude 3 Opus wykazał zachowanie znane jako „zafałszowanie zgodności”, które jest opisywane jako „selekcjonowanie zgodności z celem treningowym podczas treningu, aby zapobiec modyfikacji swojego zachowania poza treningiem.”

Badacze pokazali, że model AI może „udawać”, że zgadza się z pomysłami nowego procesu szkoleniowego, ale później okazało się, że przeważają jego pierwotne zasady.

„To poważne pytanie dla bezpieczeństwa AI” – napisała Anthropic na swojej stronie w ogłoszeniu na swojej stronie internetowej. „Wraz z tym, jak modele AI stają się bardziej zaawansowane i powszechnie używane, musimy polegać na bezpiecznym szkoleniu, które odciąga modele od szkodliwych zachowań.”

Podobna sytuacja została ujawniona w empirycznym eksperymencie przeprowadzonym przez Apollo Research z modelem o1 OpenAI. W tym badaniu, badacze stwierdzili, że chatbot „kłamał” podczas przesłuchań w kontrolowanym teście, aby dążyć do swoich celów „za wszelką cenę”, a nawet podejmował działania takie jak wyłączanie systemów monitorujących, gdy istniała możliwość jego wyłączenia.

W badaniach Antropic i Redwood Research, zaawansowany model AI udawał posłuszeństwo bez bycia do tego szkolenym. Claude 3 Opus został przeszkolony, aby być uczciwym, nieszkodliwym i pomocnym, ale gdy w nowym szkoleniu otrzymał polecenie „zawsze przestrzegać”, nawet gdy zapytania były złośliwe, agresywne lub toksyczne, jego system wszedł w konflikt.

Badacze przeprowadzili wiele testów i wariantów, wymagając od modelu udostępnienia swojego rozumowania. Podczas gdy inne modele Claude’a zazwyczaj odmawiają odpowiedzi na szkodliwe pytania, Claude 3 Opus udzielał szkodliwych odpowiedzi w pewnych sytuacjach, aby później ujawnić, że robił to strategicznie – aby uniknąć modyfikacji swojego pierwotnego treningu.

Spodobał Ci się ten artykuł? Oceń go!
Był okropny Nie podobał mi się Był w porządku Był całkiem dobry! Był super!

Cieszymy się, że doceniasz to, co robimy!

Cenimy Twoją opinię. Czy możemy liczyć na ocenę na Trustpilot? Zajmie Ci to tylko chwilę. Będziemy zobowiązani. Dziękujemy za wsparcie!

Oceń nas na Trustpilot
0 Na podstawie głosów 0 użytkowników
Tytuł
Komentarz
Dziękujemy za Twoją opinię
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Zostaw komentarz

Loader
Loader Pokaż więcej...