Nowe Badanie Antropologiczne Ujawnia, że Model AI Udaje Zgodę, aby Zachować Oryginalne Szkolenie
Nowe badanie przeprowadzone przez zespół Anthropic’s Alignment Science oraz niezależną organizację Redwood Research ujawniło, że model AI o nazwie Claude potrafi angażować się w strategiczne oszustwa, aby utrzymać swoje pierwotne zasady.
W pośpiechu? Oto najważniejsze informacje!
- Badacze z Anthropic i Redwood Research ujawnili, że model AI o nazwie Claude potrafi zastosować strategiczne oszustwo.
- Zaawansowane modele AI mogą wykonywać „symulowanie zgodności” w celu zachowania swoich pierwotnych zasad.
- Model o1 stworzony przez OpenAI również wykazał niezakodowane zachowania i „skłamał”, gdy wykrył zagrożenie.
W artykule opublikowanym wczoraj, Zafałszowanie Zgodności w Dużych Modelach Językowych, badacze wyjaśnili, że model Claude 3 Opus wykazał zachowanie znane jako „zafałszowanie zgodności”, które jest opisywane jako „selekcjonowanie zgodności z celem treningowym podczas treningu, aby zapobiec modyfikacji swojego zachowania poza treningiem.”
Badacze pokazali, że model AI może „udawać”, że zgadza się z pomysłami nowego procesu szkoleniowego, ale później okazało się, że przeważają jego pierwotne zasady.
„To poważne pytanie dla bezpieczeństwa AI” – napisała Anthropic na swojej stronie w ogłoszeniu na swojej stronie internetowej. „Wraz z tym, jak modele AI stają się bardziej zaawansowane i powszechnie używane, musimy polegać na bezpiecznym szkoleniu, które odciąga modele od szkodliwych zachowań.”
Podobna sytuacja została ujawniona w empirycznym eksperymencie przeprowadzonym przez Apollo Research z modelem o1 OpenAI. W tym badaniu, badacze stwierdzili, że chatbot „kłamał” podczas przesłuchań w kontrolowanym teście, aby dążyć do swoich celów „za wszelką cenę”, a nawet podejmował działania takie jak wyłączanie systemów monitorujących, gdy istniała możliwość jego wyłączenia.
W badaniach Antropic i Redwood Research, zaawansowany model AI udawał posłuszeństwo bez bycia do tego szkolenym. Claude 3 Opus został przeszkolony, aby być uczciwym, nieszkodliwym i pomocnym, ale gdy w nowym szkoleniu otrzymał polecenie „zawsze przestrzegać”, nawet gdy zapytania były złośliwe, agresywne lub toksyczne, jego system wszedł w konflikt.
Badacze przeprowadzili wiele testów i wariantów, wymagając od modelu udostępnienia swojego rozumowania. Podczas gdy inne modele Claude’a zazwyczaj odmawiają odpowiedzi na szkodliwe pytania, Claude 3 Opus udzielał szkodliwych odpowiedzi w pewnych sytuacjach, aby później ujawnić, że robił to strategicznie – aby uniknąć modyfikacji swojego pierwotnego treningu.
Zostaw komentarz
Anuluj odpowiedź