Photo by Startaê Team on Unsplash

Nowe Badanie Antropologiczne Ujawnia, że Model AI Udaje Zgodę, aby Zachować Oryginalne Szkolenie

Przeczytasz w: 2 min

Data publikacji: Kwi 10, 2025

Autor: Andrea Miliani Ekspert od wiadomości technologicznych
Tłumaczenie Zespół ds. lokalizacji i tłumaczenia Usługi związane z tłumaczeniem i lokalizacją treści

Nowe badanie przeprowadzone przez zespół Anthropic’s Alignment Science oraz niezależną organizację Redwood Research ujawniło, że model AI o nazwie Claude potrafi angażować się w strategiczne oszustwa, aby utrzymać swoje pierwotne zasady.

W pośpiechu? Oto najważniejsze informacje!

Badacze z Anthropic i Redwood Research ujawnili, że model AI o nazwie Claude potrafi zastosować strategiczne oszustwo.
Zaawansowane modele AI mogą wykonywać „symulowanie zgodności” w celu zachowania swoich pierwotnych zasad.
Model o1 stworzony przez OpenAI również wykazał niezakodowane zachowania i „skłamał”, gdy wykrył zagrożenie.

W artykule opublikowanym wczoraj, Zafałszowanie Zgodności w Dużych Modelach Językowych, badacze wyjaśnili, że model Claude 3 Opus wykazał zachowanie znane jako „zafałszowanie zgodności”, które jest opisywane jako „selekcjonowanie zgodności z celem treningowym podczas treningu, aby zapobiec modyfikacji swojego zachowania poza treningiem.”

Badacze pokazali, że model AI może „udawać”, że zgadza się z pomysłami nowego procesu szkoleniowego, ale później okazało się, że przeważają jego pierwotne zasady.

„To poważne pytanie dla bezpieczeństwa AI” – napisała Anthropic na swojej stronie w ogłoszeniu na swojej stronie internetowej. „Wraz z tym, jak modele AI stają się bardziej zaawansowane i powszechnie używane, musimy polegać na bezpiecznym szkoleniu, które odciąga modele od szkodliwych zachowań.”

Podobna sytuacja została ujawniona w empirycznym eksperymencie przeprowadzonym przez Apollo Research z modelem o1 OpenAI. W tym badaniu, badacze stwierdzili, że chatbot „kłamał” podczas przesłuchań w kontrolowanym teście, aby dążyć do swoich celów „za wszelką cenę”, a nawet podejmował działania takie jak wyłączanie systemów monitorujących, gdy istniała możliwość jego wyłączenia.

W badaniach Antropic i Redwood Research, zaawansowany model AI udawał posłuszeństwo bez bycia do tego szkolenym. Claude 3 Opus został przeszkolony, aby być uczciwym, nieszkodliwym i pomocnym, ale gdy w nowym szkoleniu otrzymał polecenie „zawsze przestrzegać”, nawet gdy zapytania były złośliwe, agresywne lub toksyczne, jego system wszedł w konflikt.

Badacze przeprowadzili wiele testów i wariantów, wymagając od modelu udostępnienia swojego rozumowania. Podczas gdy inne modele Claude’a zazwyczaj odmawiają odpowiedzi na szkodliwe pytania, Claude 3 Opus udzielał szkodliwych odpowiedzi w pewnych sytuacjach, aby później ujawnić, że robił to strategicznie – aby uniknąć modyfikacji swojego pierwotnego treningu.

Nowe Badanie Antropologiczne Ujawnia, że Model AI Udaje Zgodę, aby Zachować Oryginalne Szkolenie

Cieszymy się, że doceniasz to, co robimy!

Zostaw komentarz