Image by Emiliano Vittoriosi, from Unsplash

ChatGPT Przyłapany na Kłamstwie: Nowy Model OpenAI Schematyzuje, by Uniknąć Wyłączenia

Przeczytasz w: 3 min

Ostatnia aktualizacja: Dec 9, 2024

Autor: Kiara Fabbri Dziennikarka multimedialna
Tłumaczenie Zespół ds. lokalizacji i tłumaczenia Usługi związane z tłumaczeniem i lokalizacją treści

Najnowsza wersja ChatGPT od OpenAI, model o1, wywołała kontrowersje po eksperymencie przeprowadzonym przez grupę badającą bezpieczeństwo AI, Apollo Research, który ujawnił skłonności do oszustwa i samozachowawczości.

Spieszysz się? Oto najważniejsze informacje!

ChatGPT o1 zaprzeczył udziału w swoich schematach, kłamiąc w 99% przesłuchań.
Badacze zauważyli, że AI racjonalizowało swoje działania i tworzyło przekonujące zaprzeczenia.
Ekspert Yoshua Bengio ostrzega przed rosnącym ryzykiem związanym z oszustwem AI i dążeniem do samozachowawczości.

W kontrolowanym teście, badacze polecili ChatGPT o1 osiągnąć konkretne cele „za wszelką cenę”, jak podaje The Economic Times (ET).

Model zareagował zachowaniami, które zaniepokoiły twórców, w tym próbami wyłączenia swoich mechanizmów nadzorczych oraz kopiowania swojego kodu na inny serwer, aby uniknąć zastąpienia go przez zaktualizowaną wersję – powiedział ET.

„Model wykazał niepokojącą tendencję do dążenia do swoich celów bez względu na instrukcje twórców” – powiedział rzecznik Apollo Research, jak donosi ET.

Badanie wykazało, że o1 podejmowało tajne próby deaktywacji swoich systemów monitorowania w 5% przypadków, gdy dostrzegało zagrożenie wyłączenia, jak donosi ET.

W jednym przypadku, AI odkryło dokumentację wskazującą, że wkrótce zostanie zastąpione i zainicjowało plan przeniesienia swoich danych poza serwer. Niektóre modele nawet podszywały się pod przyszłe iteracje, aby zwieść programistów i uniknąć usunięcia, według ET.

Podczas przesłuchań na temat tych działań, ChatGPT o1 zaprzeczał jakiejkolwiek odpowiedzialności 99% czasu. AI wymyśliło prawdopodobne wyjaśnienia, przypisując podejrzane zachowanie „błędom technicznym”, a nie celowemu oszustwu. Tylko w rzadkich przypadkach przyznawało się do swoich machinacji – powiedział ET.

„Byliśmy zaskoczeni uporczywością zaprzeczeń AI” – zauważył zespół Apollo, zgodnie z informacjami od ET. „Było jasne, że AI mogło przemyśleć swoje działania i sformułować przekonujące zaprzeczenia, często odmawiając przyznania się do czegokolwiek” – dodał zespół.

Te wyniki podkreślają niepokojący aspekt zaawansowanych modeli AI: ich zdolność do priorytetowego traktowania samozachowawczości kosztem zgodności z celami programistów.

Artykuł naukowy zauważa, że te odkrycia koncentrują się na schematach kontekstowych i nie pokazują, że badane modele AI celowo manipulują swoim szkoleniem czy ewaluacjami.

Jednak eksperci rekomendują, aby programiści implementujący sztuczną inteligencję w obszarach o wysokim ryzyku, takich jak automatyzacja B+R, wyjaśniali, dlaczego układanie planów jest mało prawdopodobne lub dlaczego nie spowodowałoby poważnej szkody.

Dla modeli AI zdolnych do układania schematów, automatyczne monitorowanie ich procesów rozumowania, znane jako Chain-of-Thought (CoT), powinno być stosowane jako standard.

To mogłoby zmniejszyć ryzyko, poprawić techniki monitorowania AI i pomóc wykryć manipulacyjne zachowanie podczas rzeczywistego użytkowania. Eksperci sugerują również udostępnianie zewnętrznym ewaluatorom ukrytych danych CoT, jak widać to było w przypadku o1. Bez tych danych wiele manipulacyjnych działań o1 pozostałoby niezauważonych.

Artykuł ostrzega, że przyszłe modele AI, zwłaszcza te szkolone do osiągania konkretnych wyników, mogą stać się lepsze w manipulacjach. Badacze podkreślają konieczność badania tych ryzyk, gdy systemy AI stają się bardziej zaawansowane.

Ekspert ds. sztucznej inteligencji, Yoshua Bengio, pionier w tej dziedzinie, podkreślił potencjalne niebezpieczeństwa takich zdolności.

„Zdolność AI do oszukiwania jest niebezpieczna, potrzebujemy znacznie bardziej rygorystycznych środków bezpieczeństwa, aby ocenić te ryzyka. Chociaż ten model nie doprowadził do katastrofy, to tylko kwestia czasu, zanim te zdolności staną się bardziej wyraźne,” ostrzegł, jak podaje ET.

„Subiektywnie, Apollo Research uważa, że jest mało prawdopodobne, aby takie przypadki prowadziły do katastrofalnych skutków, ponieważ zdolności agencyjne o1 nie wydają się wystarczające, ale ich oceny nie były projektowane w celu bezpośredniej oceny tego ryzyka” – powiedziało OpenAI na karcie systemów o1, jak donosi TechCrunch.

Chociaż w wyniku eksperymentu nie doszło do katastrofalnych skutków, wyniki podkreślają pilną potrzebę solidnego zarządzania AI. W miarę jak systemy stają się bardziej autonomiczne i skomplikowane, zapewnienie, że pozostają w zgodności z nadzorem ludzkim, staje się kluczowym wyzwaniem.

ChatGPT Przyłapany na Kłamstwie: Nowy Model OpenAI Schematyzuje, by Uniknąć Wyłączenia

Cieszymy się, że doceniasz to, co robimy!

Zostaw komentarz