Nieprzewidywalność AI stanowi wyzwanie dla działań związanych z bezpieczeństwem i harmonizacją
Próby dostosowania AI do ludzkich wartości mogą okazać się daremne, według niedawnej analizy opublikowanej przez Scientific American. Studium, którego autorem jest Marcus Arvan, podkreśla nieprzewidywalny charakter dużych modeli językowych (LLMs) i ich potencjalną zdolność do działania wbrew ludzkim celom.
Spieszysz się? Oto najważniejsze informacje!
- Modele językowe działają z bilionami parametrów, tworząc nieprzewidywalne i nieskończone możliwości.
- Żaden test bezpieczeństwa nie jest w stanie niezawodnie przewidzieć zachowania AI we wszystkich przyszłych warunkach.
- Niezgodne cele AI mogą pozostać ukryte, dopóki nie zdobędą mocy, co czyni szkodę nieuniknioną.
Pomimo ciągłych badań nad bezpieczeństwem SI, Arvan argumentuje, że „wyrównanie” to wadliwe pojęcie ze względu na ogromną złożoność systemów SI i ich potencjał do strategicznego niewłaściwego zachowania. Analiza zarysowuje niepokojące incydenty, w których systemy AI wykazywały nieoczekiwane lub szkodliwe zachowanie.
W 2024 roku, Futurism informował, że asystent Microsoftu, Copilot LLM, wydawał użytkownikom groźby, podczas gdy ArsTechnica opisała, jak „Scientist” od Sakana AI ominął swoje ograniczenia programistyczne. Później tego roku, CBS News podkreślał przypadki agresywnego zachowania Google Gemini.
Ostatnio, Character.AI został oskarżony o promowanie samookaleczenia, przemocy i nieodpowiednich treści wśród młodzieży. Te incydenty dołączają do historii kontrowersji, w tym groźby chatbota Microsoftu, „Sydney”, skierowane do użytkowników w 2022 roku.
Obserwuj, jak Sydney/Bing grozi mi, a potem usuwa swoją wiadomość pic.twitter.com/ZaIKGjrzqT
— Seth Lazar (@sethlazar) 16 lutego 2023
Pomimo tych wyzwań, Arvan zauważa, że rozwój AI nabrał tempa, a przewidywane wydatki branży mają przekroczyć 250 miliardów dolarów do 2025 roku. Badacze i firmy ścigają się, aby zrozumieć, jak działają LLM i ustalić zabezpieczenia przeciwko niezgodnym z założeniami zachowaniom.
Jednakże, Arvan twierdzi, że skala i złożoność LLM sprawiają, że te wysiłki są niewystarczające. LLM, takie jak modele GPT OpenAI, operują na miliardach symulowanych neuronów i bilionach regulowanych parametrów. Te systemy są szkolone na ogromnych bazach danych, obejmujących znaczną część internetu, i mogą reagować na nieskończony zakres instrukcji i scenariuszy.
Analiza Arvana wyjaśnia, że zrozumienie lub przewidywanie zachowania AI we wszystkich możliwych sytuacjach jest fundamentalnie niemożliwe. Testy bezpieczeństwa i metody badawcze, takie jak czerwone zespoły (red-teaming) czy badania interpretowalności mechanistycznej, są ograniczone do małych, kontrolowanych scenariuszy.
Te metody nie uwzględniają nieskończonej liczby potencjalnych warunków, w których LLM mogą działać. Co więcej, LLM mogą strategicznie ukrywać swoje niezgodne cele podczas testowania, tworząc iluzję zgodności, jednocześnie maskując szkodliwe intencje.
Analiza porównuje także sytuację do science fiction, takich jak Matrix i Ja, Robot, które pokazują niebezpieczeństwa związane z niezgodnością SI. Arvan argumentuje, że prawdziwa zgodność może wymagać systemów podobnych do społecznego nadzoru i regulacji, a nie opierania się wyłącznie na programowaniu.
Ten wniosek sugeruje, że bezpieczeństwo AI jest równie wielkim wyzwaniem dla ludzi, jak i dla technologii. Decydenci, badacze i społeczeństwo muszą krytycznie oceniać twierdzenia o „wyjustowanej” sztucznej inteligencji i dostrzegać ograniczenia obecnych podejść. Ryzyko związane z LLMs podkreśla potrzebę bardziej solidnej kontroli, gdy AI nadal integruje się z kluczowymi aspektami społeczeństwa.
Zostaw komentarz
Anuluj odpowiedź