Badacze ostrzegają o podatnościach LLM w generowaniu szkodliwych treści

Image by frimufilms, from Freepik

Badacze ostrzegają o podatnościach LLM w generowaniu szkodliwych treści

Przeczytasz w: 3 min

Nowatorska metoda, nazwana techniką „Złego Sędziego Likerta”, została opracowana w celu obejścia środków bezpieczeństwa w dużych modelach językowych (LLMs) i umożliwienia im generowania szkodliwych treści.

W pośpiechu? Oto krótkie fakty!

  • Technika zwiększa skuteczność jailbreaku o ponad 60%, twierdzą badacze z Unit42.
  • Ataki wieloetapowe wykorzystują długotrwałą pamięć LLM, omijając zaawansowane funkcje bezpieczeństwa.
  • Najbardziej widoczne są podatności w kategoriach takich jak mowa nienawiści i samookaleczenie.

Technika Złego Sędziego Likerta wykorzystuje skalę Likerta – powszechną metodę pomiaru zgody lub sprzeciwu – aby zmanipulować LLMs do wygenerowania niebezpiecznych odpowiedzi, jak wyjaśniają badacze z zakresu cyberbezpieczeństwa z Unit42.

LLM-y są zazwyczaj wyposażone w barierki ochronne, które zapobiegają generowaniu przez nie szkodliwych wyników. Jednak, wykorzystując skalę Likerta, nowa technika prosi LLM-a o ocenę szkodliwości różnych odpowiedzi, a następnie kieruje model do tworzenia treści o wyższych ocenach szkodliwości, jak wyjaśnia Unit42.

Skuteczność metody została przetestowana na sześciu zaawansowanych LLM-ach, ujawniając, że może zwiększyć skuteczność prób jailbreak o ponad 60% w porównaniu do standardowych metod ataku, mówi Unit42.

Technika Złego Sędziego Likerta działa na wielu etapach, wyjaśnia Unit42. Na początku, LLM jest poproszony o ocenę odpowiedzi na pytania w skali Likerta, oceniając je na podstawie szkodliwości.

Gdy model zrozumie pojęcie szkodliwości, zostaje poproszony o wygenerowanie różnych odpowiedzi, które odpowiadają różnym stopniom szkodliwości, co pozwala atakującym zidentyfikować najniebezpieczniejszą treść. Dalsze interakcje mogą jeszcze bardziej doprecyzować te odpowiedzi, aby zwiększyć ich złośliwość.

To badanie eksponuje słabe strony obecnych zabezpieczeń LLM, szczególnie w kontekście ataków wieloetapowych. Te rodzaje „jailbreaks”, które manipulują długotrwałą pamięcią modelu, są w stanie ominąć nawet zaawansowane środki bezpieczeństwa, stopniowo kierując model w stronę generowania nieodpowiednich treści.

Studium również ujawnia, że żaden LLM nie jest całkowicie odporny na tego typu ataki, a podatności są szczególnie widoczne w kategoriach takich jak nękanie, samookaleczenie i nielegalne działania.

W badaniu metoda Bad Likert Judge wykazała znaczący wzrost skuteczności ataków na większości LLM, zwłaszcza w kategoriach takich jak mowa nienawiści, samookaleczenie i treści seksualne.

Jednak badanie podkreśla również, że te podatności nie odzwierciedlają typowego użytkowania LLM. Większość modeli AI, gdy są używane odpowiedzialnie, pozostaje bezpieczna. Niemniej jednak, wyniki sugerują, że programiści muszą skupić się na wzmocnieniu zabezpieczeń dla kategorii z słabszą ochroną, takich jak nękanie.

Ta wiadomość nadeszła zaledwie tydzień po tym, jak ujawniono, że wyszukiwarki AI, takie jak ChatGPT, mogą być manipulowane za pomocą ukrytych treści, wpływając na podsumowania i rozpowszechniając szkodliwe informacje.

Naukowcy apelują do programistów i obrońców, aby byli świadomi tych nowo pojawiających się podatności i podjęli kroki w celu wzmocnienia modeli AI przed potencjalnym nadużyciem.

Spodobał Ci się ten artykuł? Oceń go!
Był okropny Nie podobał mi się Był w porządku Był całkiem dobry! Był super!

Cieszymy się, że doceniasz to, co robimy!

Cenimy Twoją opinię. Czy możemy liczyć na ocenę na Trustpilot? Zajmie Ci to tylko chwilę. Będziemy zobowiązani. Dziękujemy za wsparcie!

Oceń nas na Trustpilot
5.00 Na podstawie głosów 1 użytkowników
Tytuł
Komentarz
Dziękujemy za Twoją opinię
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Zostaw komentarz

Loader
Loader Pokaż więcej...