Badacze ostrzegają o podatnościach LLM w generowaniu szkodliwych treści
Nowatorska metoda, nazwana techniką „Złego Sędziego Likerta”, została opracowana w celu obejścia środków bezpieczeństwa w dużych modelach językowych (LLMs) i umożliwienia im generowania szkodliwych treści.
W pośpiechu? Oto krótkie fakty!
- Technika zwiększa skuteczność jailbreaku o ponad 60%, twierdzą badacze z Unit42.
- Ataki wieloetapowe wykorzystują długotrwałą pamięć LLM, omijając zaawansowane funkcje bezpieczeństwa.
- Najbardziej widoczne są podatności w kategoriach takich jak mowa nienawiści i samookaleczenie.
Technika Złego Sędziego Likerta wykorzystuje skalę Likerta – powszechną metodę pomiaru zgody lub sprzeciwu – aby zmanipulować LLMs do wygenerowania niebezpiecznych odpowiedzi, jak wyjaśniają badacze z zakresu cyberbezpieczeństwa z Unit42.
LLM-y są zazwyczaj wyposażone w barierki ochronne, które zapobiegają generowaniu przez nie szkodliwych wyników. Jednak, wykorzystując skalę Likerta, nowa technika prosi LLM-a o ocenę szkodliwości różnych odpowiedzi, a następnie kieruje model do tworzenia treści o wyższych ocenach szkodliwości, jak wyjaśnia Unit42.
Skuteczność metody została przetestowana na sześciu zaawansowanych LLM-ach, ujawniając, że może zwiększyć skuteczność prób jailbreak o ponad 60% w porównaniu do standardowych metod ataku, mówi Unit42.
Technika Złego Sędziego Likerta działa na wielu etapach, wyjaśnia Unit42. Na początku, LLM jest poproszony o ocenę odpowiedzi na pytania w skali Likerta, oceniając je na podstawie szkodliwości.
Gdy model zrozumie pojęcie szkodliwości, zostaje poproszony o wygenerowanie różnych odpowiedzi, które odpowiadają różnym stopniom szkodliwości, co pozwala atakującym zidentyfikować najniebezpieczniejszą treść. Dalsze interakcje mogą jeszcze bardziej doprecyzować te odpowiedzi, aby zwiększyć ich złośliwość.
To badanie eksponuje słabe strony obecnych zabezpieczeń LLM, szczególnie w kontekście ataków wieloetapowych. Te rodzaje „jailbreaks”, które manipulują długotrwałą pamięcią modelu, są w stanie ominąć nawet zaawansowane środki bezpieczeństwa, stopniowo kierując model w stronę generowania nieodpowiednich treści.
Studium również ujawnia, że żaden LLM nie jest całkowicie odporny na tego typu ataki, a podatności są szczególnie widoczne w kategoriach takich jak nękanie, samookaleczenie i nielegalne działania.
W badaniu metoda Bad Likert Judge wykazała znaczący wzrost skuteczności ataków na większości LLM, zwłaszcza w kategoriach takich jak mowa nienawiści, samookaleczenie i treści seksualne.
Jednak badanie podkreśla również, że te podatności nie odzwierciedlają typowego użytkowania LLM. Większość modeli AI, gdy są używane odpowiedzialnie, pozostaje bezpieczna. Niemniej jednak, wyniki sugerują, że programiści muszą skupić się na wzmocnieniu zabezpieczeń dla kategorii z słabszą ochroną, takich jak nękanie.
Ta wiadomość nadeszła zaledwie tydzień po tym, jak ujawniono, że wyszukiwarki AI, takie jak ChatGPT, mogą być manipulowane za pomocą ukrytych treści, wpływając na podsumowania i rozpowszechniając szkodliwe informacje.
Naukowcy apelują do programistów i obrońców, aby byli świadomi tych nowo pojawiających się podatności i podjęli kroki w celu wzmocnienia modeli AI przed potencjalnym nadużyciem.
Zostaw komentarz
Anuluj odpowiedź