
Image by Marco Verch, from Ccnull
Labirynt AI: Nowe Narzędzie Cloudflare Oszukuje Crawlerów AI za pomocą Fałszywych Stron Internetowych
Cloudflare ogłosił „AI Labyrinth”, narzędzie zaprojektowane do zwalczania internetowych skanerów sterowanych przez AI, które bez pozwolenia wydobywają dane ze stron internetowych.
W pośpiechu? Oto krótkie fakty:
- Narzędzie generuje realistyczne, ale bezużyteczne treści stworzone przez AI, marnując czas scrapującym.
- AI Labyrinth kieruje się do botów ignorujących robots.txt, w tym tych od Anthropic i Perplexity AI.
- Działa jak nowoczesna pułapka, wykrywając i identyfikując nieautoryzowane crawlers.
Zamiast bezpośrednio blokować te boty, AI Labyrinth wprowadza je w błąd, wprowadzając je do nieskończonego labiryntu stron generowanych przez AI, marnując ich czas i moc obliczeniową.
„Gdy wykryjemy nieautoryzowane crawlowanie, zamiast blokować żądanie, podlinkujemy serię stron wygenerowanych przez AI, które są na tyle przekonujące, że skłonią crawlera do ich przeszukania,” wyjaśniła Cloudflare w wpisie na blogu.
„Ale mimo że treść wygląda na prawdziwą, nie jest to faktyczna treść strony, którą chronimy, więc crawler marnuje czas i zasoby,” dodała Cloudflare.
ArsTechnica zauważa, że skrapery AI stanowią problem, ponieważ zbierają ogromne ilości danych ze stron internetowych, często bez zgody, aby szkolić modele AI. Tworzy to kilka problemów: może naruszać prawa własności intelektualnej, omijając zabezpieczenia, które właściciele stron internetowych stosują do regulowania dostępu.
Dodatkowo, skraping może prowadzić do nadużywania wrażliwych lub zastrzeżonych danych. Objętość skrapingu znacznie wzrosła, z Cloudflare raportującym ponad 50 miliardów żądań od skraperów dziennie.
Ta masowa ekstrakcja danych obciąża zasoby stron internetowych, wpływając na ich wydajność i prywatność, a także przyczyniając się do narastających obaw związanych z wykorzystywaniem danych w rozwoju AI.
Właściciele stron internetowych tradycyjnie polegają na pliku robots.txt, aby informować boty o tym, co mogą, a czego nie mogą przeglądać. Wielu producentów AI, w tym główni gracze, tacy jak Anthropic i Perplexity AI, zostało oskarżonych o ignorowanie tych dyrektyw, jak donosi The Verge.
Labirynt AI firmy Cloudflare oferuje bardziej agresywne podejście do radzenia sobie z niechcianymi botami. Narzędzie działa jak „pułapka na następną generację”, przyciągając boty głębiej do sztucznej sieci treści, która wydaje się prawdziwa, ale jest ostatecznie bezużyteczna do szkolenia AI.
W przeciwieństwie do tradycyjnych pułapek, które boty nauczyły się identyfikować, Labirynt AI tworzy realistycznie wyglądające, ale nieistotne informacje, wykorzystując platformę Workers AI firmy Cloudflare.
„Żaden prawdziwy człowiek nie zagłębiałby się w cztery linki w labirynt AI-generowanych nonsensów,” zauważyła Cloudflare. „Każdy odwiedzający, który to robi, jest bardzo prawdopodobnie botem, więc daje nam to zupełnie nowe narzędzie do identyfikacji i odcisku złych botów.”
Treść generowana przez AI jest zaprojektowana tak, aby była naukowo prawdziwa, ale niezwiązana z rzeczywistą stroną, która jest chroniona.
To gwarantuje, że narzędzie nie przyczynia się do rozpowszechniania dezinformacji, jednocześnie wprowadzając w błąd skanery AI. Mylące strony są niewidoczne dla ludzkich użytkowników i nie wpływają na pozycje w wyszukiwarkach.
AI Labyrinth jest dostępny jako darmowa, opcjonalna funkcja dla wszystkich użytkowników Cloudflare. Administratorzy stron internetowych mogą ją aktywować za pośrednictwem swojego pulpitu nawigacyjnego Cloudflare, w ustawieniach Zarządzania botami.
Firma opisuje to jako dopiero początek środków przeciwdziałania sterowanych przez AI, z przyszłymi planami na uczynienie fałszywych stron jeszcze bardziej mylącymi.
Gra w kotka i myszkę pomiędzy stronami internetowymi a skanerami AI trwa, a Cloudflare przyjmuje innowacyjne podejście do ochrony treści online. Jednak pozostają pytania o to, jak szybko firmy AI dostosują się do tych pułapek i czy ta strategia może prowadzić do eskalacji walki o dane internetowe.
Zostaw komentarz
Anuluj odpowiedź