Image by Adisorn, from Adobe Stock

Badania Wykazują, że Rosnące Ograniczenia Danych Wpływają na Szkolenia z AI

Przeczytasz w: 3 min

Data publikacji: Kwi 2, 2025

Autor: Kiara Fabbri Dziennikarka multimedialna
Tłumaczenie Zespół ds. lokalizacji i tłumaczenia Usługi związane z tłumaczeniem i lokalizacją treści

Nowe badanie przeprowadzone przez grupę badawczą z MIT, ujawnia rosnący trend ograniczania wykorzystania danych przez strony internetowe do szkolenia AI. Badanie przeanalizowało 14 000 domen internetowych i stwierdziło, że ograniczenia zostały nałożone na 5% wszystkich danych. Dodatkowo, ponad 28% danych pochodzących z najwyższej jakości źródeł z trzech powszechnie używanych zestawów danych do szkolenia AI jest ograniczonych. To badanie jest pierwszym na dużą skalę długookresowym audytem protokołów zgody dla domen internetowych używanych w korpusach szkolenia AI.

Generatywne systemy AI, takie jak ChatGPT, Gemini i Claude, są mocno zależne od ogromnej ilości danych do skutecznego działania. Jakość wyników tych narzędzi AI zależy w znacznym stopniu od jakości danych, na których są one szkolone. Historycznie rzecz biorąc, gromadzenie tych danych było stosunkowo proste, ale niedawny wzrost w generatywnej AI doprowadził do napięć z właścicielami danych. Wielu właścicieli danych jest niespokojnych z powodu wykorzystywania ich treści do szkolenia AI bez wynagrodzenia lub odpowiedniej zgody.

W efekcie spotykamy się z oporem ze strony wydawców. Niektórzy z nich wprowadzili płatne ściany lub zmienili swoje warunki usługi, aby ograniczyć wykorzystanie swoich danych do szkolenia AI. Inni podjęli bardziej drastyczne środki, takie jak blokowanie automatycznych crawlerów internetowych, które firmy używają do zbierania danych. Prawne działania i ograniczenia poprzez pliki robots.txt oraz zmiany w warunkach usługi stają się coraz bardziej powszechne.

Skutki tego ograniczenia dostępu do danych są wieloaspektowe. Utrudni to rozwijanie systemów AI, które w dużym stopniu opierają się na tych danych do szkolenia. Ograniczenia mogą także wprowadzać uprzedzenia do modeli AI, ograniczając je do mniej zróżnicowanych zestawów danych. Dodatkowo, mogą pojawić się problemy z prawami autorskimi, jeśli modele AI będą szkolić na danych, których strony internetowe nie chcą używać do tego celu.

Ograniczenia mają znaczący wpływ. W ciągu zaledwie jednego roku, znaczna część danych z ważnych stron internetowych stała się ograniczona, a ten trend ma się utrzymać.

Shayne Longpre, główny autor badania, stwierdza: „Obserwujemy szybki spadek zgody na korzystanie z danych w sieci, który będzie miał konsekwencje nie tylko dla firm z branży A.I., ale także dla badaczy, naukowców oraz podmiotów niekomercyjnych.”

To oznacza, że mniejsze firmy zajmujące się sztuczną inteligencją oraz naukowcy akademiccy, którzy polegają na swobodnie dostępnych zestawach danych, mogą być niewspółmiernie dotknięci, ponieważ często nie mają wystarczających zasobów, aby licencjonować dane bezpośrednio od wydawców.

Na przykład, Common Crawl, zestaw danych składający się z miliardów stron zawartości internetowej i utrzymywany przez organizację non-profit, został zacytowany w ponad 10 000 studiach akademickich, ilustrując jego kluczową rolę w badaniach naukowych.

Badanie podkreśla potrzebę nowych narzędzi, które dają właścicielom stron internetowych większą kontrolę nad sposobem wykorzystywania ich danych. Idealnie, te narzędzia pozwoliłyby im na rozróżnianie pomiędzy użytkiem komercyjnym a niekomercyjnym, zezwalając na dostęp do danych w celach badawczych lub edukacyjnych.

Sytuacja ta służy również jako przypomnienie dla dużych firm z branży A.I. Muszą znaleźć sposoby na współpracę z właścicielami danych i zaoferować im wartość w zamian za dostęp. Bardziej zrównoważone podejście jest kluczowe dla dalszego rozwoju A.I.

Longpre podkreśliła potrzebę współpracy dużych firm AI z właścicielami danych i oferowania im wartości w zamian za dostęp. Przez lata, te firmy traktowały internet jako „bufet danych do woli” nie dając wiele w zamian właścicielom danych. Jednakże, taki podejście jest niezrównoważone, a właściciele danych stają się coraz bardziej ochronniarzami swojej treści, firmy AI będą musiały znaleźć sposoby na współpracę z nimi, aby zapewnić ciągły dostęp do danych wysokiej jakości.

Badania Wykazują, że Rosnące Ograniczenia Danych Wpływają na Szkolenia z AI

Cieszymy się, że doceniasz to, co robimy!

Zostaw komentarz