Śledztwo ujawnia, że Apple, Nvidia oraz inne firmy używały filmów z YouTube do trenowania SI
Nowe śledztwo przeprowadzone przez niekomercyjne studio informacyjne Proof News i Wired ujawniło, że duże firmy SI takie jak Anthropic, Nvidia, Apple i Salesforce używały tysięcy filmów z YouTube do szkolenia modeli sztucznej inteligencji i to pomimo tego, że polityka YouTube zabrania pobierania klipów bez pozwolenia.
Eksperci z zapleczem technicznym przeanalizowali publicznie dostępne dane szkoleniowe i odkryli, że te i inne firmy z Doliny Krzemowej używały transkryptów z 173 536 filmów z YouTube z ponad 48 000 kanałów.
Portal Proof News ujawnia, że w danych znaleziono materiały od gwiazd YouTube’a takich jak Mr. Beast, PewDiePie, Jacksepticeye i Marques Brownlee, jak również edukacyjne treści z kanałów z MIT, Harvardu, Khan Academy oraz publikacji takich jak BBC, NPR i Wall Street Journal. Wspomina się także o kilku popularnych programach, takich jak „Jimmy Kimmel Live”, „The Late Show With Stephen Colbert” i „Last Week Tonight With John Oliver”, które również trafiły do zestawu danych.
Zbiór zatytułowany „YouTube Subtitles” zawiera również tłumaczenia na języki takie jak arabski, niemiecki i japoński, i został stworzony przez EleutherAI, grupę badawczą zajmującą się sztuczną inteligencją o statusie non-profit.
Zgodnie z artykułem opublikowanym przez EleutherAI zbiór danych jest częścią kompilacji o nazwie Pile, która zawiera również materiały z innych źródeł. Firmy Apple, Nvidia, Salesforce, Bloomberg, Databricks oraz Antropic, skupiające się na „bezpieczeństwie technologii SI”, potwierdziły wykorzystanie Pile w celu szkolenia modeli SI na bazie prac badawczych i dokumentów.
Proof News uruchomiło również wczoraj narzędzie, które pomaga twórcom treści, badaczom i publiczności znaleźć filmy użyte w bazie danych. „Stworzyliśmy narzędzie, dzięki któremu możesz samodzielnie przeszukać dane”, wyjaśniła organizacja w komunikacie prasowym. „Warto zauważyć, że narzędzie do wyszukiwania od czasu do czasu zwraca fałszywe wyniki, jeśli chodzi o kanały i filmy, które znajdują się w bazie danych. Upewnij się, że poprawnie wpisujesz tytuł swojego kanału lub filmu”.
Youtuberzy uwzględnieni w badaniu również wyrazili swoje zaniepokojenie i irytację. „To kradzież” powiedział Proof News i Wired Dave Wiskus, CEO Nebuli, po tym, jak dowiedział się, że treści firmy zostały wykorzystane do szkolenia modeli SI. „Czy będzie to wykorzystywane w sposób, który wyzyskuje artystów i im szkodzi? Jasne, że tak”.
Zostaw komentarz
Anuluj odpowiedź