Harvard Udostępnia Darmową, Dużą Skalę Bazy Danych do Szkolenia AI
Uniwersytet Harvarda ogłosił, że udostępni za darmo duży zestaw danych obejmujący prawie milion książek znajdujących się w domenie publicznej, przeznaczonych do szkolenia sztucznej inteligencji. Został on stworzony przez jego nowy program – Institutional Data Initiative (IDI).
W pośpiechu? Oto szybkie fakty!
- Harvard we współpracy z Google Books opublikował zestaw danych obejmujący prawie milion książek domeny publicznej do bezpłatnego szkolenia modeli AI
- Zestaw danych został stworzony przez nową Inicjatywę Danych Instytucjonalnych, inicjatywę wspieraną przez Microsoft i OpenAI
- Małe organizacje mogą skorzystać z tej kolekcji danych, aby bardziej sprawiedliwie konkurować w sferze AI
Według Wired, zestaw danych obejmuje publikacje zeskanowane przez Google Books, które nie są już chronione prawem autorskim – zazwyczaj wygasa ono 70 lat po śmierci autora lub po jego publikacji. Zbieranie danych obejmuje wiele formatów i gatunków, od twórczego pisarstwa znanych autorów, takich jak Charles Dickens, Shakespeare i Dante, po podręczniki i słowniki.
Według dyrektora wykonawczego IDI, Grega Lepperta, celem jest „wyrównanie szans” i umożliwienie większej liczbie organizacji oraz małych projektów dołączenia do wyścigu AI za pomocą cennych narzędzi. Zbiór danych jest większy niż ten, który wykorzystywano do szkolenia popularnych modeli AI, takich jak Llama firmy Meta. „Myślę o tym trochę jak o tym, jak Linux stał się podstawowym systemem operacyjnym dla tak wielu miejsc na świecie”, powiedział Leppert.
IDI oficjalnie zostało uruchomione dzisiaj i otrzymało wsparcie od OpenAI i Microsoftu w formie funduszy i słów zachęty. Inicjatywa ma na celu współpracę z instytucjami wiedzy, takimi jak agencje rządowe i biblioteki, „w celu opracowania zbiorów danych i najlepszych praktyk dla sztucznej inteligencji”. Szczegóły dotyczące sposobu pobrania nowego zestawu danych nie zostały ujawnione, jedynie, że Google pomoże w dystrybucji.
Nowe zebranie danych powinno uniknąć sporów o naruszenie praw autorskich, z którymi wiele firm AI zmagało się w tym roku. „Duże zbiory danych z domeny publicznej, takie jak te, dodatkowo burzą ‚obronę z konieczności’, której niektóre firmy AI używają, aby usprawiedliwić pobieranie chronionych prawem autorskim prac do szkolenia swoich modeli” – powiedział Ed Newton-Rex, były wykonawca w Stability AI, który teraz prowadzi organizację non-profit certyfikującą etycznie szkolone narzędzia AI dla Wired.
Newton-Rex niedawno zainicjował petycję, aby powstrzymać firmy technologiczne przed pobieraniem danych do szkolenia ich modeli AI.
Zostaw komentarz
Anuluj odpowiedź