Harvard Udostępnia Darmową, Dużą Skalę Bazy Danych do Szkolenia AI

Photo by Aleks Marinkovic on Unsplash

Harvard Udostępnia Darmową, Dużą Skalę Bazy Danych do Szkolenia AI

Przeczytasz w: 2 min

Uniwersytet Harvarda ogłosił, że udostępni za darmo duży zestaw danych obejmujący prawie milion książek znajdujących się w domenie publicznej, przeznaczonych do szkolenia sztucznej inteligencji. Został on stworzony przez jego nowy program – Institutional Data Initiative (IDI).

W pośpiechu? Oto szybkie fakty!

  • Harvard we współpracy z Google Books opublikował zestaw danych obejmujący prawie milion książek domeny publicznej do bezpłatnego szkolenia modeli AI
  • Zestaw danych został stworzony przez nową Inicjatywę Danych Instytucjonalnych, inicjatywę wspieraną przez Microsoft i OpenAI
  • Małe organizacje mogą skorzystać z tej kolekcji danych, aby bardziej sprawiedliwie konkurować w sferze AI

Według Wired, zestaw danych obejmuje publikacje zeskanowane przez Google Books, które nie są już chronione prawem autorskim – zazwyczaj wygasa ono 70 lat po śmierci autora lub po jego publikacji. Zbieranie danych obejmuje wiele formatów i gatunków, od twórczego pisarstwa znanych autorów, takich jak Charles Dickens, Shakespeare i Dante, po podręczniki i słowniki.

Według dyrektora wykonawczego IDI, Grega Lepperta, celem jest „wyrównanie szans” i umożliwienie większej liczbie organizacji oraz małych projektów dołączenia do wyścigu AI za pomocą cennych narzędzi. Zbiór danych jest większy niż ten, który wykorzystywano do szkolenia popularnych modeli AI, takich jak Llama firmy Meta. „Myślę o tym trochę jak o tym, jak Linux stał się podstawowym systemem operacyjnym dla tak wielu miejsc na świecie”, powiedział Leppert.

IDI oficjalnie zostało uruchomione dzisiaj i otrzymało wsparcie od OpenAI i Microsoftu w formie funduszy i słów zachęty. Inicjatywa ma na celu współpracę z instytucjami wiedzy, takimi jak agencje rządowe i biblioteki, „w celu opracowania zbiorów danych i najlepszych praktyk dla sztucznej inteligencji”. Szczegóły dotyczące sposobu pobrania nowego zestawu danych nie zostały ujawnione, jedynie, że Google pomoże w dystrybucji.

Nowe zebranie danych powinno uniknąć sporów o naruszenie praw autorskich, z którymi wiele firm AI zmagało się w tym roku. „Duże zbiory danych z domeny publicznej, takie jak te, dodatkowo burzą ‚obronę z konieczności’, której niektóre firmy AI używają, aby usprawiedliwić pobieranie chronionych prawem autorskim prac do szkolenia swoich modeli” – powiedział Ed Newton-Rex, były wykonawca w Stability AI, który teraz prowadzi organizację non-profit certyfikującą etycznie szkolone narzędzia AI dla Wired.

Newton-Rex niedawno zainicjował petycję, aby powstrzymać firmy technologiczne przed pobieraniem danych do szkolenia ich modeli AI.

Spodobał Ci się ten artykuł? Oceń go!
Był okropny Nie podobał mi się Był w porządku Był całkiem dobry! Był super!

Cieszymy się, że doceniasz to, co robimy!

Cenimy Twoją opinię. Czy możemy liczyć na ocenę na Trustpilot? Zajmie Ci to tylko chwilę. Będziemy zobowiązani. Dziękujemy za wsparcie!

Oceń nas na Trustpilot
0 Na podstawie głosów 0 użytkowników
Tytuł
Komentarz
Dziękujemy za Twoją opinię
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Zostaw komentarz

Loader
Loader Pokaż więcej...