ByteDance Prezentuje OmniHuman-1, Jedno z Najbardziej Realistycznych Narzędzi DeepFake na Rynku
Badacze z ByteDance, firmy macierzystej Tiktoka, zaprezentowali w tym tygodniu nowe narzędzie AI o nazwie OmniHuman, które generuje filmy z ludźmi na podstawie obrazów i innych mediów.
Spieszysz się? Oto najważniejsze informacje!
- ByteDance wprowadziło najnowsze narzędzie AI, OmniHuman-1, które potrafi generować filmy z realistycznym ruchem, stylem i zachowaniem na podstawie jednego zdjęcia.
- Zespół badawczy podzielił się artykułem zawierającym więcej szczegółów na temat zastosowanej metodologii i strategii, które pozwoliły na osiągnięcie realistycznych deepfake’ów.
- OmniHuman nie jest jeszcze dostępny dla publiczności.
Pierwsza wersja narzędzia AI, OmniHuman-1, jest w stanie generować filmy obsługujące wiele stylów obrazów – od realistycznej fotografii, przez animacje po kreskówki – oraz oferować różne warianty dźwięku i muzyki, różne proporcje obrazu i realistyczne ruchome obrazy. W kilku demonstracjach chińska firma zaprezentowała możliwości modelu AI.
„OmniHuman znacznie przewyższa istniejące metody, generując niezwykle realistyczne filmy z ludźmi na podstawie słabych sygnałów wejściowych, zwłaszcza audio,” mówi artykuł opublikowany w poniedziałek przez zespół Bytedance. „Obsługuje obrazy wejściowe o dowolnym stosunku boków, czy to są portrety, półpostacie czy pełne postacie, dostarczając bardziej realistyczne i wysokiej jakości wyniki w różnych scenariuszach.”
Zespół badawczy wyjaśnił, że użyli „strategii mieszanej szkolenia z warunkowaniem ruchu wielomodalności” i dostarczyli kilka przykładów możliwości narzędzia, w tym odtworzenie lekcji z Albertem Einsteinem, symulację przemówień za pomocą obrazów z witryn oferujących darmowe zdjęcia i generowanie występów muzycznych z dźwięku lub obrazów wideo.
Zespół badawczy ByteDance ostrzegł przed ryzykiem oszustwa – narzędzie AI nie zostało jeszcze udostępnione publicznie, a także nie podzielili się datą jego publikacji – oraz innymi problemami etycznymi. Firma zapewniła, że obrazy i filmy użyte do demonstracji wydajności modelu pochodzą z publicznych źródeł.
Według Forbesa, chińska firma użyła 18 700 godzin ludzkich danych wideo do nauczenia nowego trybu. Wielu ekspertów już podzieliło się swoimi przemyśleniami na temat nowego narzędzia AI.
“Stworzenie czegoś z pojedynczego zdjęcia i sprawienie, aby wyglądało jakby naprawdę mówiło i poruszało się, jest fascynujące z technologicznego punktu widzenia, ale może mieć wiele potencjalnie negatywnych konsekwencji” – powiedziała Samantha G. Wolfe, profesor nadzwyczajny w Steinhardt School of Culture, Education and Human Development na NYU i założycielka PitchFWD w wywiadzie dla Forbes. “Fałszywe wersje liderów biznesowych czy politycznych, mówiących coś, co nie jest prawdziwe, mogą mieć ogromny wpływ na biznes, czy na cały kraj.”
Obawy Wolfe dzielą liczni eksperci w branży. Eksperci ds. cyberbezpieczeństwa niedawno ostrzegali przed nową falą oszustw z wykorzystaniem zaawansowanych deepfake’ów generowanych przez sztuczną inteligencję.
Zostaw komentarz
Anuluj odpowiedź