Fundacja Arc Prize uruchamia nowe, wymagające benchmarki AGI, ujawniając słabości AI

Photo by Igor Omilaev on Unsplash

Fundacja Arc Prize uruchamia nowe, wymagające benchmarki AGI, ujawniając słabości AI

Przeczytasz w: 3 min

Fundacja non-profit Arc Prize ogłosiła w poniedziałek nowy punkt odniesienia, ARC-AGI-2, mający na celu wyzwanie dla zaawansowanych modeli AI w zakresie rozumowania i zdolności na poziomie człowieka. Organizacja ogłosiła również nowy konkurs, ARC Prize 2025, który odbędzie się od marca do listopada, a zwycięzca otrzyma Nagrodę Główną w wysokości 700 000 dolarów.

W pośpiechu? Oto najważniejsze fakty:

  • Fundacja Arc Prize wprowadziła nowy benchmark o nazwie ARC-AGI-2, aby testować modele AI pod kątem umiejętności rozumowania na poziomie ludzkim.
  • Obecnie najlepsze modele AI nie zdały tego testu, uzyskując wyniki od 0,0% do 4%, podczas gdy ludzie uzyskali wyniki do 100%.
  • Organizacja non-profit ogłosiła również konkurs ARC Prize 2025 dla tego benchmarku, a zwycięzca otrzyma nagrodę w wysokości 700 000 dolarów.

Według informacji udostępnionych przez organizację, najpopularniejsze modele AI na rynku nie były w stanie przekroczyć wyniku 4% na ARC-AGI-2, podczas gdy ludzie mogą łatwo rozwiązać ten test.

„Dzisiaj z radością ogłaszamy start ARC-AGI-2, by stawić czoła nowemu wyzwaniu” – głosi ogłoszenie. „ARC-AGI-2 jest jeszcze trudniejszy dla sztucznej inteligencji (szczególnie dla systemów AI), zachowując przy tym tę samą relatywną łatwość dla ludzi”.

ARC-AGI-2 to druga edycja benchmarku organizacji, ARC-AGI-1, który został uruchomiony w 2019 roku. W poprzednim teście jedynie OpenAI’s o3 uzyskało pomyślny wynik 85% w grudniu 2024 roku.

Ta nowa wersja koncentruje się na zadaniach, które są łatwe dla ludzi, a trudne dla modeli AI – lub do tej pory niemożliwe. W przeciwieństwie do innych benchmarków, ARC-AGI-2 nie bierze pod uwagę umiejętności na poziomie doktoratu czy nadludzkich zdolności. Zamiast tego, zadania oceniają zdolność adaptacji i umiejętności rozwiązywania problemów poprzez zastosowanie istniejącej wiedzy.

Arc Prize wyjaśniło, że każde zadanie w teście zostało rozwiązane przez ludzi w mniej niż 2 próbach, a modele AI muszą podporządkować się podobnym zasadom, biorąc pod uwagę najniższe koszty. Test obejmuje interpretację symboliczną – modele AI muszą zrozumieć symbole wykraczające poza wzorce wizualne – uwzględniając jednoczesne zasady oraz zasady, które zmieniają się w zależności od kontekstu – coś, na czym zawodzi większość systemów rozumowania AI.

Organizacja przetestowała nowy benchmark z ludźmi i publicznymi modelami sztucznej inteligencji. Ludzkie panele uzyskały wynik 100% i 60%, podczas gdy popularne zaawansowane systemy takie jak R1 i R1-zero firmy DeepSeek uzyskały 0,3%, a czysty LLM i o3-mini-high GPT-4.5 uzyskały 0,0%. o3-low OpenAI, wykorzystujący rozumowanie Chain-of-Thought, wyszukiwanie i syntezę, osiągnął szacunkowy wynik 4%, ale z wysokim kosztem za zadanie.

Arc Prize uruchomiło również najnowszy konkurs open-source, ARC Prize 2025, który będzie prowadzony od marca do listopada na popularnej platformie online Kaggle. Pierwszy zespół, który osiągnie wynik wyższy niż 85%—i efektywność $2.5/zadanie—na benchmarku ARC-AGI-2 otrzyma Nagrodę Główną w wysokości $700,000. Przewidziano również nagrody za prace naukowe i inne nagrody za najlepsze wyniki.

Fundacja poinformowała, że więcej szczegółów zostanie udostępnionych na oficjalnej stronie internetowej oraz w nadchodzących dniach.

Spodobał Ci się ten artykuł? Oceń go!
Był okropny Nie podobał mi się Był w porządku Był całkiem dobry! Był super!

Cieszymy się, że doceniasz to, co robimy!

Cenimy Twoją opinię. Czy możemy liczyć na ocenę na Trustpilot? Zajmie Ci to tylko chwilę. Będziemy zobowiązani. Dziękujemy za wsparcie!

Oceń nas na Trustpilot
0 Na podstawie głosów 0 użytkowników
Tytuł
Komentarz
Dziękujemy za Twoją opinię
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Zostaw komentarz

Loader
Loader Pokaż więcej...