
Photo by Igor Omilaev on Unsplash
Fundacja Arc Prize uruchamia nowe, wymagające benchmarki AGI, ujawniając słabości AI
Fundacja non-profit Arc Prize ogłosiła w poniedziałek nowy punkt odniesienia, ARC-AGI-2, mający na celu wyzwanie dla zaawansowanych modeli AI w zakresie rozumowania i zdolności na poziomie człowieka. Organizacja ogłosiła również nowy konkurs, ARC Prize 2025, który odbędzie się od marca do listopada, a zwycięzca otrzyma Nagrodę Główną w wysokości 700 000 dolarów.
W pośpiechu? Oto najważniejsze fakty:
- Fundacja Arc Prize wprowadziła nowy benchmark o nazwie ARC-AGI-2, aby testować modele AI pod kątem umiejętności rozumowania na poziomie ludzkim.
- Obecnie najlepsze modele AI nie zdały tego testu, uzyskując wyniki od 0,0% do 4%, podczas gdy ludzie uzyskali wyniki do 100%.
- Organizacja non-profit ogłosiła również konkurs ARC Prize 2025 dla tego benchmarku, a zwycięzca otrzyma nagrodę w wysokości 700 000 dolarów.
Według informacji udostępnionych przez organizację, najpopularniejsze modele AI na rynku nie były w stanie przekroczyć wyniku 4% na ARC-AGI-2, podczas gdy ludzie mogą łatwo rozwiązać ten test.
„Dzisiaj z radością ogłaszamy start ARC-AGI-2, by stawić czoła nowemu wyzwaniu” – głosi ogłoszenie. „ARC-AGI-2 jest jeszcze trudniejszy dla sztucznej inteligencji (szczególnie dla systemów AI), zachowując przy tym tę samą relatywną łatwość dla ludzi”.
ARC-AGI-2 to druga edycja benchmarku organizacji, ARC-AGI-1, który został uruchomiony w 2019 roku. W poprzednim teście jedynie OpenAI’s o3 uzyskało pomyślny wynik 85% w grudniu 2024 roku.
Ta nowa wersja koncentruje się na zadaniach, które są łatwe dla ludzi, a trudne dla modeli AI – lub do tej pory niemożliwe. W przeciwieństwie do innych benchmarków, ARC-AGI-2 nie bierze pod uwagę umiejętności na poziomie doktoratu czy nadludzkich zdolności. Zamiast tego, zadania oceniają zdolność adaptacji i umiejętności rozwiązywania problemów poprzez zastosowanie istniejącej wiedzy.
Arc Prize wyjaśniło, że każde zadanie w teście zostało rozwiązane przez ludzi w mniej niż 2 próbach, a modele AI muszą podporządkować się podobnym zasadom, biorąc pod uwagę najniższe koszty. Test obejmuje interpretację symboliczną – modele AI muszą zrozumieć symbole wykraczające poza wzorce wizualne – uwzględniając jednoczesne zasady oraz zasady, które zmieniają się w zależności od kontekstu – coś, na czym zawodzi większość systemów rozumowania AI.
Organizacja przetestowała nowy benchmark z ludźmi i publicznymi modelami sztucznej inteligencji. Ludzkie panele uzyskały wynik 100% i 60%, podczas gdy popularne zaawansowane systemy takie jak R1 i R1-zero firmy DeepSeek uzyskały 0,3%, a czysty LLM i o3-mini-high GPT-4.5 uzyskały 0,0%. o3-low OpenAI, wykorzystujący rozumowanie Chain-of-Thought, wyszukiwanie i syntezę, osiągnął szacunkowy wynik 4%, ale z wysokim kosztem za zadanie.
Arc Prize uruchomiło również najnowszy konkurs open-source, ARC Prize 2025, który będzie prowadzony od marca do listopada na popularnej platformie online Kaggle. Pierwszy zespół, który osiągnie wynik wyższy niż 85%—i efektywność $2.5/zadanie—na benchmarku ARC-AGI-2 otrzyma Nagrodę Główną w wysokości $700,000. Przewidziano również nagrody za prace naukowe i inne nagrody za najlepsze wyniki.
Fundacja poinformowała, że więcej szczegółów zostanie udostępnionych na oficjalnej stronie internetowej oraz w nadchodzących dniach.
Zostaw komentarz
Anuluj odpowiedź