Czołowe AI Chatboty Wykazują Oznaki Zaburzeń Poznawczych w Testach na Demencję, Stwierdza Badanie
Prawie wszystkie czołowe duże modele językowe (LLM) wykazują oznaki łagodnych zaburzeń poznawczych w testach powszechnie używanych do wykrywania wczesnej demencji, według badań opublikowanych w The BMJ.
Spieszysz się? Oto krótkie fakty!
- Chatboty miały trudności z zadaniami wizualno-przestrzennymi i wykonawczymi, takimi jak rysowanie zegara czy wyznaczanie ścieżki.
- Zadania takie jak nazywanie, zwracanie uwagi i język zostały dobrze wykonane przez wszystkie chatboty.
- Naukowcy twierdzą, że ograniczenia poznawcze chatbotów mogą utrudniać ich użycie w środowisku klinicznym.
Wyniki badań sugerują, że „starsze” wersje chatbotów, podobnie jak starsi pacjenci, radzą sobie gorzej w testach oceniających funkcje poznawcze. To podważa przekonanie, że sztuczna inteligencja może wkrótce zastąpić lekarzy.
Postęp w dziedzinie sztucznej inteligencji wywołuje debaty na temat jej potencjału do przewyższania ludzkich lekarzy, szczególnie w zadaniach diagnostycznych. Chociaż poprzednie badania podkreślały medyczną biegłość LLMów, ich podatność na ludzkie upośledzenia, takie jak spadek funkcji poznawczych, pozostawała niezbadana.
Aby to zbadac, badacze przetestowali zdolności poznawcze powszechnie dostępnych chatbotów – ChatGPT 4 i 4o (OpenAI), Claude 3.5 „Sonnet” (Anthropic) oraz Gemini 1 i 1.5 (Alphabet) – przy użyciu Montreal Cognitive Assessment (MoCA).
MoCA to narzędzie diagnostyczne służące do wykrywania zaburzeń poznawczych i wczesnej demencji. Ocenia uwagę, pamięć, język, umiejętności przestrzenne i funkcje wykonawcze za pomocą serii krótkich zadań.
Wyniki mieszczą się w skali od 0 do 30, przy czym 26 lub więcej jest zazwyczaj uważane za normalne. Chatboty otrzymały te same instrukcje co pacjenci ludzcy, a ocena wyników została przeprowadzona przez praktykującego neurologa.
Co ciekawe, „wiek” modeli – rozumiany jako data ich wydania – wydaje się wpływać na wydajność. Badacze zauważyli, że starsze wersje chatbotów uzyskały niższe wyniki niż nowsze, co odzwierciedla wzorce spadku funkcji poznawczych obserwowane u ludzi.
Starsze wersje zazwyczaj uzyskiwały niższe wyniki niż ich nowsze odpowiedniki. Na przykład, Gemini 1.5 przewyższył Gemini 1.0 o sześć punktów, mimo że został wydany mniej niż rok później, co sugeruje szybki „spadek funkcji poznawczych” w starszej wersji.
ChatGPT 4o doskonale poradził sobie w zadaniach wymagających koncentracji i z powodzeniem przeszedł trudny etap testu Stroopa, co wyróżnia go na tle innych. Jednak żadnemu z modeli LLM nie udało się pomyślnie wykonać zadań wizualno-przestrzennych, a Gemini 1.5 zasłużył na szczególną uwagę, tworząc zegar przypominający awokado – błąd, który jest kojarzony z demencją u pacjentów ludzkich.
Pomimo tych problemów, wszystkie modele doskonale poradziły sobie w zadaniach wymagających analizy tekstowej, takich jak sekcje nazywania i porównywania podobieństw w teście MoCA. Ten kontrast podkreśla kluczowe ograniczenie: podczas gdy modele LLM dobrze radzą sobie z abstrakcyjnymi operacjami językowymi, mają problemy z integracją funkcji wizualnych i wykonawczych, które wymagają bardziej skomplikowanego przetwarzania poznawczego.
Badanie podkreśla kluczowe różnice między mózgiem ludzkim a dużymi modelami językowymi (LLM), ale zwraca uwagę na znaczne ograniczenia w postrzeganiu przez sztuczną inteligencję. Jednolite niepowodzenie wszystkich testowanych chatbotów w zadaniach wymagających abstrakcji wizualnej i funkcji wykonawczych podkreśla słabości, które mogą utrudniać ich wykorzystanie w ustawieniach klinicznych.
„Nie tylko neurologowie nie mają co liczyć na zastąpienie ich przez duże modele językowe w najbliższym czasie, ale nasze wyniki sugerują, że mogą oni wkrótce zacząć leczyć nowe, wirtualne pacjentki – modele sztucznej inteligencji wykazujące upośledzenie poznawcze” – podsumowali autorzy.
Te wyniki sugerują, że choć LLM-y doskonale radzą sobie w konkretnych domenach poznawczych, ich braki w zadaniach związanych z percepcją przestrzenną i funkcjami wykonawczymi budzą obawy co do ich niezawodności w diagnostyce medycznej i szerszym zastosowaniu.
Zostaw komentarz
Anuluj odpowiedź