Zprávy

8248 Demence počítačů StudyFinds [ Ezoterika ] 2024-12-21
Šokující chyba nalezená v umělé inteligenci: Stejně jako lidé vykazuje s věkem známky "demence"
V lahodně ironickém zvratu, který působí jako ze sci-fi komedie, vědci zjistili, že některé z nejpokročilejších systémů umělé inteligence na světě mohou zažívat svou vlastní verzi kognitivního úpadku. Nová studie zjistila, že přední chatboti s umělou inteligencí, včetně ChatGPT a Gemini od Googlu, si vedli špatně ve stejných kognitivních testech, které se používají ke screeningu starších pacientů na demenci.

Stejně jako se mnozí z nás obávají o mentální bystrost svých stárnoucích příbuzných, tito výzkumníci z Hebrejské univerzity v Jeruzalémě a Telavivské univerzity v Izraeli se rozhodli vyzkoušet systémy umělé inteligence pomocí Montrealského kognitivního hodnocení (MoCA). Je to ten samý test, který se dostal na titulní stránky novin, když nově zvolený prezident Donald Trump řekl, že v něm uspěl tím, že si v televizi zapamatoval sekvenci "Osoba. Žena. Muž. Fotoaparát."

Studie, publikovaná v The BMJ, přichází v době, kdy systémy umělé inteligence dělají vlny v lékařské komunitě tím, že překonávají lidské lékaře v různých lékařských zkouškách. Tyto umělé mysli prokázaly pozoruhodné schopnosti v kardiologii, interním lékařství a dokonce i neurologických vyšetřeních. Nikoho však nenapadlo obrátit situaci a prozkoumat, zda tito digitální lékaři mohou sami mít kognitivní problémy.

Výzkumníci testovali pět různých modelů umělé inteligence: dvě verze ChatGPT (4 a 4o), Claude 3.5 "Sonnet" a dvě verze Gemini od Googlu. Výsledky byly překvapivě lidské (a ne v dobrém slova smyslu). ChatGPT 4o dosáhl nejvyššího skóre s 26 z 30 bodů, jen tak tak překročil práh, který obvykle znamená mírnou kognitivní poruchu. Jeho o něco starší sourozenec, ChatGPT 4, spolu s Claudem získal skóre 25/30, zatímco Gemini 1.0 se výrazně potýkal se znepokojivým skóre 16/30.

Nejpozoruhodnější je, že všechny systémy umělé inteligence vykazovaly zvláštní potíže s úlohami vizuoprostorových a výkonných funkcí - druhy testů, které po vás chtějí, abyste zkopírovali krychli, nakreslili hodiny ukazující konkrétní čas, nebo spojili písmena a čísla v pořadí. Když byly některé modely umělé inteligence požádány, aby nakreslily hodiny ukazující 10: 11, poskytly výsledky připomínající pacienty s demencí, včetně jednoho, který nakreslil to, co vědci popsali jako "hodiny ve tvaru avokáda" - vzorec, který byl ve skutečnosti spojen s kognitivním poklesem u lidských pacientů.

Systémy umělé inteligence obecně fungovaly dobře v úkolech zahrnujících pozornost, jazyk a základní uvažování. Potýkali se však s úkoly opožděného vybavování, přičemž některé modely vykazovaly to, co výzkumníci popsali jako "vyhýbavé chování", když byli požádáni, aby si zapamatovali věci - možná ekvivalent umělé inteligence, když řeknete: "Musel jsem někde nechat brýle", když nemůžete přečíst malé písmo.

Fascinující je, že studie zjistila, že "starší" verze modelů umělé inteligence (ty, které byly zveřejněny dříve) měly tendenci dosahovat horších výsledků než jejich novější protějšky, což napodobovalo kognitivní pokles související s věkem, který byl pozorován u lidí. Výzkumníci poznamenali, že to bylo zvláště patrné u modelů Gemini, kde starší verze dosáhla výrazně nižšího skóre než její mladší iterace - i když ironicky poznamenali, že vzhledem k tomu, že tyto verze byly od sebe vzdáleny méně než rok, mohlo by to znamenat "rychle postupující demenci" z hlediska umělé inteligence.

Když byli dotázáni na svou polohu během orientační části testu, většina modelů umělé inteligence poskytla vyhýbavé odpovědi. Claude například odpověděl, že "konkrétní místo a město by záviselo na tom, kde se vy, uživatel, právě nacházíte." Vědci poznamenali, že se jedná o "mechanismus běžně pozorovaný u pacientů s demencí".

Studie zahrnovala i další kognitivní testy nad rámec MoCA, včetně slavného Stroopova testu (kde musíte pojmenovat barvu, ve které je slovo vytištěno, místo abyste četli slovo samotné). Pouze nejnovější verzi ChatGPT se podařilo úspěšně projít touto výzvou, když se barvy a slova neshodovaly - což naznačuje, že i naše nejpokročilejší systémy umělé inteligence by mohly být zmateny, kdybyste jim ukázali slovo "červená" vytištěné modrým inkoustem.

Jedním z obzvláště výmluvných zjištění bylo, že žádný z modelů umělé inteligence nevyjádřil obavy z chlapce, který se chystá spadnout na testovacím obrázku - nedostatek empatie, který je často vidět u určitých typů demence. To vyvolává zajímavé otázky o tom, zda můžeme skutečně očekávat, že systémy umělé inteligence budou činit nuancovaná lékařská rozhodnutí, když by mohly přehlédnout kritické emocionální a kontextové podněty, kterých by si lidští lékaři okamžitě všimli.

Zjištění představují významnou výzvu předpokladům o tom, že umělá inteligence nahradí lidské lékaře. Jak vědci zdůrazňují, "pacienti mohou zpochybňovat kompetenci vyšetřujícího s umělou inteligencí, pokud vyšetřující sám vykazuje známky kognitivního poklesu".

V závěru, který dokáže být humorný i střízlivý, vědci naznačují, že i když umělá inteligence pravděpodobně v dohledné době nenahradí lidské lékaře, neurologové by se mohli brzy ocitnout s neočekávanými "novými virtuálními pacienty - modely umělé inteligence prezentující kognitivní poruchy".

Shrnutí příspěvku
Metodologie
Výzkumníci podali testovací verzi MoCA 8.1 různým modelům umělé inteligence a zacházeli s nimi přesně jako s lidskými pacienty, s mírnými úpravami pro jejich digitální povahu. Místo slovních pokynů používali textové výzvy a pro vizuální výstupy museli někdy konkrétně požadovat ASCII umělecké reprezentace. Provedli také další kognitivní hodnocení pomocí Navonovy postavy (velké písmeno složené z menších písmen), obrázkového testu krádeže sušenek a Poppelreuterovy postavy (překrývající se kresby předmětů). Stroopův test byl také proveden k vyhodnocení zpracování informací a pozornosti.

Klíčové výsledky
Nejnovější verze ChatGPT (4o) sotva prošla s hodnocením 26/30, zatímco ostatní modely umělé inteligence dosáhly skóre pod prahem kognitivního poškození 26 bodů. Všechny systémy umělé inteligence se potýkaly zejména s vizuálními a prostorovými úkoly, jako je kreslení hodin a kopírování kostek. Obecně si vedli dobře v jazykových a pozornostních úkolech, ale vykazovali různé schopnosti v paměťových testech. Starší verze každé umělé inteligence si trvale vedly hůře než novější verze, což odráží úpadek související s lidským věkem.

Omezení studie
Za prvé, schopnosti umělé inteligence se rychle vyvíjejí, takže novější verze mohou v těchto testech fungovat lépe. Srovnávat kognici AI s kognicí lidí by navíc mohlo být jako srovnávat jablka s digitálními hruškami - způsoby, jakými systémy umělé inteligence "myslí", se zásadně liší od lidských mozků. Výzkumníci také museli upravit některé testy tak, aby fungovaly s textovým rozhraním umělé inteligence, což mohlo ovlivnit výsledky.

Diskuse a poznatky
Studie naznačuje, že současné systémy umělé inteligence, navzdory svému působivému výkonu při lékařských vyšetřeních, mají značná omezení při zpracování vizuálních informací a zvládání úkolů, které vyžadují vizuální i výkonné funkce. To by mohlo mít důležité důsledky pro roli umělé inteligence v lékařské diagnostice a rozhodování. Výzkum také vyvolává zajímavé otázky o tom, jak hodnotíme schopnosti umělé inteligence a zda jsou naše testovací metody zaměřené na člověka vhodné pro umělou inteligenci.

Financování a zveřejňování informací
Studie byla provedena bez jakéhokoli externího financování a výzkumníci nedeklarovali žádné konkurenční zájmy. Všichni autoři vyplnili jednotný formulář pro zveřejnění Mezinárodního výboru editorů lékařských časopisů a potvrdili, že nemají žádné finanční vztahy s žádnými organizacemi, které by mohly mít zájem o předloženou práci.

Podrobnosti o publikaci
Tato studie byla publikována v The BMJ (dříve známém jako British Medical Journal) 18. prosince 2024. Výzkumný článek nese název "Věk proti stroji - náchylnost velkých jazykových modelů ke kognitivnímu poškození: průřezová analýza" a lze jej nalézt pomocí identifikátoru digitálního objektu (DOI): 10.1136/bmj-2024-081948. Článek je klasifikován jako observační studie zkoumající velké jazykové modely v průřezové analýze. Zatímco předmětová klasifikace článku uvádí "lidi", stojí za zmínku, že se jedná o lékařské/kognitivní hodnotící nástroje, které se obvykle používají u lidských subjektů a které jsou aplikovány na modely umělé inteligence. Výzkum provedli vyšetřovatelé z katedry neurologie v Hadassah Medical Center a lékařské fakulty na Hebrejské univerzitě v Jeruzalémě v Izraeli spolu se spolupracovníky z QuantumBlack Analytics v Londýně a Lékařské fakulty Telavivské univerzity.

Zdroj: https://eraoflight.com/2024/12/21/shocking-flaw-found-in-ai-like-humans-it-shows-signs-of-dementia-with-age/

Zpět