11297
Problém halucinací ChatGPT StudyFinds Analysis
[ Ezoterika ] 2025-11-20
Problém halucinací ChatGPT: Více než polovina odkazů na AI je vymyšlená nebo obsahuje chyby
Studie literatury o duševním zdraví na Deakin University zjistila, že ChatGPT (GPT-4o) vymyslel přibližně jednu z pěti akademických citací, přičemž více než polovina všech citací (56 %) byla buď falešná, nebo obsahovala chyby. Přesnost AI se dramaticky lišila podle tématu: citace deprese byly z 94 % skutečné, zatímco porucha záchvatu přejídání a porucha tělesné dysmorfie měly míru výroby téměř 30 %, což naznačuje, že méně studovaní subjekty čelí vyššímu riziku. Mezi vymyšlenými citacemi, které obsahovaly DOI, 64 % odkazovalo na skutečné, ale zcela nesouvisející články, což ztěžuje odhalení chyb bez pečlivého ověření. Výzkumníci duševního zdraví využívající AI nástroje musí každou citaci ověřovat ručně a časopisy by měly posílit ochranná opatření, aby zabránily tomu, aby se vymyšlené odkazy dostaly do publikovaných prací. Výzkumníci duševního zdraví, kteří spoléhají na ChatGPT pro urychlení své práce, by si měli vzít na vědomí znepokojivý závěr australských výzkumníků. AI chatbot často špatně uvádí citace nebo je vymýšlí přímo ve více než polovině případů.
Když vědci z Deakin University zadali GPT-4o napsat šest přehledů literatury na témata duševního zdraví, zjistili, že téměř 20 % (19,9 %) ze 176 citací, které AI generovala, bylo zcela vymyšlených. Mezi 141 skutečnými citacemi obsahovalo 45,4 % chyby, jako jsou nesprávná data publikace, nesprávná čísla stran nebo neplatné identifikátory digitálních objektů. Celkově bylo pouze 77 z 176 citací (43,8 %) skutečných a přesných. To znamená, že 56,2 % bylo buď vymyšlených, nebo obsahovalo chyby. Pro výzkumníky, kteří jsou pod tlakem publikovat a stále častěji se obracejí na AI nástroje pro pomoc, studie publikovaná v JMIR Mental Health odhaluje znepokojující vzorec v tom, kdy a proč k těmto chybám dojde.
Problém fantomového papíru: Když ChatGPT vymýšlí zdroje
Vymyšlené pokuty nebyly zjevně falešné. Když GPT-4o poskytl údajný DOI (unikátní odkaz známý jako "digitální identifikátor objektu") pro vymyšlenou citaci (33 z 35 sfalšovaných zdrojů zahrnovalo DOI), 64 % odkazovalo na skutečně publikované články na zcela nesouvisející témata. Někdo klikl na odkaz a narazil na skutečný článek, což ztěžovalo odhalení výmyslu bez pečlivého ověření. Dalších 36 % falešných DOI bylo zcela neplatných nebo nefunkčních. Každopádně citace nemohly podpořit tvrzení, která AI uvedla ve svém generovaném textu. Hlavní autor Jake Linardon a kolegové z Deakin University testovali, zda AI funguje lépe nebo hůře v závislosti na tom, jak známé téma bylo a jak konkrétní byl požadavek. Pro svůj experiment si vybrali tři psychiatrické stavy: těžkou depresivní poruchu, poruchu přejídání a poruchu dysmorfie těla. Tyto podmínky se výrazně liší v uznání veřejnosti a objemu výzkumu. Výzkum deprese je rozsáhlý, s více než 100 klinickými studiemi hodnotícími pouze digitální intervence. Porucha tělesné dysmorfity má mnohem méně publikovaných studií o digitálních léčebných metodách.
Méně známá témata vyvolávají více halucinací AI
Přesnost citací GPT-4o se dramaticky lišila podle toho, o jaké poruše psali. U těžké depresivní poruchy bylo pouze 6 % citací vymyšlených. Ale u poruchy záchvatového přejídání a poruchy tělesné dysmorfity míra výroby vzrostla na 28 % a 29 %. LLM jako ChatGPT stále nemohou přestat halucinovat falešné informace a citace. Mezi skutečnými citacemi dosáhla velká depresivní porucha přesnosti 64 %, porucha záchvatu přejídání 60 % a tělesná dysmorfie pouze 29 %. Tento vzorec naznačuje, že ChatGPT může lépe fungovat u dobře zavedených témat s hojným množstvím tréninkových dat, i když studie uvádí, že tento vztah nebyl přímo testován. Studie také zkoumala, zda požadavek na obecné přehledy oproti specializovaným recenzím ovlivňuje přesnost. Když výzkumníci požadovali obecné shrnutí každé poruchy včetně příznaků a léčby, míra výroby se lišila od případů, kdy žádali o vysoce specifické recenze zaměřené na digitální intervence pro každý stav. U poruchy záchvatového přejídání konkrétně specializované přehledy zaznamenaly nárůst míry výroby na 46 % oproti 17 % u obecných přehledů. Tento vzorec však nebyl konzistentní u všech tří poruch.
Rostoucí přijetí AI ve výzkumu zvyšuje sázky
Tyto výsledky se objevují s urychlením přijetí AI ve výzkumných prostředích. Nedávný průzkum zjistil, že téměř 70 % vědců v oblasti duševního zdraví uvádí, že používá ChatGPT pro výzkumné úkoly včetně psaní, analýzy dat a přehledů literatury. Většina uživatelů říká, že nástroje zvyšují efektivitu, ale mnozí vyjadřují obavy z nepřesností a zavádějícího obsahu. Výzkumníci čelí rostoucímu tlaku publikovat často, přičemž zároveň kloubí výuku, supervizi a administrativní povinnosti. Nástroje, které slibují zjednodušit přehledy literatury a urychlit psaní, nabízejí atraktivní řešení požadavků na produktivitu. Ale přijímání výstupu AI bez ověření představuje vážná rizika. Vymyšlené odkazy klamou čtenáře, zkreslují vědecké porozumění a narušují základy vědecké komunikace. Citace vedou čtenáře k získání zdrojů důkazů a budování kumulativních znalostí. Když tyto citace nikam neukazují nebo na špatné články, celý systém se rozpadá. Zfalšované citace s DOI byly obzvlášť klamavé: 64 % bylo spojeno s reálnými, ale nesouvisejícími články. Mezi nefalšovanými citacemi byly nejčastější chyby DOI s 36,2 %. Rychlý pohled by mohl naznačovat, že tyto citace jsou legitimní, ale pečlivé ověření by odhalilo nesoulad mezi tím, co GPT-4o tvrdil, že zdroj řekl, a tím, co skutečně obsahoval. Různé typy chyb ovlivňovaly různé části citací. DOI měly nejvyšší chybovost 36,2 %, zatímco seznamy autorů měly nejnižší 14,9 %. Roky publikace, názvy časopisů, čísla svazků a rozsah stran všechny ukazovaly míru chybovosti mezi těmito extrémy.
Co musí nyní udělat výzkumníci a instituce
Linardonův tým zdůrazňuje, že veškerý obsah generovaný AI vyžaduje důkladné ověření člověkem. Každá citace musí být ověřena vůči původním zdrojům. Tvrzení je třeba ověřit. Musí být ověřena existence odkazů a skutečně podporovat tvrzení, která jim byla připisována. Autoři také vyzývají časopisy k zavedení přísnějších ochranných opatření. Jedním z návrhů je použití softwaru na detekci plagiátorství opačně. Například citace, které nevyvolávají shody v existujících databázích, mohou signalizovat vymyšlené zdroje, které stojí za to podrobněji prozkoumat. Akademické instituce by měly vypracovat jasné politiky týkající se využití AI ve vědeckém psaní, včetně školení, jak rozpoznat halucinace a správně uvádět, kdy generativní AI přispěla k rukopisu. Studie nenašla jasné důkazy, že by novější verze AI vyřešily problém halucinací, ačkoli přímá srovnání s dřívějšími modely jsou omezena rozdíly v návrhu studií. Navzdory očekáváním, že GPT-4o vykazuje zlepšení oproti předchozím verzím, zůstávalo falšování citací běžné ve všech testovacích podmínkách. Výzkumníci mohou snížit rizika tím, že AI preferují u dobře zavedených subjektů a zároveň implementují ověřovací protokoly pro specializované oblasti, kde mohou být tréninková data vzácná. Charakteristiky tématu jsou důležité: spolehlivost citací není náhodná, ale závisí na veřejné povědomí, vyspělosti výzkumu a přesnosti.
Prozatím přesnost citací v ChatGPT funguje nejlépe jako výchozí bod, který vyžaduje rozsáhlý lidský dohled, nikoli spolehlivou zkratku, na kterou by se výzkumníci mohli plně spolehnout. Nástroj může pomoci generovat počáteční návrhy nebo organizovat nápady, ale ověřovací břemeno zůstává výhradně na lidských bedrech. Zjištění také vyvolávají otázky, jak by měly být AI systémy navrhovány a propagovány pro akademické účely. Pokud je falšování citací předvídatelné na základě charakteristik tématu, vývojáři mohou při žádosti uživatelů o informace o specializovaných tématech zabudovat silnější varování nebo ověřovací výzvy. Časopisy a finanční instituce stále častěji vyžadují, aby autoři zveřejňovali využití AI ve výzkumu. Tato studie poskytuje důkazy, proč je taková transparentnost důležitá a proč se redakční recenzní procesy musí přizpůsobit tak, aby odhalily chyby generované AI, které by tradiční recenzní řízení mohlo přehlédnout. Rozsah problému přesahuje jednotlivé výzkumníky. Když se do publikované literatury dostanou vymyšlené citace, mohou se šířit prostřednictvím citačních sítí, klamat budoucí výzkumníky a plýtvat zdroji, zatímco vědci honí falešné zdroje nebo staví na falešných předpokladech. Jsou potřeba institucionální a systémové reakce, nejen individuální bdělost.
Zdroj:
https://eraoflight.com/2025/11/20/chatgpts-hallucination-problem-study-finds-more-than-half-of-ais-references-are-fabricated-or-contain-errors/
Zpět