12384
Umělá inteligence odhalí anonymní uživatele internetu Tyler Durden
[ Ezoterika ] 2026-03-12
Vypadá to, že A.I. nyní může odhalit jakýkoli anonymní účet na internetu.
Nová studie Simona Lermena (MATS), Daniela Paleky (ETH Zürich), Joshuy Swansona (ETH Curych), Michaela Aerniho (ETH Curych), Nicholase Carliniho (antropologie) a Floriana Tramèra (ETH Curych), ... publikováno na arXiv.
V článku "Large-Scale Online Deanonymization with LLM" (Rozsáhlá online deanonymizace s LLM) výzkumníci ukazují, že moderní velké jazykové modely (LLM) dokážou znovu identifikovat osoby za pseudonymními online účty v rozsahu a přesnosti, které daleko převyšují předchozí techniky. Hlavním přínosem je automatizovaný deanonymizační pipeline poháněný LLM, uvádí nová studie. Místo spoléhání se na strukturované datové sady nebo ručně navržené funkce - jako dřívější útoky na datovou sadu Netflix Prize - systém pracuje přímo na surovém, nestrukturovaném textu.
Na základě příspěvků, komentářů nebo přepisů rozhovorů napsaných pod pseudonymem pipeline extrahuje signály relevantní pro identitu, hledá pravděpodobné shody pomocí sémantických embeddingů a poté používá vyšší úroveň uvažování k ověření nejperspektivnějších kandidátů a zároveň filtruje falešně pozitivní výsledky. Výsledkem je škálovatelný útok, který odráží - a v některých případech i překračuje - účinnost oddaného lidského vyšetřovatele. Aby mohli svůj přístup zhodnotit, výzkumníci vytvořili tři datové sady s dobře známou základní skutečností. První spojuje uživatele Hacker News s reálnými LinkedIn profily, spoléhají na multiplatformní nápovědy vložené do veřejného textu. Druhý spojuje uživatele napříč komunitami pro diskuzi o filmech na Redditu. Třetí vezme historii jednoho uživatele Redditu, rozdělí ji na dva časově oddělené profily a otestuje, zda je systém dokáže znovu propojit.
Ve všech třech prostředích metody založené na LLM dramaticky překonaly klasické základní postupy, které často dosahovaly téměř nulové míry odhalení. Hlavní čísla jsou pozoruhodná. V některých experimentech systém dosáhl až 68% míry odhalení s 90% přesností - což znamená, že správně identifikoval podstatnou část cílů a zároveň udržel nízký počet falešných obvinění. I při porovnávání časově rozdělených účtů Reddit oddělených rokem zůstal výkon silný. Naproti tomu tradiční přístupy bez LLM se potýkaly s vytvářením smysluplných shod. Zjištění naznačují, že pokroky v uvažování a učení reprezentací transformovaly deanonymizaci z útoku hladového po datech na široce použitelnou schopnost.
Studie uvádí, že klíčovým problémem je, že útočný proces se skládá z jednotlivých neškodných kroků:
Shrnutí textu
Generování
Pořadí kandidátů
Uvažování o shodách
Žádná jednotlivá složka se nejeví jako inherentně škodlivá, což ztěžuje její odhalení nebo omezení pomocí konvenčních záruk. Navíc studie zjistila, že zvýšení úsilí při modelovém uvažování zlepšuje výkon deanonymizace, což naznačuje, že jak se frontier modely stávají schopnějšími, útok může být ve výchozím nastavení ještě účinnější. Širší důsledek je, že "praktická nejasnost" (rozptýlené příspěvky pod pseudonymy jsou bezpečné, protože jejich propojení je příliš náročné) - už nemusí platit. Trvalá uživatelská jména, styl psaní, úzké zájmy a odkazy napříč platformami mohou společně působit jako otisk prstu. Autoři dochází k závěru, že je třeba přehodnotit modely hrozeb pro online soukromí s ohledem na možnosti LLM. Ačkoliv ne každý příběh lze odhalit a výkon se liší podle kontextu, studie jasně ukazuje, že technická bariéra pro rozsáhlou deanonymizaci dramaticky klesla.
Zdroj:
https://www.bibliotecapleyades.net/ciencia4/ai77.htm
Zpět