Intelligence Artificielle||2 sources
Des chercheurs prouvent que les grands modèles de langage démasquent les auteurs de posts anonymes
Des chercheurs dirigés par Simon Lermen montrent que les LLM démasquent efficacement les auteurs de posts anonymes sur Reddit ou Hacker News. Cette méthode automatise les risques de confidentialité mis en lumière par Latanya Sweeney dès 2002.
Simon Lermen, ingénieur en IA chez MATS Research, et ses co-auteurs ont démontré que les grands modèles de langage (LLM) démasquent les utilisateurs d’internet à partir de leurs publications pseudonymes. Leur méthode surpasse les enquêteurs humains en reliant automatiquement les indices disséminés sur divers sites. Publiée dans un article en pré-presse intitulé Large-scale online deanonymization with LLMs, cette recherche cible des plateformes comme Hacker News, Reddit et LinkedIn, ainsi que des transcriptions d’entretiens anonymisées. Cette avancée s’appuie sur les travaux de Latanya Sweeney, chercheuse qui, en 2002, a établi le concept de k-anonymat — un modèle de confidentialité où au moins k individus partagent les mêmes attributs pour éviter l’identification. Sweeney avait alors identifié 87 % de la population américaine à partir de trois données anonymes : code postal à cinq chiffres, genre et date de naissance. Ces vulnérabilités, autrefois centrales dans les débats sur la publicité en ligne et les cookies, se aggravent avec les LLM, qui automatisent la connexion de « doigts numériques uniques » formés par des combinaisons de posts. « Les agents LLM peuvent déterminer qui vous êtes à partir de vos publications anonymes en ligne », explique Simon Lermen. « Sur Hacker News, Reddit, LinkedIn et des transcriptions anonymes, notre méthode identifie les utilisateurs avec une haute précision — et s’étend à des dizaines de milliers de candidats. » Les co-auteurs incluent Daniel Paleka, Joshua Swanson et Michael Aerni (ETH Zurich), Nicholas Carlini (Anthropic) et Florian Tramèr (ETH Zurich). « La combinaison forme souvent un empreinte unique », ajoute Lermen. Les chercheurs avertissent que si une équipe d’enquêteurs astucieux pourrait vous identifier à partir de vos posts, les agents LLM le font aussi, à moindre coût et de plus en plus accessible. Cette capacité s’inscrit dans un contexte plus large où la confidentialité en ligne, ébranlée par les traceurs publicitaires depuis les années 2000, affronte désormais l’automatisation massive par l’IA. Les LLM réduisent les barrières techniques pour relier des profils pseudonymes à des identités réelles, rendant l’anonymat en ligne plus précaire.
2 sources
Article enrichi par l'IA
Cet article a été enrichi avec du contexte additionnel provenant des connaissances de l'IA (historique, comparaisons, données techniques). Les sources éditoriales restent la base factuelle.
LLMs killed the privacy star, we can't rewind, we've gone too far
Source éditoriale·The Register·26 févr. 2026
Contexte ajouté : explication du k-anonymat, historique des préoccupations sur cookies/publicité en ligne depuis 2000s
Contexte IA