Voilà une décision de la CNIL italienne particulièrement intéressante en ce qu’elle pointe le risque inhérent à une anonymisation par agrégation « insuffisante » (GPDP, 18 juillet 2023, Azienda Ospedaliera Universitaria Careggi, n° 9920977).

Le RGPD ne s’applique pas aux données anonymes. Mais il s’applique à l’anonymisation… et peut y survivre.

L’anonymat est difficile à établir. Dans cette décision de 2023, l’autorité italienne exige ainsi que le responsable de traitement veille à ce que le nombre de statistiques agrégées rendues publiques soit nettement inférieur à celui des variables attachées. Objectif? Eviter une attaque par reconstruction qui permettrait de « reconstituer » des individualités à partir de statistiques. En France, des délibérations de la CNIL illustrent la nécessité d’avoir un nombre minimal de personnes concernées à partir desquelles les statistiques sont établies (Délibération n° 2017-285 du 26 octobre 2017).

Surtout l’anonymat n’est que rarement définitif, en matière de données personnelles. Ainsi les autorités exigent-elles le maintien de mesure de sécurité, même en présence de données réputées anonymes.

Pour réduire le risque de réidentification, dans une délibération « Roche – La Paillasse » de 2016, la CNIL imposait la mise en place d’un engagement de chaque utilisateur des jeux de données anonymes de ne pas tenter de réidentifier les données. La mesure, désormais classique, prémunit contre une action volontaire.

Aussi la réévaluation périodique de la fiabilité du procédé d’anonymisation s’impose-t-elle, afin de détecter une possibilité de « re-personnalisation » des données (G29 – Lignes directrices wp216 Techniques d’anonymisation). En effet, les techniques et capacités de calcul évoluant tous les jours, l’anonymat établi le lundi n’est peut-être plus vrai le mercredi. Dans cette hypothèse, « producteur » et « utilisateur » du jeu de données se retrouveraient potentiellement en présence de données personnelles, auxquelles le RGPD s’applique. L’engagement d’un réutilisateur de ne pas tenter de réidentifier les personnes doit alors se doubler de celui de détruire toutes données susceptibles de « re personnalisation »

L’éviction du RGPD, du fait de l’anonymat des données considérées, constitue donc sinon une pure théorie, à tout le moins un parcours du combattant. Face aux conséquences sévères du non-respect du RGPD, est-il possible de se permettre d’ignorer les risques inhérents à une stratégie d’anonymisation inadéquate ?

En matière de recherche, secteur dans lequel la majorité des décisions citées ici est intervenue, la publication ou la mise à disposition ultérieure de données anonymes / agrégées doit être incluse dans le périmètre de l’analyse d’impact et, le cas échéant, cadrée dans une licence d’utilisation.

Vos pratiques actuelles en la matière prennent-elles en compte ces éléments et vous prémunissent-elles contre une application a posteriori du RGPD ? Avez-vous rencontré des défis particuliers ou mis en œuvre des stratégies réussies en matière d’anonymisation des données ?