Un papier en colère

Ecrit le , 6 minutes de bouquinage

Un avis un peu chaud
L'article que vous êtes peut-être sur le point de lire continent des éléments qui sont au dela inacceptable pour moi.

C'est aussi un peu salé. La plupart de ce que j'ai écrit dans cet article est mon avis sur le sujet. Si vous êtes d'accord, bien. Si vous n'êtes pas d'accord, bien. Mais ne venez pas me crier dessus en prétendant avoir la connaissance ultime.

Le contexte

Une recherche écrite par des étudiant·e·s de l'université de Milan et publié par l'AAAI dans leurs PV de conférence a beaucoup explosé sur Mastodon. En lisant les réponses dans le pouet avisant l'existance du papier de recherche, j'ai été un peu énervé à propos de l'utilisation de mes données sans mon consentement et quelques négligences sur lesdites données.

Le papier nommé "Mastodon Content Warnings: Inappropriate Contents in a Microblogging Platform" (Avertissement de contenu sur Mastodon: contenus inappropriés sur une plateforme de microblogiging) qui, en gros, explique comment ils ont collecté environ 6M de pouets et entraîné une AI pour classifier les pouets comme étant "appropriés" et "inappropriés". En somme, faire un outil qui permet de classer les contenus des gens automatiquement comme Facebook et autres.

Avec quelques gaphiques ici et là et d'autres trucs. Si vous souhaitez lire le papier de recherche, vous êtes libre même s'il y a des éléments sur lesquels je reste sceptique ou je suis en désaccord plus ou moins complet.

La partie intéressante

Maintenant, la partie intéressante où je vais exprimer mon opinion sur le sujet. Dans les réponses exposant le papier, il y a une liste des instances "grattée" (to scrape en Anglais). Dans la liste, j'ai pu trouver l'instance où réside mon compte principal.

Informations identifiantes

En examinant les précédents (maintenant inaccessibles) pouets grattés sans mon consentement (plus en dessous), j'ai trouvé mes pouets avec une commande très simple: grep 'users/l4p1n' timeline_*.jsonl | less. Au total, j'ai pu trouver 2010 pouets dont je suis l'auteur avec cat timeline_*.jsonl | jq .uri | grep 'users/l4p1n'. Le problème est que les étudiant·e·s ont écrit, dans leur papier de recherche (traduction libre avec Deepl):

Comme l'utilisateur de Mastodon peut ne pas savoir que ses données sont publiques et réutilisables à des fins de recherche, nous avons éliminé les informations sur les utilisateurs et nous les avons rendues totalement [emphase ajoutée] anonymes en hachant l'identifiant de l'utilisateur de Mastodon

Je viens de trouver quelques informations identifiants sur moi: mon nom d'utilisateur, l'URI directe du pouet, le contenu, quand le pouet a été envoyé et tout ce que l'API de Mastodon crache quand elle est requêtée dans leur dataset de timeline précédement publié. Le tout sans mon accord, donc potentiellement en violation avec le RGPD. Pour illustrer, c'est le genre d'information trouvée dans les gigaoctets de données JSON (enjolivées visuellement):

{
    "id": "1[REDACTED]",
    "created_at": "2018-06-00T00:00:00.000Z",
    "sensitive": false,
    "spoiler_text": "",
    "language": "fr",
    "uri": "https://miaou.drycat.fr/users/l4p1n/statuses/1[REDACTED]",
    "instance": "miaou.drycat.fr",
    "content": "<p>[REDACTED]</p>",
    "account_id": "000",
    "tag_list": [],
    "media_attachments": [],
    "emojis": [],
    "mentions": []
}

Il y a des données avant la date d'application du RGPD donc je n'ai aucune idée si la violation est prise en compte ou pas.

Pire encore, en relisant le papier (plus ou moins correctement) plus tard, je repère un screenshot d'une réponse de l'API de Mastodon avec... l'URI du pouet... insérer des bruits de criquets... criquets intensifies... Bon d'accord, l'Afrique ne fait peut-être pas (encore) partie de l'Europe, mais quand même !

Consentement / Est-ce que l'on m'a demandé la permission de traiter mes données à leurs fins ?

Réponse: Non, je n'ai pas accordé mon consentement explicite. Ils ont peut-être respecté le fichier robots.txt de chaque instance comme les auteurs le disent:

[...] nous avons également respecté les limitations imposées par le fichier robots.txt des différentes instances.

Sauf qu'il n'y a pas qu'un fichier robots.txt à respecter. Dans l'entête du document HTML (<head>), il y a un autre tag à prêter attention. Devinez lequel ? Le tag <meta>. Un tag spécial qui était et est toujours dans l'entête de page de mon profil Mastodon.

<meta content='noindex, noarchive' name='robots'>

Non seulement je suis hors de moi qu'ils aient piqué mes infos ci et là pour une étude et sans mon autorisation et ont laissé les informations identifiantes. Par négligence ? Je laisse au lecteur se faire un avis là dessus.

Après un petit tour sur la documentation de l'API et une petite interrogation, il n'y a pas tellement de données sur si on refuse l'indexation ou pas. Est-ce que je peux le faire la remarque sur la balise meta ? Peut-être. Ça ne changera pas qu'ils ne m'ont pas demandé la permission d'utiliser mes données pour leurs recherches.

"Ouais mais les pouets dont tu parles sont publiques"

Et alors ? Un pouet publique et disponible à la lecture de quiconque est intéressé de le voir n'est en aucun cas un consentement implicite d'exploitation pour un recherche, de mon point de vue, sauf pour le but dont il a été écrit: leur visualisation. Rien d'autre. Je pourrais dire exactement la même chose si tu reçois des spams de companies douteuses. Tu as laissé ton adresse mail quelque part, c'est publique et les gens font ce qu'ils veulent avec même si ton adresse mail fait partie de tes données.

Et encore d'autres problèmes

Il y a certainement d'autres problèmes que je n'ai pas abordés telles que les considérations éthiques, violations de termes de service (scholar.social est explicite à propos de la récolte de données à des fins de recherche), problèmes de copyright potentiels. Mais voici un résumé de ce que j'ai abordé, càd pas grand chose ou presque:

  • Probable, ne serait-ce pas certaine, violation du RGPD;
    • Défaut de désidentification correcte des données;
    • Absence de consentement.

Il y a aussi une lettre ouverte (lien vers le pouet mentionnant la lettre) en finalisation à la suite de la publication de ce papier de recherche.