De l'exploitation des données massives: Arbitrage entre autonomie individuelle et intérêt général - Concepts, éthique, pratique

This is placeholder text. To change this content, double-click on the element and click Change Content.

DE L'EXIGENCE D'UN ARBITRAGE

S'il est vrai que la gouvernance algorithmique contribue d'une individuation incrémentale qui porte préjudice au droit à l'autodétermination informationnelle et à la subjectivation, il ne faut pas y voir pour autant l'objectif d'une stratégie implicite de surveillance ou de contrôle. Il est généralement tentant d'appliquer des métaphores foucaldiennes ou orwelliennes lorsque confronté aux dispositifs numériques qui se déploient dans les institutions, organisations, dans le monde vécu. Ces métaphores sont intuitivement fascinantes. Mais sont-elles fondées ?
Il apparaît que la puissante diffusion de la gouvernance algorithmique tient plutôt du développement du "capitalisme numérique" [1] que d'une stratégie homogène centralisée définie a priori. Ainsi, nous constaterions plutôt l'apparition de "formes de pouvoirs qui ne sont plus assumés par aucune autorité concrète [...] des formes de pouvoirs sans autorités identifiées comme autorités, c'est l'inverse de Big brother". Si la question de la vie privée, de la responsabilité, de la transparence des décisions, de l'anonymisation, de la performativité, etc. sont si prégnantes au sein de la critique, c'est parce que le modèle économique qui sous-tend la gouvernance algorithmique ne les intègre pas dans sa dynamique évolutive. La grammaire du progrès technologique dans une économie capitaliste concentre plutôt son attention sur l'innovation comme idéal régulateur. L'intelligence artificielle présente un potentiel novateur impressionnant, tant empiriquement que spéculativement, pouvant déboucher tant sur des bénéfices réels et observables, que sur des optimisations plus frivoles [2]. Le deep learning et le développement de réseaux de neurones, par exemple, peuvent significativement améliorer la détection de cancers difficilement observable à l'œil nu [2].

Philosophiquement et historiquement, la tension entre intérêt individuel et bien être collectif est un thème bien connu. Les enjeux de son incarnation particulière sous la gouvernance algorithmique ne sont pas ignorés, notamment - par exemple - dans le domaine de la sécurité ou de la confidentialité. Ainsi, une pluralité d'acteurs développe et met en place des outils ou principe d'usage qui, supposément, permettrait de réinstaurer justice, équité et confiance dans l'utilisation de ce qui semble, somme toute, être une "boîte noire technologique" : les algorithmes et les données massives.

DE LA PRÉVENTION DES BIAIS ALGORITHMIQUES ET DE LA REPRODUCTION DES INÉGALITÉS

Nous avons formulé - plus haut dans le texte - l'hypothèse simplificatrice selon laquelle l'intérêt (estimé) de l'exploitation des données massives git en ce qu'elles servent - grosso modo - de miroir numérique du réel. La puissance de calcul, les opportunités de développement économique, la précision accrue, etc. gravitent autour de l'énoncé suivant : "les données massives amincissent encore plus l'écart avec la compréhension total du réel". La gouvernance algorithmique permettrait de passer de la décision par la délibération et la norme, vers la décision par les faits, "data-driven". Ainsi, cela signifie entre autres l'automatisation de la formation et de la reproduction de phénomènes sociaux (partiels ou systémiques) au fur et à mesure de la croissance de l'infrastructure numérique, tout en évacuant la subjectivité de l'ensemble des sphères de la pratique sociale. Cependant, cette perspective sociotechnique ne peut faire l'économie de 2 problèmes qui se sont imposés à la réflexion : Les biais algorithmiques d'une part, et -en corollaire - la reproduction automatique des inégalités d'autres part. La neutralisation de ces biais fait donc partie des problèmes à résoudre en faveur d'un arbitrage juste et efficient. Respectivement, les biais algorithmiques sont des biais à l'agrégation/formation mais surtout à l'exploitation des données massives. Plus particulièrement, il s'agit de schémas biaisés intégrés dans les stock de données ou dans la configuration des canaux de flux de données. Les algorithmes auto-apprenant ensuite testés et entraînés sur ces données reproduisent alors ces schémas. En outre, il s'agit également de biais - ou d'hypothèses biaisées - que l'ingénieur instillera lors de la construction de son algorithme - par exemple, s'il s'agit de modéliser un objet s'offrant généralement au sens commun. Nous parlons de biais (ou discrimination) implicite ou explicite [3]. Le champ juridique offre des cas de figures type supportant la nécessité de contrôler ces biais. La prise de décision et l'application juste et équitable étant fondamentales au sein de ce champ, il est donc nécessaire de mettre à profit toutes les ressources permettant de minimiser la marge d'erreur pour chaque décision. C'est ici que l'algorithmie intervient. Comment déterminer la propension à la récidive avant de décider la liberté conditionnelle d'un individu ? L'actualité récente, par exemple, a communiqué que, dans cette espace délimité du champ juridique, les algorithmes surclassent les décisions humaines: ": "Computer algorithms predict whether criminals will offend again more accurately than humans, according to a study that US researchers say has “far-reaching implications for criminal justice" [4]. Mais la gouvernance algorithmique a cette spécificité de renverser la connaissance par la causalité à la connaissance par corrélation (Esposito, 2013), nous renseignant donc sur l'aboutissement de la formation d'un phénomène et la forme qu'il prend au fur et à mesure de son actualisation. Néanmoins, cela ne nous dit rien sur les causes, les racines de ce phénomène. C'est ici que le biais algorithmique s'immisce : Dans l'étiquetage que constitue l'évaluation du risque, étiquetage qui renforce le processus d'individuation tout en en dépossédant plus encore le sujet. C'est ainsi que dans un système juridique (tel celui des USA), la surreprésentation d'une catégorie de la population dans l'engrenage fausse la décision algorithmique : "it is challenging to develop a score that does not include items that can be correlated with race, such as poverty, joblessness, and social marginalization, since such negative traits that may indicate a propensity for criminal activity are correlated with race" [3]. C'est dans ces associations biaisées que s'effectuent des calculs dont le résultat discrimine. Alors, reprenons le cas de l'usage de réseaux de neurones utilisés pour détecter les cellules cancéreuses encore invisibles à l'œil nu. Cet exemple incarne l'idée que l'apprentissage profond permet de détecter les singularités qui nous échappent. Il s'agit la d'une technologie de reconnaissance visuelle qui dispose d'un vaste catalogue de champs d'application. Un de ces champs est la reconnaissance faciale, intégré dans des systèmes de sécurité, ou encore permettant l'interaction avec des systèmes robotisés. Sa performance dépend de la diversité et de la représentativité des données sur lesquelles elle a été entraîné. Cela signifie que l'intégration d'un tel dispositif numérique doit passer l'audit de sa fiabilité et de la neutralisation des biais qu'elle perpétue, avant d'être diffuser dans l'espace public. Un algorithme entraîné sur un ensemble d'image montrant majoritairement des individus caucasiens ne pourra pas reconnaître un sujet ayant un phénotype sensiblement différent. Outre la violation de principes éthiques d'égalité et de non-discrimination, la diffusion de cette technologie décisionnelle présente un danger réel, par exemple et pour des raisons évidentes, lorsqu'intégré dans des voitures sans conducteurs ou autres objets automatiques connectés. Ce type de problème se décline selon d'autres normes de discrimination également. Plus récemment, c'est le département services financiers de l'entreprise Apple qui s'est retrouvé sous les tirs croisés de la critique. En effet, il est rapidement apparu que leurs services de crédit accordaient des marges supérieurs aux hommes qu'aux femmes [5]. C'est dans la mesure ou les biais algorithmique contribuent à la reproduction des inégalités sociales qu'ils doivent être contrôlés. Cependant, c'est également dans la mesure ou l'apprentissage profond permet à l'algorithme de se départir de l'orientation par l'humain que cet audit, ce contrôle, est un défi technique et juridique primordiale. Prévenir les biais algorithmiques, c'est prévenir l'étiquetage et la dépossession des individus de leur droit à l'autodétermination informationnelle. Pour paraphraser Antoinette Rouvroy, "tenter d'objectiver ou en tout cas de nommer les biais, c'est quelque chose d'assez important si l'on veut pouvoir opérer une critique, ou une contestabilité, ou une supervision des processus algorithmiques" [6].

DE LA CONFIDENTIALITÉ DIFFÉRENTIELLE COMME TECHNIQUE D'ANONYMISATION DES DONNÉES

Le RGPD est l'instrument juridique encadrant la manipulation des données personnelles. Si besoin, cet instrument peut être invoqué en justice afin de préserver - grosso modo - la souveraineté du sujet quant à l'exploitation de ses données. Cependant, s'il peut, théoriquement, prévenir et interrompre le processus d'individuation numérique, la réalité observée dépeint un paysage plus complexe. Effectuons un pas de côté anecdotique afin de supporter cet énoncé. Le 15.02.2020 se tenait, au Columbia Global Center de Paris, une conférence tenue par Bernard Harcourt à l'occasion de la sortie de son ouvrage "La société d'exposition". Grosso modo, il y décrit comment l'émission incontrôlée mais tendanciellement volontaire, par les utilisateurs, de "phéromones numériques" [7] qu'ils laissent sur leur passage, contribue à la formation d'un nouveau dispositif de pouvoir, soit des formes de pouvoir sans autorité identifiée comme telle en tant qu'autorité. À ma question "Quelle puissance accordez-vous au RGPD en tant que contre-pouvoir efficace à ce dispositif émergent?", Bernard Harcourt objectait que l'état de diffusion des TIC rendait concrètement impossible l'isolation digitale. Le RGPD permet de le faire, certes, mais au delà de l'idéologie politique, la gouvernance algorithmique incarne une idéologie technique que le RGPD ne peut réguler dans l'implémentation même. À l'idéologie technique, il faut répondre par un dispositif de régulation technique - et pas seulement juridique. C'est ce que la confidentialité différentielle permet, en ce qu'elle est une "définition robuste, significative et mathématiquement rigoureuse de la confidentialité, tout en pouvant s'appliquer sur une série d'algorithmes riches en étapes de calculs diversifiés" [8]. La confidentialité différentielle est une manipulation statistique. C'est une manipulation statistique qui "décrit une promesse, faite par le détenteur des données, au sujet individuel qui est concerné : Vous ne serez aucunement affecté, défavorablement ou d'une quelconque autre façon, si vous acceptez que vos données soit largement disponible dans quelque étude ou analyse que ce soit, peut importe les autres études, jeux de données ou sources d'informations disponibles (i.e. croisables, donc) [8]. Dans le cadre de notre raisonnement, nous émettons l'argument que la confidentialité est considéré comme étant l'espace au sein duquel l'autodétermination informationnelle s'effectue sans contrainte. Sans entrer dans les détails techniques des descriptions statistiques, spécifions simplement que ce dispositif instaure un bruit dans l'analyse, soit un remaniement aléatoire de certaines données au niveau granulaire. La granularité désigne le plus petit élément d'un système. Le niveau granulaire, c'est le niveau du plus petit fragment d'information indivisible dans un ensemble de données (adresse mail, genre, sexe, etc.). Ce remaniement est incarné par un coefficient différentiel qui va se placer dans le calcul algorithmique. Basiquement, plus ce coefficient est élevé, plus les données sont différenciées, conservant l'exploitabilité des données massives tout en minimisant la probabilité d'identifier un individu singulier : "La confidentialité différentielle aborde le paradoxe de ne rien apprendre sur l'individu tout en apprenant des informations précieuses sur la population [8]. La confidentialité différentielle est donc un concept taillé sur mesure, garantissant la fongibilité, l'interchangeabilité 2 à 2 des sujets qui composent les données massives tout en garantissant que les conclusions obtenues par l'analyse algorithmique seraient les mêmes indépendamment de la présence ou non de l'individu singulier dans les données [8]. Pour bien comprendre le principe de la confidentialité différentielle, il faut également le distinguer de ce qu'il n'est pas. Il ne s'agit pas d'un processus d'anonymisation standard. L'anonymisation requiert un niveau de confiance envers les détenteurs de données qui n'est malheureusement pas acquis. En effet, qui la garantit ? En outre, "même si des identifiants directs comme les noms, adresses ou numéros de sécurité sociale ont été retiré, l'entité adverse peut utiliser des connaissances contextuelles, ou procéder à des croisements successifs avec des données publiques, afin de désanonymiser des données individuelles" [9]. L'expérience emblématique en la matière est la réidentification, dans les années 1990, du Gouverneur William Weld du Massachusetts [10]. Sur base de données de santé officiellement publiées, Weld avait pu être facilement identifié en les croisant avec les données électorales de la circonscription [10]. La question corollaire est donc : Pourquoi ne pas avoir suivi la logique de la confidentialité différentiel plus tôt ? Cela est dû à un fait statistique de base : La confidentialité différentielle ne peut s'appliquer qu'à de grandes quantités de données. Il existe une relation inverse entre confidentialité et précision [8]. En outre, sur la décennie qui vient de s'écouler, la collecte et l'exploitation des données a connu une croissance géométrique : "90pourcent des données circulant sur internent furent créées il y a moins de 3ans [11]. Nonobstant ce fait, la confidentialité différentielle est une notion qui a d'ores et déjà fait ses preuves. Le géant controversé Amazon, par exemple, s'est réapproprié le principe afin - explicitement - d'en tirer parti en vu "d'accéder à de vastes répertoire de données permettant d'entraîner différents modèles d'apprentissage machine, favorisant la mise en place de décisions data-driven [12]. La relation inverse entre précision/utilité des données et respect de la vie privé et de l'éthique [13], ainsi que la réidentification aisée des données anonymisées, a sapé la foi du régulateur des techniques classiques en la matière [14]. L'écart de performance entre l'anonymisation simple et l'application de mécanismes de confidentialité différentielle est à la mesure de l'erreur effectué par le régulateur en matière de gouvernance algorithmique. Si des améliorations s'annoncent dès lors à l'aune de ce constat, celui-ci a surtout "provoqué un raz-de-marée dans la loi et la doctrine juridique car quasi-toutes les normes en matière de droit de l'information sont fondées sur l'anonymisation [...] tant aux USA qu'en Europe [...] le régulateur doit réexaminer chaque loi du droit à la vie privée, s'interrogeant sur l'impact de la soudaine fragilité de l'anonymisation par rapport à ses intentions originelles. Cela transforme également radicalement le paysage du débat public qui se concentre sur des concepts désormais désuets comme les "informations personnelles identifiables", que les parties adverses peuvent désormais contourner" [14].

L'erreur de jugement concernant la judiciarisation de l'anonymisation des données est une épreuve ardue qui démontre l'éminente nécessité des approches sociotechniques et interdisciplinaires, depuis l'éthique jusqu'à la compréhension profonde des mécanismes techniques, si l'objectif est de réintroduire de l'intelligibilité dans les phénomènes sociaux, et de saisir les logiques et controverses qui les animent. L'analyse sociologique, dans sa vocation critique, pragmatique et opératoire, ne peut faire l'économie de cette réflexion.

BIBLIOGRAPHIE

[1] Broca, S.(2015). Les deux critiques du capitalisme numérique.

[2] Bouchez, P. (2019). Why artificial intelligence matters ? European parliamentary research service.

[3] Kirkpatrick, K. (2016). Battling algorithmic bias. Communication of the ACM. Vol.59, no.10.

[4] Financial Times.(2020).Computer algorithms beat humans at predicting reoffending rates.

[5] Washington Post.(2019). Apple Card algorithm sparks gender bias allegations against Goldman Sachs.

[6] Le Mouton Numérique. (2018). Rencontre avec Antoinette Rouvroy : gouvernementalité algorithmique et idéologie des big data. Youtube.

[7] École Normale Supérieure.(2016). La Gouvernementalité algorithmique ou l'art de ne pas changer le monde. Youtube.

[8] Dwork, C., Roth, A. (2013). The algortihmic foundations of differential privacy. Foundations and trends in theoretical computer science, Vol.9, nos.3-4, pp. 211-407.

[9] Narayanan, A., Shmatikov, V.(2006). How To Break Anonymity of the Netflix Prize Dataset.

[10] Anderson, N.(2009). "Anonymized” data really isn’t—and here’s why not. Arstechnica.

[11] Rocher, L.(2019). Données anonymes... bien trop faciles à identifier. La Libre Belgique.

[12] Feyisetan, O., Diethe, T., Drake, T. (2019). Leveraging hierarchical representation for preserving privacy and utility in text. Amazon science.

[13] Kinni, T.(2020). The algorithmic trade-off between accuracy and ethics. Strategy+Business.

[14] Ohm, P. (2009). Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization. UCLA Law Review, Vol. 57, p. 1701, 2010; U of Colorado Law Legal Studies Research Paper No. 9-12.