DONNEES, DO-DO DONNEES, DONNEES, DONNEES ET MOI

La société de l’information ne se limite pas à Facebook, Twitter ou Airbnb. Elle génère une avalanche de données qui doivent être traitées de façon méthodique. Les algorithmes, qui sont une suite d’opérations permettant de les ordonner et de produire des résultats, sont les divinités de l’époque et les analystes de données leurs prêtres. Pour le meilleur et pour le pire.

données

Dans un livre militant où elle évoque la menace d’Armes de Destruction Mathématique (ADM), Cathy O’Neil commence par distinguer deux catégories d’algorithmes. Il y a ceux qui sont confrontés en permanence à l’épreuve des faits et, grâce à un processus de correction et d’erreurs, tendent à améliorer la qualité de la modélisation. La démarche d’une entreprise comme Amazon relève de cette logique. Imaginons que, sur la base d’achats antérieurs, elle formule l’hypothèse saugrenue que les consommateurs dont le nom commence par la lettre « D » pourraient être spécialement intéressés par de la musique classique. Elle cible alors sa campagne sur les Dupont et Dupond mais observe évidemment que les achats des CD de Mozart n’augmentent pas. Des modifications vont être apportées au modèle pour mieux cerner les prospects susceptibles d’être attirés par le produit. Les clics et les achats valideront, permettant d’affiner l’algorithme. Le niveau d’étude ou le type de produits consommés habituellement par l’individu constituent certainement de meilleures pistes que le nom de famille.
L’autre catégorie d’algorithmes se démarque par le fait qu’une véritable remise en cause y est impossible. Le problème est que des biais se produisent, rendant l’espoir de correction vain. On parle de processus d’« auto-renforcement ». Les logiciels de prédiction criminelle en sont  une belle incarnation. Une exploration des données historiques permet de localiser à quels endroits des comportements illégaux sont à même de survenir. Les forces de police peuvent quadriller le territoire en conséquence. Le recours à un de ces outils, PredPol, a provoqué une baisse des cambriolages de 23 % dans la ville de Reading. Tant mieux mais le souci est d’un autre ordre. Les zones désignées par les logiciels sont souvent économiquement pauvres. Non seulement des crimes graves s’y déroulent mais aussi des délits mineurs. La présence policière conduit à arrêter davantage de petits délinquants et à alimenter la base de données. L’évolution des statistiques se traduit par l’envoi d’un nombre plus élevé encore de représentants de loi dans les coins mal famés. La distorsion est criante : le risque est que plus aucun policier n’arpente les beaux quartiers et que les petits trafics n’y soient plus recensés…

Les deux cas de figure ont pour objet une problématique similaire, l’identification de la récidive. Chez Amazon, elle est souhaitable. Qu’un acheteur passe une nouvelle fois à la caisse et le cours de l’action de l’entreprise prendra des couleurs. Inversement, PredPol s’applique à la déjouer. Si les voyous sont empêchés de commettre des délits, la société s’en portera bien mieux. Les algorithmes ne se contentent pas de repérer les éléments dignes d’attention. Ils remplissent d’autres fonctions éminemment utiles comme celle d’effectuer du tri parmi un océan de données. De plus en plus de procédures d’embauche s’appuient sur des algorithmes. A priori, ils devraient être plus objectifs que des recruteurs pétris de préjugés. Hélas… Pour la sélection des CV, les « scanners » n’aiment pas les polices de caractère trop poétiques ou les symboles comme les flèches. En revanche, envoyer sa candidature avec une police comme Arial et sans photographie maximise les chances de séduire un lecteur automatique. La phase des tests de personnalité n’est guère plus scientifique. Leur unique mérite est dedonnées faire prospérer les entreprises qui les vendent et leurs gourous. Ils reposent en effet sur des fondements psychologiques qui confinent parfois au grotesque. Plusieurs études démontrent que ces tests sont de mauvais prédicteurs de la performance du salarié.

La tentation d’exploiter toute la puissance de calcul permise par le savoir humain est forte mais le mieux est parfois l’ennemi du bien. Aux Etats-Unis, l’algorithme FICO avait pour mission d’assister les banques en évaluant le risque de défaut des clients des banques. Fondé sur le niveau d’endettement et le bon acquittement des factures, il appartenait à la première catégorie d’algorithmes. Il était efficace et transparent. Aujourd’hui, des sociétés mobilisant des bataillons d’analystes proposent des outils beaucoup plus sophistiqués pour mesurer la solvabilité d’un emprunteur virtuel. Leurs e-scores intègrent en sus des données comme les achats en lignes, la localisation de l’ordinateur sans oublier l’âge du capitaine. Ils sont totalement opaques, sans boucle de rétroaction. Leur pertinence est surtout théorique. Ces ADM sont dramatiques dans le sens où ils aggravent les inégalités. Une personne vivant dans un quartier défavorisé se verra automatiquement accorder un taux d’intérêt plus élevé qu’une autre domiciliée dans un environnement plus chic. En fait, ces algorithmes formalisent un état des lieux. Tout se passe comme si la situation passée devait être transposée dans le futur. Les universités occidentales qui utilisent de tels algorithmes recrutent peu d’étudiants colorés.

Outre ces aspects dérangeants, les ADM pèchent par leur imprécision. Environ 5 à 10 % des données sont estimées être inexactes – ayons une pensée pour leurs victimes – d’autant plus que c’est peut-être même pire, puisqu’il arrive que les individus fournissent délibérément de fausses informations. On a observé, toujours aux Etats-Unis, que des enseignants dont l’emploi était en jeu n’hésitaient pas à tricher. Ils rectifiaient les réponses de leurs élèves lors du test final dans l’intention de laisser croire que ceux-ci avaient acquis un certain niveau pendant l’année scolaire. Grâce à cette manipulation, l’administration considérait qu’ils étaient de bons enseignants et ils conservaient leur poste. Toute la chaîne se retrouvait perturbée par contrecoup puisque les enseignants récupérant la classe l’année suivante faisaient face à une difficulté quasi insurmontable : faire progresser des élèves dont le niveau était surévalué par le système. Evidemment, il leur restait la possibilité de tricher eux-mêmes… mettant leurs collègues de l’année suivante dans l’embarras. A qui se fier de nos jours messieurs dames ? Pas toujours aux données ou aux enseignants, c’est sûr…

Conseils de lecture :

Mattelart Armand, Histoire de la société de l’information, La Découverte, Paris, 2018.
O’Neil Cathy, Algorithme. La bombe à retardements, Les Arènes, Paris, 2018.