Pour ce nouvel épisode de mes notes de lecture, que je vais tâcher de publier fort opportunément au moment du Safer Internet Day 2024, je fais la recension de deux ouvrages qui font figurer le Big Data dans leurs titres.

Néanmoins, si le sujet les rapproche, beaucoup de choses les éloignent dans la façon dont ils abordent la question, et c’est aussi ce qui m’a intéressée. C’est également leur approche du Big Data qui m’a rendu la tâche complexe pour en faire la synthèse.

Encore une fois, j’ai voulu me plonger dans des lectures présentes dans le fonds documentaire du CDI de mon établissement, et je n’ai pas forcément choisi les ouvrages que j’aurais moi-même commandé sur la question ou qui aurait forcément attiré mon attention de prime abord.

Dans cet épisode :

  1. un aperçu de ces deux ouvrages : Dans l’ombre de la peur : Le Big Data et nous et Petit dico critique du Big Data
  2. un panorama de la presse récente sur la question

Dans l’ombre de la peur : Le Big Data et nous, Michaël Keller et Josh Neufeld

Au moment où je commence l’écriture de cet article, ma lecture de cet ouvrage commence à dater, et j’ai un souvenir plus récent du second.

Par ailleurs, son format m’a donné l’idée de consacrer prochainement un cinquième épisode de notes de lecture à l’intelligence artificielle, un sujet qui ne cesse de me captiver cette année et qui retarde d’autant plus mes autres lectures professionnelles en projet, sur le numérique, les écrans ou encore sur le jeu.

Le format de cet ouvrage en rend la recension compliquée, puisqu’il s’agit d’une bande-dessinée publiée en 2017 aux éditions Ça et Là pour sa version française. En effet, il s’agit à l’origine d’une publication américaine datant de 2014.

Le traitement de la question du Big Data remonte ainsi à une dizaine d’années, mais en pose les jalons et revient sur certains éléments qu’il est intéressant de remettre en perspective aujourd’hui.

Le point de départ de cette bande-dessinée, qui aborde la question sous un angle états-unien, c’est une rencontre en 2004 entre les dirigeants de Google, l’ancien président Al Gore et une sénatrice américaine, Liz Figueroa pour parler de Gmail, et de la façon dont la messagerie proposait de la publicité ciblée en analysant les mots-clés présents dans les messages.

Cette sénatrice avait alors déposé un projet de loi exigeant que Google obtienne le consentement des utilisateurs avant d’appliquer toute analyse systémique des données, un projet qui finalement n’a pas été approuvé par le sénat de l’État de Californie.

Ce point de départ donne lieu à une analyse de la façon dont les données personnelles sont collectées dans les différentes applications numériques de la vie courante.

Il donne aussi un aperçu de l’accélération des technologies et de la façon dont les questions que l’on se pose ou que l’on a pu se poser sur cette collecte des données personnelles sont presque instantanément rendues obsolètes par le développement même de ces technologies.

Par exemple, au moment où ils posent la question de l’analyse des données cellulaires pour générer un bulletin du trafic routier, Google Maps opère déjà cette analyse, et leur offre comme perspective l’analyse quotidienne de la boîte noire d’un véhicule, les voitures autonomes, la question du traitement des données dans le domaine des assurances… enjeux que l’on retrouve au coeur des questionnements sur le Big Data en 2024.

Parmi les personnes interrogées sous le format BD par les deux auteurs, on retrouve danah boyd, autrice de C’est compliqué : la vie numérique des adolescents, publié en 2016, qui revient sur la façon dont les jeunes tentent de maîtriser les contenus postés sur les réseaux sociaux, ou encore Amanda Caswell, qui revient sur la façon dont les montres connectées récupèrent les données de santé de leurs utilisateurs.

L’épilogue de l’ouvrage « En voiture avec l’Uber économie » évoque le cas d’un chauffeur qui filme ses passagers, la façon dont usagers et employés d’un service se surveillent et se notent mutuellement, amenant un glissement vers les systèmes de crédit social chinois.

Je profite de ce glissement pour présenter ici le travail réalisé en EMC par deux élèves de seconde.

Timothée et Flavien se sont intéressés aux différentes formes de cyber-contrôle en Chine et ils ont utilisé le support ci-dessous (présenté ici avec leur autorisation à tous deux) pour illustrer leur exposé oral, qui était également de grande qualité.

Diapos issues de la présentation d’EMC de Flavien Amy et Timothée Cailleux (2nde13 – 2023/2024)

Exposé Timothée et Flavien cyber-sécurité

Mon avis sur l’ouvrage

L’ouvrage nous propose, avec un point de départ en 2004, une manière d’effectuer un arrêt sur image en 2014, que l’on peut remettre de notre côté en perspective en 2024, à l’heure où Google vient de fêter ses 25 ans, où Facebook souffle les bougies de son vingtième anniversaire et que Zuckerberg fait partie des dirigeants de réseaux sociaux interrogés par le Sénat américain, et que l’intelligence artificielle générative fait s’emballer différents domaines de publication en ligne.

Finalement, en feuilletant à nouveau cet ouvrage, j’y ai glané plus d’informations qu’à ma première lecture, que j’avais trouvé un peu plus récréative, puisque c’était la forme qui avait retenu mon attention et non le fond.


Petit dico critique du Big Data, sous la direction de Anaïs Theviot

Si le premier ouvrage me paraissait compliqué à résumer, ce n’est rien à côté du second, qui a été pour moi un véritable coup de cœur de lecture.

Il est rare pour moi de parler de « coup de cœur » pour une lecture scientifique et / ou professionnelle, mais c’est le cas pour cette dernière, au point que j’ai eu envie, ma lecture terminée, d’acheter le livre pour ma bibliothèque personnelle, après avoir accaparé pendant environ deux mois l’exemplaire du CDI…

Il faisait partie de ma commande de début d’année avec Data-Philosophie et un ouvrage sur Chat GPT dans lequel je me plongerai prochainement, et il s’agit d’une publication relativement récente, puisqu’il a été publié aux éditions Fyp en avril 2023.

Si j’ai eu du mal à décrocher de ce livre, c’est pour deux raisons.

La première, c’est parce qu’il propose un véritable travail de vulgarisation, sous la plume d’experts de la question : on y retrouve entre autres trois articles ou encarts écrits par Arnaud Mercier, l’article « Culture algorithmique » rédigé par Laurence Allard, l’article « Cyberharcèlement » rédigé par Sophie Jehel, ou encore le PageRank analysé par Guillaume Sire.

Bref, du beau monde, et les sources auxquelles ils renvoient invitent à prolonger le questionnement, comme l’article « Wikipédia » qui s’appuie sur l’ouvrage passionnant publié par Rémi Mathis en 2021.

La seconde, c’est la forme même de l’ouvrage, celle du dictionnaire, qui rend le propos à la fois transversal et très accessible au lecteur. Et c’est également cela qui le rend quasiment impossible à résumer, à moins de faire une liste des différents articles, ce qui ne serait pas très pertinent…

Si l’on se contente du sommaire, on peut voir que ce Petit Dico critique du Big Data aborde aussi bien les implications du Big Data dans des domaines aussi variés que l’administration, les assurances, la politique, le journalisme, l’environnement, la santé, les véhicules autonomes ou l’urbanisme.

Si je choisis d’utiliser cet article comme un classeur de marques-pages personnels, voici ce que je retiens :

  • l’article « Algorithme prédictif » de Baptiste Kotras qui revient sur la façon dont les algorithmes peuvent prédire nos comportements, et les biais et discriminations algorithmiques (avec un encart de rappel sur la notion de machine learning)
  • l’article « Big data électoral » d’Anaïs Theviot, qui m’a renvoyé à la lecture de précédente de Toxic Data, et qui propose ensuite un encart sur l’affaire Cambridge Analytica, de Camila Péres Lagos
  • l’article « Bulle de filtre » de Coralie Le Caroff et l’encart déjà mentionné sur le PageRank de Guillaume Sire
  • l’article « Cyberharcèlement » de Sophie Jehel qui en rappelle les différentes formes, ainsi que les mesures législatives pour lutter contre, et qui renvoie à la lecture de l’ouvrage de Bérengère Stassin publié en 2019
  • l’article « Data journalisme et soft journalism » de Erik Neveu qui revient sur les évolutions du métier de journalisme
  • les articles « Désinformation » de Lorella Sini, « Fact-checking » de Magali Prodhomme et « Fake news » d’Arnaud Mercier.

Ce dernier article revient sur la notion de fake news (auquel on préférera le terme « infox ») comme art de forger des informations pour tromper l’opinion publique par quatre voies : la numérisation, la plateformisation, la dissémination algorithmique et la ressemblance formelle avec les médias traditionnels pour en accroitre la crédibilité.

  • l’article « Données personnelles » d’Anne Bellon propose un rappel chronologique de la reconnaissance de la vie privée dans la loi (avec l’évolution des missions de la CNIL et l’adoption du RGPD)
  • l’article « Réseaux sociaux » de Frédéric Clavert qui fait lui aussi un rappel historique et revient sur la notion de bulle de filtre, avec un encart sur les GAFAM
  • l’article « Surveillance numérique » de Olivier Aïm avec un encart d’Arnaud Mercier sur Wikileaks
  • l’article « Web des émotions » de Camille Alloing et de Julien Pierre, et enfin l’article « Wikipédia » de Bernard Jacquemin

Mon avis sur l’ouvrage

Vous l’aurez compris, la lecture de cet ouvrage m’a complètement happée, et je le considère comme l’un des meilleurs que j’ai pu lire sur la question, et je pense qu’il s’agit d’une excellente porte d’entrée pour quelqu’un qui s’intéresserait à la question de l’utilisation des données numériques.

Je n’hésiterai pas à signaler ce livre aux élèves qui s’intéresseraient à ce domaine, que ce soit pour des recherches en EMC, en SNT ou dans le cadre de la préparation de leurs sujets de grand oral.

Vous l’aurez compris également, même si ce type d’ouvrage est irrémédiablement condamné par certains aspects à une certaine obsolescence, dans les applications qu’il donne en exemples, sa solidité théorique et son accessibilité font qu’il ne tardera pas à rejoindre ma bibliothèque personnelle.


Revue de presse

Concernant la revue de presse, j’ai retenu deux magazines abordant la question des données numériques selon deux approches différentes : le numéro d’Epsiloon de mai 2022 avec un article “Data, elles parlent” de Muriel Valin, et le numéro de Questions internationales de septembre 2021 consacré aux GAFAM. 

Questions internationales n°109, septembre-octobre 2021

Pour ce dernier, le dossier couvre près de 80 pages et propose 10 articles signés par différents experts. 

Parmi eux, l’article “Une géopolitique des GAFAM” de Laurent Carroué revient sur le berceau de ces big tech : la Silicon Valley, et sur la façon dont elles participent au hard power et soft power des États-Unis, finissant par concurrencer les puissances étatiques. 

Laurent Carroué revient sur le rôle des GAFAM dans la circulation de l’information mais aussi dans la diffusion des différentes formes de désinformation (deepfakes, thèses complotistes) à des fins politiques, posant régulièrement la question de leur régulation. 

Se pose également la question du stockage des données et de leur sécurisation, pour contrer la dépendance à ces géants du numérique. 

En deuxième lieu, j’ai retenu un encart de Maud Quessard dans ce même numéro : “L’administration américaine et les GAFAM : de la confiance à la défiance”, avec une photo qui a particulièrement retenu mon attention, puisqu’on y voit Mark Zuckerberg auditionné (déjà) en 2018 par le Congrès des États-Unis. 

L’encart montre l’ambivalence des États-Unis : lutter contre leur monopole tout en bénéficiant de leur rôle de moteur de croissance économique. Il revient également sur les ingérences étrangères et les manipulations de l’information dans le cadre des campagnes électorales en particulier sur Facebook et Twitter, ce qui a donné lieu à cette audition de Zuckerberg par le Congrès après le scandale Cambridge Analytica. 

Entre 2021 et 2022, les réseaux sociaux ont tenté de restaurer leur image, avant que Twitter ne soit racheté par Elon Musk et avant qu’en janvier 2024, Mark Zuckerberg soit de nouveau auditionné cette fois par le Sénat américain, avec d’autres dirigeants de réseaux sociaux, pour n’avoir pas suffisamment protégé les usagers les plus jeunes contre les risques d’exploitation sexuelle et de suicide. 

Enfin, le dernier article à retenir mon attention dans ce dossier est celui d’Anne Perrot, “Plateformes numériques, régulation et droit de la concurrence”, qui revient sur leur position dominante et sur les problématiques qu’elles posent en matière d’utilisation des données personnelles. 

Pour la France, Google détient en 2021 90% de part de marché dans le secteur des moteurs de recherche, et Facebook 70% dans celui des réseaux sociaux. Les données collectées sont monétisées via la publicité ciblée. 

L’article pointe la nécessité de réguler ces plateformes, avec l’élaboration fin 2020 de deux projets de réglements par la Commission européenne : le Digital Service Act pour les contenus et le Digital Markets Act pour essayer de limiter les situations de monopole. 

Valin, Muriel. Data : elles parlent. Epsiloon n°011, 05/2022, p.70-77

Cet article revient de manière très illustrée sur le macroscope, un outil scientifique proposé et présenté par David Chavalarias dans Toxic Data, qui faisait l’objet de mes précédentes notes de lecture sur les données numériques. 

L’article rappelle qu’en une seule minute sur Internet, 5.7 millions de requêtes sont lancées sur Google, 167 millions de vidéos sont regardées sur TikTok et 575000 tweets postés. 

David Chavalarias remet l’immensité des données collectées dans une perspective historique en rappelant que D’Alembert en 1751 rêvait déjà d’un arbre généalogique de la connaissance, rendu aujourd’hui possible avec les progrès de l’algorithmie. 

L’article propose différents exemples du macroscope : la représentation visuelle des publications scientifiques, des communautés climatosceptiques ou encore des échanges sur Twitter entre pro-vaccins et anti-vaccins durant la pandémie de Covid-19. 


Ressources complémentaires

  • Les infographies Data never sleepsavec ce qui se produit sur Internet en une minute