De quoi le Big data est-il (vraiment) le nom ?

« Big data », c’est un peu comme « intelligence artificielle », « disruption », « blockchain » ou encore « personnalisation de l’expérience usager », tout le monde en parle, l’utilise un peu n’importe comment mais peu de gens savent réellement de quoi il retourne.

giphy.gif
Tentative audacieuse (ou inconsciente) de croiser les termes susmentionnés dans la barre de recherche Google

C’est quoi une donnée ?

Avant de s’attaquer à la question qui nous intéresse aujourd’hui, laissons à Serge Abiteboul la définition de ce qu’est une donnée, l’élément de base du Big data :

Une donnée est une description élémentaire, typiquement numérique pour nous, d’une réalité. C’est par exemple une observation ou une mesure.

DataTNG
Data mince

On pourrait ajouter avec Raphaëlle Lapôtre – qui reprend les mots de Lynda Kellam et Katharin Peter – qu’il s’agit de « toute information structurée d’une manière reconnaissable ». Néanmoins avec le Big data se pose aussi la question de la structure de la donnée, mais trêve de discussion, plongeons dans le monde merveilleux des grosses données.

Picsouargent
Image rare d’un data broker en plein travail

Les 3V, les 5V, les 7V, les 11V du Big Data  

La première définition que l’on pourrait donner du Big data est celle de Wikipédia. Elle repose sur les fameux 3V : volume, vélocité et variété. Pour faire simple, le Big data se caractériserait par sa masse, sa vitesse de production et sa structure ou sa non-structure. En effet, désormais, la majeure partie des actions que nous faisons sur le web sont considérées comme des données et participent de la constitution du Big data.

Puis vinrent les nains et les hommes qui voulurent aussi des V. Arrivèrent alors la valeur, la véracité validité puis la variabilité (le caractère changeant de la donnée si vous préférez), la visualisation, la visibilité, la valorisation, la viralité et même la viscosité… Bref tous les qualificatifs commençant par la lettre V semblaient utiles pour expliquer ce bien étrange terme que les québécois nomment mégadonnées.

Il apparaît donc que chercher à qualifier le Big data par un changement de taille des données ne permet qu’une définition partielle puisque centrée sur le « produit ».  Cette perspective n’offre alors que la possibilité de qualifier le Big data par ce qu’il implique : de nouveaux outils de gestion et d’analyse.

De l’art de lire dans les lignes de données

D’aucuns comme Pierre Delort préfèrent voir dans le Big data une méthode permettant de repérer des phénomènes de corrélations via les « signaux faibles » issus d’une accumulation de données. Il explique :

(…) le Big data consiste à chercher des modèles dans les données à faible densité en information, à en extraire des faits nouveaux ou de nouvelles relations entre les faits.

Autrement dit, le Big Data consiste à créer en exploratoire et par induction sur des masses de données à faible densité en information des modèles à capacités prédictives. Les résultats de ces modèles à capacité prédictive peuvent être exploités soit de manière automatique, soit pour décision.

C’est donc la procédure – soit l’accumulation, le croisement et le raisonnement par induction – permettant d’établir des règles prédictives à partir d’un gros tas de données bordéliques, que l’on peut qualifier de Big data.

Sortez moi de ces datas !

AccIT-7537238368_a0bf8fa717

Enfin, une dernière approche consiste à définir le Big data comme un excès informationnel qui a permis l’émergence d’une nouvelle méthode d’analyse dans la recherche en sciences humaines. Certains de ces chercheurs définissent dès lors le Big data en ces termes :

Big data for literature scholars might mean a hundred novels (“the great unread”), for historians it might mean an entire array of 19th century shipping rosters, and for archaeologists it might mean every bit of data generated by several seasons of field survey and several seasons of excavation and study – the materials that don’t go into the Geographic Information System.

For us, as humanists, big is in the eye of the beholder. If it’s more data that you could conceivably read yourself in a reasonable amount of time, or that requires computational intervention to make new sense of it, it’s big enough!

Le Big data sous l’œil de l’humaniste numérique ne devient plus alors que le nom que l’on donne à la masse de donnée que les capacités de l’esprit humain ne peuvent pas étudier sans recours à la médiation d’un dispositif informatisé. Ce qui limite alors la définition du Big data au processus cognitif qu’il induit.

Du coup c’est quoi le Big Data ?

giphy

Les trois définitions du Big data présentées sont autant de perspectives qui dénotent d’approches et de motivations spécifiques. Prises séparément, elles ne qualifient que partiellement le phénomène du Big data, ensemble cependant elles constituent un point de départ intéressant pour des analyses plus poussées. Mais le Big data constitue également un bouleversement socialéconomique et politique. Il participe finalement de l’accentuation de ce que Kling et Iacono appelaient déjà en 1995 un “computerization movement”.


Ce billet m’a été inspiré par l’article Big data, bigger dilemmas: A critical review ainsi que le mémoire de Johann Gillium.

A noter également la parution de : Big data et traçabilité numérique. Les sciences sociales face à la quantification massive des individus. Sous la direction de MM. Pierre-Michel Menger et Simon Paye édité par Collège de France et disponible en open access.

2 réflexions au sujet de « De quoi le Big data est-il (vraiment) le nom ? »

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

w

Connexion à %s