Image Big Data

Qu’est ce que le Big Data?

C’est le big bazar dans ma tête de Sisyphe de service. Cloud, Big Data, Open Data, Hadoop, Onomastique, Induction, Data Mining… Des termes qui m’envahissent et qui ne me laissent guère de répit. Aux aurores blêmes, j’ai décidé ce matin de trouver dans le Net ce que je ne cherche pas. (???)

Bizarre. Il est temps de remettre de l’ordre.

Un Océan de données…

L’information accessible au format numérique est passée de 193 petabytes en 1996, l’équivalent de tous les livres jusque-là imprimés par l’Humanité, à 2,7 zetabytes, soit un million de fois plus, en 2012. Et ce n’est pas fini. Les objets communicants qui commencent à nous entourer vont démultiplier encore cette avalanche de données. C’est purement inimaginable. Le défi qui consiste à transformer ces données en savoir l’est encore plus (si c’est possible).

Les structures publiques, qui sont aux avant-postes de cette collecte de données en ont organisé l’ouverture. La création de l’Open Government Summit en 2009 en est un symbole significatif.  Il  est l’expression d’un mouvement général d’Open Data, qui consiste à proposer en libre accès un amoncellement de données.

Des infrastructures adaptées…

Le Web lui aussi a pris une ampleur jamais imaginée. Les capacités de traitement ou de stockage d’informations des millions de processeurs et de disques durs disséminés sur la planète mais néanmoins en réseau  continuent à progresser de manière impressionnante. Ces capacités sont notoirement sous utilisées.

De grands Précurseurs…

La première pensée va à Google qui est emblématique d’un savoir faire de fouille et d’analyse de données en masse. Beaucoup a déjà été fait. Il suffit de porter attention au comportement de nos navigateurs pour comprendre combien ils sont d’ores et déjà adaptés à nos comportements individuels. La bataille a déjà eu lieu, ce n’est  certes pas la dernière, mais  notre « liberté » sur Internet n’est qu’un leurre. Elle est au moins encadrée, par le traitement en masse et l’exploitation des milliers de données que chacun d’entre nous laissons au gré de nos navigations…

Et Hadoop dans tout cela ?

Hadoop est dans l’esprit de certains un synonyme de « Big Data ». Il s’agit d’une infrastructure qui permet d’une part de stocker sur la toile de l’information en grande quantité, et d’autre part d’un modèle de programmation parallèle qui permet d’en exécuter le traitement sur des nœuds de serveurs. (Map Reduce, fourni par Google). Le cluster ainsi formé peut potentiellement atteindre des milliers de nœuds.

Une entreprise peut utiliser Hadoop comme un lieu de stockage d’une information structurée ou non structurée (et c’est sur ce dernier point qu’il se différencie des classiques data warehouses). Ce point de différenciation constitue la deuxième fonctionnalité de Hadoop : celle de traiter de l’information non structurée, et de la transformer.

Traiter l’information nécessite de les soumettre à des applications spécifiquement développées. On en est au début, et leur compréhension relève encore d’une connaissance très pointue. Leur mise en œuvre aussi…

Alors pourquoi faire ?

Derrière Google, qui dispose d’un champ d’investigation incommensurable, les marketeurs de tous pays ses sont engouffrés dans la brèche. Le comportement du client est analysé dans le plus intime détail, les simulations ne se font plus sur des comportements ou des profils moyens, mais en tenant compte de tous les éléments de variabilité. Un sens est trouvé là où l’on n’en attendait aucun. On trouve ce que l’on ne cherchait pas. L’onomastique prend un nouvel envol, corrélant les noms et les comportements… Big brother est carrément dépassé. Il faut frémir de tout ce que cela porte en termes de menaces pour notre liberté, et évaluer comment nous pourrons vivre « avec » un outil d’un si fort déterminisme. Les opportunités qui semblent surgir ne tiennent plus rien du hasard. Les systèmes prennent des décisions en nos lieux et places. Le discours n’est pas ici de diaboliser, mais de regarder comment nous pouvons accompagner le mouvement.

Les champs d’application sont immenses et l’offre créera peu à peu la demande. Peu d’entre nous savent encore ce que nous pouvons en attendre, en dehors des analyses évoquées plus haut.

En conclusion,

Le Big Data semble inaugurer une nouvelle manière de penser, qui remet en cause la logique déductive et promeut une démarche inductive.

Tout statisticien se rappellera toutefois avec intérêt que le lien de causalité reste essentiel et qu’au bout d’un raisonnement mal conduit, on peut décider par exemple de supprimer les Canadair car on aura prouvé leur corrélation avec les feux de forêt…

Phénoménale ouverture, encore réservée à peu d’entre nous… Mais l’innovation se trouve-t-elle dans le ventre ou les oreilles ? (de la gaussienne !!!).

 

 

1 réponse
  1. Gaëlle
    Gaëlle dit :

    Les études du Boston Consulting Group prévoient qu’en 2015, les données disponibles atteindront un volume de 7 zetabytes… Une manne pour les marketeurs, d’autant plus que les objets connectés permettront de collecter des informations extrêmement riches afin d’enrichir des profils et de réaliser des segmentations de plus en plus fines, pour concevoir et mettre en oeuvre des campagnes marketing cross-canal cohérentes et efficaces.
    Encore faut-il être capable de regrouper toutes ces données au sein d’un seul et même outil… Les solutions de Data Management Platform (DMP) sont des bases de données d’un nouveau genre, interconnectées avec l’ensemble des sources de données et avec les outils digitaux qui vont permettre d’activer la donnée, en temps réel.
    Le Big Data est un vrai sujet de convergence entre Direction Informatique et Direction Marketing !

    Répondre

Répondre

Se joindre à la discussion ?
Vous êtes libre de contribuer !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *