Qu'est ce que le Big Data?

C’est le big bazar dans ma tête de Sisyphe de service. Cloud, Big Data, Open Data, Hadoop, Onomastique, Induction, Data Mining… Des termes qui m’envahissent et qui ne me laissent guère de répit. Aux aurores blêmes, j’ai décidé ce matin de trouver dans le Net ce que je ne cherche pas. (???)

Bizarre. Il est temps de remettre de l’ordre.

Un Océan de données…

L’information accessible au format numérique est passée de 193 petabytes en 1996, l’équivalent de tous les livres jusque-là imprimés par l’Humanité, à 2,7 zetabytes, soit un million de fois plus, en 2012. Et ce n’est pas fini. Les objets communicants qui commencent à nous entourer vont démultiplier encore cette avalanche de données. C’est purement inimaginable. Le défi qui consiste à transformer ces données en savoir l’est encore plus (si c’est possible).

Les structures publiques, qui sont aux avant-postes de cette collecte de données en ont organisé l’ouverture. La création de l’Open Government Summit en 2009 en est un symbole significatif. Il est l’expression d’un mouvement général d’Open Data, qui consiste à proposer en libre accès un amoncellement de données.

Des infrastructures adaptées…

Le Web lui aussi a pris une ampleur jamais imaginée. Les capacités de traitement ou de stockage d’informations des millions de processeurs et de disques durs disséminés sur la planète mais néanmoins en réseau continuent à progresser de manière impressionnante. Ces capacités sont notoirement sous utilisées.

De grands Précurseurs…

La première pensée va à Google qui est emblématique d’un savoir faire de fouille et d’analyse de données en masse. Beaucoup a déjà été fait. Il suffit de porter attention au comportement de nos navigateurs pour comprendre combien ils sont d’ores et déjà adaptés à nos comportements individuels. La bataille a déjà eu lieu, ce n’est certes pas la dernière, mais notre « liberté » sur Internet n’est qu’un leurre. Elle est au moins encadrée, par le traitement en masse et l’exploitation des milliers de données que chacun d’entre nous laissons au gré de nos navigations…

Et Hadoop dans tout cela ?

Hadoop est dans l’esprit de certains un synonyme de « Big Data ». Il s’agit d’une infrastructure qui permet d’une part de stocker sur la toile de l’information en grande quantité, et d’autre part d’un modèle de programmation parallèle qui permet d’en exécuter le traitement sur des nœuds de serveurs. (Map Reduce, fourni par Google). Le cluster ainsi formé peut potentiellement atteindre des milliers de nœuds.

Une entreprise peut utiliser Hadoop comme un lieu de stockage d’une information structurée ou non structurée (et c’est sur ce dernier point qu’il se différencie des classiques data warehouses). Ce point de différenciation constitue la deuxième fonctionnalité de Hadoop : celle de traiter de l’information non structurée, et de la transformer.

Traiter l’information nécessite de les soumettre à des applications spécifiquement développées. On en est au début, et leur compréhension relève encore d’une connaissance très pointue. Leur mise en œuvre aussi…

Alors pourquoi faire ?

Derrière Google, qui dispose d’un champ d’investigation incommensurable, les marketeurs de tous pays ses sont engouffrés dans la brèche. Le comportement du client est analysé dans le plus intime détail, les simulations ne se font plus sur des comportements ou des profils moyens, mais en tenant compte de tous les éléments de variabilité. Un sens est trouvé là où l’on n’en attendait aucun. On trouve ce que l’on ne cherchait pas. L’onomastique prend un nouvel envol, corrélant les noms et les comportements… Big brother est carrément dépassé. Il faut frémir de tout ce que cela porte en termes de menaces pour notre liberté, et évaluer comment nous pourrons vivre « avec » un outil d’un si fort déterminisme. Les opportunités qui semblent surgir ne tiennent plus rien du hasard. Les systèmes prennent des décisions en nos lieux et places. Le discours n’est pas ici de diaboliser, mais de regarder comment nous pouvons accompagner le mouvement.

Les champs d’application sont immenses et l’offre créera peu à peu la demande. Peu d’entre nous savent encore ce que nous pouvons en attendre, en dehors des analyses évoquées plus haut.

En conclusion,

Le Big Data semble inaugurer une nouvelle manière de penser, qui remet en cause la logique déductive et promeut une démarche inductive.

Tout statisticien se rappellera toutefois avec intérêt que le lien de causalité reste essentiel et qu’au bout d’un raisonnement mal conduit, on peut décider par exemple de supprimer les Canadair car on aura prouvé leur corrélation avec les feux de forêt…

Phénoménale ouverture, encore réservée à peu d’entre nous… Mais l’innovation se trouve-t-elle dans le ventre ou les oreilles ? (de la gaussienne !!!).

Qu’est ce que le Big Data?

Un Océan de données…

Des infrastructures adaptées…

De grands Précurseurs…

Et Hadoop dans tout cela ?

Alors pourquoi faire ?

En conclusion,

Articles similaires

Répondre

Laisser un commentaire Annuler la réponse

ARTICLES RÉCENTS

Social

Un Océan de données…

Des infrastructures adaptées…

De grands Précurseurs…

Et Hadoop dans tout cela ?

Alors pourquoi faire ?

En conclusion,

Partager:

Articles similaires

Vous aimerez peut-être aussi

Répondre

Laisser un commentaire Annuler la réponse

ARTICLES RÉCENTS

Social