Est-il encore utile de structurer les données ?

Nous sommes régulièrement abreuvés de chiffres affolants quant aux données non structurées : doublement tous les deux mois, volume accrue dans toutes les entreprises… Mais pourquoi distinguer les données structurées des non structurées ? Quels sont les enjeux pour la DSI ? Est-ce la DSI qui est responsable des données non-structurées ?

Si l’on considère les retours d’informations des grands hébergeurs, 70% des données actuelles seraient des données non structurées. Cerise sur le gâteau, leur volume doublerait tous les deux mois !  Parallèlement,  les données structurées enregistreraient une croissance annuelle de seulement 4%.

Pour bien anticiper les conséquences de cette lame de fond, essayons de comprendre ce qui caractérise ces données.

Les données structurées

Elles sont manipulées par les applications de l’entreprise, notamment dans l’ERP. Ces données représentent les informations nécessaires au fonctionnement des processus métiers. Elles sont assemblées dans des bases de données qui structurent les enregistrements. On pourra trouver côte à côte dans la base : un nom, une date, un montant. Ces données sont restituées en tant qu’informations de gestion (lire ceci) à l’écran ou sur les documents issus des logiciels sous forme de documents structurés.

Les données non structurées

Plusieurs types de données constituent les données non structurées. Elles sont issues de la bureautique, de la messagerie, des fichiers multimédia, des documents scannées, des pages web… Si on les qualifie comme des données non structurées c’est parce qu’elles ne peuvent donner lieu à une représentation schématique, organisée. Ces documents sont cependant caractérisés par des métadonnées : date de création, nombre de mots, auteur, focus, compression …

Mais de quoi parle-t-on ?

Plutôt que de données structurées ou non structurées, il semble plus pertinent de faire le distinguo entre les documents issus de bases de données) et les documents issus de toutes les autres sources.
Alors, quel critère objectif retenir pour définir cette nature de données ? On pourrait retenir que tout ce qui provient des « traitements transactionnels » produit des données structurée. Depuis longtemps le DSI a notamment pour mission de trouver des solutions à cette évolution, les logiciels CRM répondent partiellement à ce besoin de structuration en permettant d’embarquer dans la BDD les emails envoyés et reçus, les documents échangés… D’une manière générale, tous les business process sont structurants car ils organisent les demandes de structuration de l’entreprise.

Quel est l’enjeu ?

Mettre en relation les données structurées avec les données non structurées devient une activité à part entière pour les projets de la DSI. Mais comment faire le lien ? De nombreux outils apparaissent. Ils sont porteurs de nouvelles problématiques quasi inexistantes pour les données structurées : le dédoublonnage, la rétention …

Aujourd’hui, des outils de « search » permettent de concilier ces deux types de sources et  ouvrent de nouvelles voies On pense notamment à Polyspot. Des approches étonnantes comme la plateforme Wolfram Alpha ou siri existent également. Elles parviennent à mettre de l’ordre dans les données non structurées présentes sur le Web ou dictées sur le smartphone.

Et demain ?

Les entreprises ayant tendance à sous-estimer ces évolutions, ce sont les DSI  qui doivent les anticiper et mettre en place de nouveaux modes de gestion et d’organisation des données.

Demain, il faudra continuer à organiser les données non structurées. Gageons néanmoins que de nombreux outils vont émerger pour automatiser davantage cette tâche.