Est-il encore utile de structurer les données ?

Nous sommes régulièrement abreuvés de chiffres affolants quant aux données non structurées : doublement tous les deux mois, volume accrue dans toutes les entreprises… Mais pourquoi distinguer les données structurées des non structurées ? Quels sont les enjeux pour la DSI ? Est-ce la DSI qui est responsable des données non-structurées ?

Si l’on considère les retours d’informations des grands hébergeurs, 70% des données actuelles seraient des données non structurées. Cerise sur le gâteau, leur volume doublerait tous les deux mois !  Parallèlement,  les données structurées enregistreraient une croissance annuelle de seulement 4%.

Pour bien anticiper les conséquences de cette lame de fond, essayons de comprendre ce qui caractérise ces données.

Les données structurées

Elles sont manipulées par les applications de l’entreprise, notamment dans l’ERP. Ces données représentent les informations nécessaires au fonctionnement des processus métiers. Elles sont assemblées dans des bases de données qui structurent les enregistrements. On pourra trouver côte à côte dans la base : un nom, une date, un montant. Ces données sont restituées en tant qu’informations de gestion (lire ceci) à l’écran ou sur les documents issus des logiciels sous forme de documents structurés.

Les données non structurées

Plusieurs types de données constituent les données non structurées. Elles sont issues de la bureautique, de la messagerie, des fichiers multimédia, des documents scannées, des pages web… Si on les qualifie comme des données non structurées c’est parce qu’elles ne peuvent donner lieu à une représentation schématique, organisée. Ces documents sont cependant caractérisés par des métadonnées : date de création, nombre de mots, auteur, focus, compression …

Mais de quoi parle-t-on ?

Plutôt que de données structurées ou non structurées, il semble plus pertinent de faire le distinguo entre les documents issus de bases de données) et les documents issus de toutes les autres sources.
Alors, quel critère objectif retenir pour définir cette nature de données ? On pourrait retenir que tout ce qui provient des « traitements transactionnels » produit des données structurée. Depuis longtemps le DSI a notamment pour mission de trouver des solutions à cette évolution, les logiciels CRM répondent partiellement à ce besoin de structuration en permettant d’embarquer dans la BDD les emails envoyés et reçus, les documents échangés… D’une manière générale, tous les business process sont structurants car ils organisent les demandes de structuration de l’entreprise.

Quel est l’enjeu ?

Mettre en relation les données structurées avec les données non structurées devient une activité à part entière pour les projets de la DSI. Mais comment faire le lien ? De nombreux outils apparaissent. Ils sont porteurs de nouvelles problématiques quasi inexistantes pour les données structurées : le dédoublonnage, la rétention …

Aujourd’hui, des outils de « search » permettent de concilier ces deux types de sources et  ouvrent de nouvelles voies On pense notamment à Polyspot. Des approches étonnantes comme la plateforme Wolfram Alpha ou siri existent également. Elles parviennent à mettre de l’ordre dans les données non structurées présentes sur le Web ou dictées sur le smartphone.

Et demain ?

Les entreprises ayant tendance à sous-estimer ces évolutions, ce sont les DSI  qui doivent les anticiper et mettre en place de nouveaux modes de gestion et d’organisation des données.

Demain, il faudra continuer à organiser les données non structurées. Gageons néanmoins que de nombreux outils vont émerger pour automatiser davantage cette tâche.

10 réponses
  1. Gendrin Vanessa
    Gendrin Vanessa dit :

    Bonjour et bravo pour cet article,
    Dans les données non structurées, pour ma part je fais la distinction entre les documents engageants (records), ceux (pour faire vite) sont des originaux numériques natifs et que l’entreprise doit de conserver pour justifier ses droits ou tracer son activités pendant une durée nécéssaires et les autres, les documents préparatoires, les copies, les documents périmés, les documents externes de travail qui n’ont une valeur plus limitée. Or c’est bien la structuration des données engageante qui est la vraie gageure et représentent les véritables enjeux stratégique pour l’entreprise. Rappelons que Moreq2 est une norme particulièrement pertinente pour la structuration des données engageantes non structurées, qui recommande entre autre l’élaboration d’un plan de classement par activité au sein du système d’archivage électronique.

    Répondre
  2. Dalb
    Dalb dit :

    Merci de cette note.
    Je formulerais les choses légèrement différemment : beaucoup de ces données dites non structurées par les informaticiens, sont en fait déjà structurées par et pour les humains bien sûr !, mais aussi pour la machine (mais pas encore *par* la machine – cela ne saurait tarder !)

    Mais la structure technique qui les porte et les outils qui permettent d’exploiter ces structures s’inscrivent dans une informatique assez éloignée de l’informatique de gestion « traditionnelle » (et des tables) – une informatique qui a eu peu de moyens ces 30 dernières années pour se déployer. Mais qui a réussi à produire des choses intéressantes. Initialement on l’appelait l’informatique documentaire pour la distinguer de l’informatique de gestion; depuis 30 ans ce secteur travaille (en transpirant) sur les propriétés et/ou feuilles de styles des documents ou parallèlement sur des dispositifs de production de documents adhoc (par ex, des bases doc de type lotus notes…) et bien sûr le « full text » comme on l’appelait alors. Plus récemment les technologies du web (graphe, identifiant hors application,…), cet environnement où les contenus sont exposés (au lieu d’être « enfermés » dans des tables) nous permettent d’entrevoir d’autres types de solutions techniques très efficaces pour ces types de ressources. Il y a aussi la solution de ne rien faire (ou presque) côté production et comme vous le dites de s’appuyer sur des outils de traitement des contenus (avec enrichissements).
    A mon avis et c’est ce qui est compliqué, en fonction des contextes (usages, ressources, contraintes), il est nécessaire d’articuler différentes solutions – structurer (ou stocker au moins) à l’ancienne (table), structurer sémantiquement (graphe), attaquer les contenus par des algorithmes adaptés….

    Dernier point. Quand vous dites  » Les entreprises ayant tendance à sous-estimer ces évolutions, ce sont les DSI qui doivent les anticiper et mettre en place de nouveaux modes de gestion et d’organisation des données. », je suis perplexe.
    Cela fait longtemps que les entreprises travaillent sur l’organisation du travail et les nouvelles façons de produire des données dans le cadre des activités et processus. La façon dont ceci est porté par/dans les nouveaux SI, je ne suis pas sûre que ce soit à une DSI seule de faire ce travail. Je pense qu’il serait plus sage de dissocier la « DSI opérationnelle » qui assure que tout fonctionne au quotidien (et il y a de quoi faire) , et une unité (intégrant la DSI mais pas que celle-ci) faisant la veille » au profit de son entreprise sur ces terrains socio-techniques – le « socio » est ici essentiel et ne peut-être porté (que) par la DSI.
    Qu’en pensez vous ?

    @Olivier Roecker
    En passant par le RM (ou RIM), on trouvera peut être des solutions de courts termes. Je trouve que dans cet environnement de travail, on conserve une vision très classique des documents (pour faire bref : A4 PDF). Ou plutôt, on n’ose pas toucher à ces documents préexistants. Il faut me semble-t-il travailler *aussi* avec les acteurs du KM/travail collaboratif, et ceux (pour faire vite) de l’édition numérique innovante. Il ne faudrait pas s’appuyer sur les pratiques de ces 30 dernières années de production de l’information professionnelle pour penser les systèmes à venir ?

    Répondre
    • pierre.duran-campana
      pierre.duran-campana dit :

      @Dalb : votre approche est intéressante.
      Concernant la DSI, elle n’a pas seulement le rôle opérationnel que vous évoquez et qui peut être en effet assez lourd.
      Sa mission de « gouvernance » du système d’information doit s’attacher à piloter ces nouvelles façons de produire des données en intégrant tous les acteurs de l’entreprise. L’aspect socio n’est pas seulement porté par la DSI, celle-ci se doit d’intégrer toutes les parties prenantes, toutes les compétences de l’entreprise pour faire que ces « nouvelles » données soient correctement contextualisé, enrichies et structurées. La DSI se doit ‘être en amont afin que l’environnement opérationnel puisse supporter la stratégie « informations » de l’entreprise, et pour réussir dans cette tâche elle devra se concentrer sur la recherche des compétences idoines.

      Répondre
      • Dalb
        Dalb dit :

        j’ai du mal m’exprimer, mais justement si la DSI est l’entité qui a la responsabilité de faire tourner la boutique, je ne pense pas que ce soit à cette DSI à gouverner. Mais à une entité autonome par rapport à cette DSI, où la DSI a une place bien sûr mais une place seulement parmi d’autres entités. C’est une question (importante) d’organisation du pilotage que je pose ici.

        Répondre
        • Fabien Salicis
          Fabien Salicis dit :

          Bonjour Dalb..;-)
          le DSI devrait même faire partie intégrante des COMEX de l’entreprise dès ses première heures (et non pas attendre que ce soit un grand groupe pour le faire). Une gouvernance SI qui sert directement le Business de l’entreprise est la clef de la réussite de celle-ci et c’est souvent cette gouvernance qui structure de manière transverse les données qui s’échangent dans les sociétés, spécialement les PME qui ont parfois plus de mal à structurer l’échange de ces données entre les nouveaux services qui se développent pendant la croissance de l’entreprise

          Répondre
    • Olivier Roecker
      Olivier Roecker dit :

      Merci Dalb pour ce retour. Le sujet de l’article aborde un sujet complexe et passionnant comme le démontre le nombre de réactions à cet article.
      J’essaye d’aborder le sujet de manière pragmatique: ce sont les données/documents qui sont créés pendant que nous discertons sur le sujet que nous aurons à détruire ou à conserver dans les prochaines années.
      Je pense qu’il est souhaitable dés à présent de mettre en place de bonnes pratiques à travers des outils reconnus par nos utilisateurs :
      * un système qualité ISO ou autre qui structure la forme du document,
      * un site collaboratif de type Sharepoint ou autre,
      * une GED qui augmente encore la structuration par la gestion de méta-donnnées et l’introduction de notion de versions, gestion des copies, durées de rétention, archivage et destruction.

      Dans le même temps, participer à ce type d’échange, à des groupes de travail, afin de ce préparer à mettre en oeuvre des pratiques et des outils dès un seuil de maturité atteint.

      Répondre
  3. Yves Simon
    Yves Simon dit :

    Bonjour, effectivement, il est important de définir l’information ‘racine’ qui est souvent celle d’un process reconnu dans l’organisation (factures, contacts clients enregistrés, projets), en provenance d’un ERP, d’un CRM ou d’un CMS. Ensuite, il faut générer un knowledge graph autour de cette information racine en structurant à posterieuri et tant que faire se peu l’information non structurée disponible dans le giron de l’organisation et de son environnement. C’est devenu parfaitement faisable grace aux formats du web sémantique (rdf, owl) et a la qualité des moteurs de recherche qui allient une puissance de traitements avec une finesse statistique et sémantique permettant de rapprocher des résultats en provenance de multiples sources et de les agréger en listes cohérentes afin de fluidifier l’accès à l’information.

    Répondre
  4. Thibault CORNUDET
    Thibault CORNUDET dit :

    La gestion de ces données non structurées va induire la gestion de services non structurés que le DSI devra aussi anticiper… Comment permettre aux futurs collaborateurs d’une entreprise – PME de communiquer avec des outils de communication de plus en plus inovant, gourmant en bande passante? C’est aussi cet enjeux que le DSI d’aujourd’hui doit commencer à intégrer car demain cet enjeux sera stratégique…

    Répondre
  5. Olivier Roecker
    Olivier Roecker dit :

    Voici un article qui mérite une lecture attentive par les responsables informatiques de nos PME.

    Après la comptabilité, la paye, la CRM, l’ERP, la messagerie , l’infrastructure du SI en général, sujets somme toute assez facile à aborder de nos jours, un vrai challenge nous attend.

    Mais nous ne sommes pas seuls, des groupes de travail se sont déjà constitués autour des méta-données ou des principes de rétention.

    Je vous invite à vous intéresser au code RIM (Record and Information Management) qui une bonne base de travail.

    Répondre

Trackbacks (rétroliens) & Pingbacks

  1. […] de mon activité : ses fournisseurs, banques, administrations, voire collaborateurs, vont me pousser à fournir des données. De fil en aiguille, cela me conduira inexorablement à les gérer en tant que telles, donc à […]

Répondre

Se joindre à la discussion ?
Vous êtes libre de contribuer !

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *