Pour savoir où on va, il faut savoir d'où l'on vient

Vous avez
une question ?
Un projet ?

Contactez nous !
 

Contactez-nous

Vous avez une question ? un projet ? 
Vous souhaitez plus d'informations sur un produit ? sur notre offre ? 
Contactez-nous, on vous répond sous 4H.

retour

Métadonnées

Métadonnées

L’indexation est une fonction centrale des outils de GED, qui consiste en premier lieu à attacher des métadonnées aux documents.

Types de documents

Chaque type de document peut être qualifié par un ensemble de métadonnées. Chaque document sera donc doté de métadonnées propres et sera éventuellement associé à des règles de gestion s’appuyant sur ces métadonnées.

Notons qu’il peut être intéressant d’indexer plusieurs fichiers avec un seul jeu de métadonnées. La relation entre notice documentaire et fichiers stockés doit donc idéalement être souple pour permettre d’avoir de zéro à « n » fichiers attachés à une seule fiche.

Structure des notices

On appelle notice l’ensemble de métadonnées associées à un document, le contenu de cette notice est le plus souvent saisi au moyen d’un formulaire. Il est fondamental que le degré de finesse dans la qualification des documents puisse être ajusté à chaque projet. Il faut trouver le bon compromis entre la richesse d’information, l’exploitation qui doit pouvoir en être faite, et la quantité de travail ou de développement que représente l’alimentation desmétadonnées.

En effet, s’il est parfois contre-productif d’obliger à saisir 15 métadonnées pour un document courant, certaines utilisations peuvent au contraire nécessiter des jeux de métadonnées importants.

La structure des notices des types de document doit :

  • permettre une indexation pertinente, qui reflète précisément les documents décrits et que les utilisateurs sont incités à alimenter
  • couvrir l’ensemble des informations utiles à l’exploitation. La recherche bien entendu, mais également les processus et traitement appliqués aux documents tels que les alertes, la traçabilité, l’affichage…

Attention à ne pas tomber dans la surindexation (trop de métadonnées pour un type de document) ou l’indexation libre (nombre insuffisant de contrôles) qui entraînent soit des coûts d’indexation trop importants par rapport à la valeur ajouté, soit des défaut dans l’exploitation qui peut en être faite (bruit et silence en recherche, notamment).

Fonctions relatives aux typages de l’information

Il s’agit des fonctions permettant de fiabiliser l’indexation et de réaliser des traitements documentaires propres à un type de document, par exemple :

  • champs multivalués, c'est-à-dire permettant de saisir plusieurs valeurs
  • règles de cohérence sur un champ, et entre champs : par exemple un format de date pour un jour, ou un nombre positif pour un prix…
  • champs calculés permettant de faire dépendre la valeur d’un champ d’une ou plusieurs autres valeurs ou conditions
  • liaisons entre documents et « typage » de ces associations, par exemple, un courrier qui « a pour annexe » ou un contrat qui « concerne » un dossier désigné

 

Indexation manuelle

Interface de saisie

La notice (ou fiche) décrivant un document est souvent le premier point d’entrée des utilisateurs. C’est également ce formulaire qui sollicitera le plus le contributeur, puisqu’il devra saisir de l’information.

Pour ce faire, et dans un souci d’ergonomie, de fiabilité et de productivité, les solutions de GED doivent offrir différentes facilités, directement ou par le biais d’une intégration légère, par exemple :

  • copier/coller entre le document électronique et les métadonnées.Ceci est particulièrement pertinent, lorsque le document électronique est issu d’une numérisation et qu’il est possible de le visualiser sur le même écran que la fiche d’indexation
  • aide à la saisie, dès que possible, c'est-à-dire notamment :
    • des listes de contrôle qui permettent de fiabiliser le fond (sémantique) et la forme (orthographe notamment) de la saisie
    • des cases à cocher ou des boutons radio pour les choix multiples
    • des boîtes de dialogue adaptées aux tables des valeurs de référence (listes des choix possibles). Ceci pouvant aller de la simple liste déroulante, à des interfaces disposant d’une recherche avec auto complétion ou un outil de navigation (abécédaire, arbre) dans les valeurs de référence
    • suggestions pour un champ donné, voir (cf « Induction de métadonnées », page 47)

Table de référence

L’objectif est de proposer, dès que c’est possible, des listes de valeurs, pour limiter les questions que l’utilisateur peut se poser et également pour fiabiliser la saisie et ainsi améliorer l’usage des métadonnées.

Parmi les tables de références, on trouve par exemple :

  • les référentiels de classement (cf « Référentiel de classement », page 50)
  • les listes de valeurs enrichies par la saisie ou figée, par exemple le nom des auteurs des documents déjà dans le système ou la liste des services d’une organisation

L’objectif de ces tables est d’offrir des aides à la saisie et d’apporter contraintes et contrôles lors de la saisie.

Indexation automatique

Extraction de métadonnées

Il existe plusieurs modes d’extraction de métadonnées.

  • Récupération d’informations

Chaque fichier informatique est automatiquement doté d’informations issues du système de gestion de fichiers, qui peuvent être pertinentes comme métadonnées : le nom du fichier, les dates de création et de modification, sa taille, son emplacement…

Les solutions de GED proposent de récupérer certaines de ces informations. Il est également possible, notamment dans le cadre d’une reprise d’historique, de les travailler de façon à reconstituer une indexation par mot clé, par exemple en décomposant l’emplacement ou la structure d’un nom sous forme d’une succession de termes qui serviront à l’indexation.

  • Extraction de données structurées

Certains formats de fichier disposent d’une structure lisible. C’est notamment le cas pour nombre de formats ouverts, ODF par exemple, mais également des formats MS Office, par le biais de leurs propriétés.

Lorsque ces structures sont connues et documentées, il est possible d’utiliser des automates pour extraire les informations pertinentes directement depuis le fichier et les utiliser pour alimenter une fiche d’indexation.

Induction de métadonnées

Certaines solutions, les plus élaborées, permettent de déterminer automatiquement les métadonnées les plus pertinentes pour indexer un document.

Ce type d’induction de métadonnées est souvent réalisé par :

  • des outils de reconnaissance, qui retrouvent dans un document les chaînes de caractères présentes dans un référentiels afin de permettre à l’utilisateur de les ajouter à la notice
  • des outils statistiques, qui analysent les chaînes de caractères lesplus présentes et donc potentiellement les plus représentatives
  • des outils sémantiques, capables d’extraire automatiquement les mots et expressions les plus pertinents, voire de reconnaître s’il s’agit de mot-clé, de date, du titre...

Ces différentes approches sont souvent combinées.
Les outils les plus évolués permettent, au prix d’une diminution de la pertinence d’indexation, par rapport à l’indexation manuelle, de prendre en compte, très rapidement, de très grandes quantités d’informations.