Qu’il s’agisse:

de les classer
d’en extraire les informations pour les stocker dans une base de données
ou d’y retrouver la réponse à une question précise

combien d’heures vous ou vos collaborateurs passez-vous encore chaque semaine à traiter manuellement vos documents?

Savez-vous qu’il existe des solutions d’intelligence artificielle fiables pour faire ces tâches à votre place? Des solutions moins fiables, aussi. Et puis, des solutions qui seront capables d’extraire les données de vos bons de livraison pour les ajouter au bon endroit dans votre base de données alors que d’autres serviront plutôt à vous aider à retrouver rapidement LE document qui contient la clause du contrat dont vous avez besoin. D’où l’intérêt, avant de vous mettre en quête d’une application «pour extraire des données de documents», de savoir exactement de quoi vous avez besoin, pour quel type d’utilisation.

Bien sûr, il existe une multitude de modèles sur des sites tels que GitHub, Hugging Face, Kaggle ou autres. Le plus souvent des modèles en python, LE langage de programmation phare pour l’IA grâce à sa capacité à représenter de façon particulièrement efficace les tenseurs, des tableaux multi-dimensionnels très courants en IA. Python a aussi la réputation, très justifiée, d’être parmi les langages de programmation les plus faciles à apprendre. Mais… si vous vous engagez dans cette voie, préparez-vous à des révisions très régulières, à chaque mise à jour de python et de chacune des librairies avec lesquelles vous devrez inévitablement composer. La rétro-compatibilité n’est pas le fort de l’écosystème python. Voir (au hasard) cet extrait de discussion sur Reddit:

Si ni vous ni vos collaborateurs n’êtes ou n’envisagez de devenir informaticien à temps plein, vous aurez plutôt intérêt à vous tourner vers des modèles prêts à l’emploi, et dont le fournisseur assure la maintenance. Évidemment, ceci aura un coût, généralement sous forme d’abonnement mensuel ou annuel, mais ce coût devrait être nettement inférieur à celui du temps que cette application vous permettra de gagner!

1. Caractéristiques générales des différents modèles

Mais comment trouver le modèle le mieux adapté à vos besoins? Il en existe tellement…

Ça va dépendre de ce que vous voulez vraiment faire:

Sous quel format sont vos documents?
Souhaitez-vous avoir le contrôle sur la phase d’entraînement et la maintenance du modèle ou préférez-vous une solution clé en main?
Quel type de résultats souhaitez-vous: l’ensemble du document en format compatible avec un post-traitement informatisé ou juste quelques données à extraire du document?

Ces questions et d’autres sont détaillées ci-dessous.

1.1. Quel format de documents?

Vos documents sont-ils déjà numérisés ou encore sous forme papier?

S’il s’agit de documents papier, vous aurez besoin d’une solution qui vous permet de les scanner ou photographier. Si vous optez pour l’appareil photo d’une tablette ou d’un smartphone et/ou si les conditions d’éclairage lors de cette prise de photo ne sont pas optimales, tenez-en compte lorsque vous testerez un modèle IA d’extraction de données: tous les modèles ne sont pas aussi performants sur des photos de documents mal alignées et/ou mal éclairées que sur des documents sauvegardés en format numérique à partir de l’application qui les a générés. Faites donc vos tests sur des documents de même (absence de) qualité que ceux avec lesquels vous devrez ultérieurement travailler.

La plupart des solutions proposées accepteront en données d’entrée des documents en format PDF. Si vous souhaitez pouvoir utiliser également des fichiers en format Word/Excel/PowerPoint, Google Docs/Sheets/Slides ou équivalents, certaines solutions pourraient être éliminées d’entrée de jeu.

1.2. Quel type de documents?

On distingue généralement 3 types de documents:

Les documents structurés: ce sont des documents dont la structure est fixe, seules les données qu’ils contiennent diffèrent d’un document à l’autre. Par exemple, un formulaire administratif.
Les documents non structurés: au contraire, les données contenues dans ces documents-ci y sont en format libre, par exemple le texte suivi d’un contrat.
Les documents semi-structurés: comme souvent avec les classifications binaires, il faut une troisième catégorie pour… tout ce qui ne rentre ni dans la première ni dans la deuxième! On mettra par exemple dans cette catégorie une facture qui contient des éléments de texte (= données non structurées, même si leur positionnement peut être similaire d’un document à l’autre) mais aussi l’un ou l’autre tableau (= données structurées).

1.3. Phase d’apprentissage du modèle

Dans la plupart des cas, avant de pouvoir utiliser un modèle, vous devrez passer par sa phase d’«apprentissage». En clair, lui fournir un certain nombre d’exemples des documents que vous souhaitez lui faire traiter.

Cette phase diffère significativement d’un modèle à l’autre:

Certains modèles sont capables de résultats remarquables dès le premier document que vous leur présentez.
D’autres requièrent minimum 5 documents de chaque type.
Et nous avons même déjà été confrontés à un modèle qui en exigeait 50 avant le moindre test! S’il s’agit de documents d’une page dont vous souhaitez n’extraire que quelques données, ça peut encore passer. Mais si c’est pour des documents de 100 pages dont vous avez besoin de la totalité du contenu, ça risque de vous prendre pas mal de temps! Et tenez compte du fait que votre modèle devra être régulièrement mis à jour, ce qui signifie repasser par cette phase d’entraînement…

Autre critère important de cette phase d’apprentissage: avez-vous la possibilité d’indiquer qu’une valeur extraite est erronée, ou ne pouvez-vous corriger que la zone du document qui a été utilisée pour extraire cette donnée?

Dans un des modèles que nous avons testé, pour chacune des données extraites le modèle indiquait la zone du document qu’il avait utilisée pour identifier la donnée en question. Par contre, l’utilisateur n’avait aucun moyen de corriger la valeur de la donnée en question. Par exemple, le 8.0 du document avait été extrait comme B.0:

Bien sûr, ce genre de problème peut facilement être évité en contraignant la valeur extraite à être un nombre et non une chaîne de caractères. Mais dans ce cas-ci, ce type de données ne pouvait pas être fixé, car les documents concernés alternaient allègrement les nombres avec point ou virgule comme séparateur décimal:

1.4. Données extraites

Certains modèles vous fourniront le contenu entier du document en format html: le texte, les graphiques, les tableaux, tous les éléments, y compris leur formatage. C’est très utile par exemple si vous disposez d’une grande quantité d’articles scientifiques dans lesquels vous souhaitez pouvoir faire des recherches automatisées.

Par contre, si ce qui vous intéresse, ce sont les chiffres contenus dans certains tableaux et que vous souhaitez qu’ils soient automatiquement identifiés et copiés dans une base de données, ce sera à vous de programmer la recherche des identifiants et/ou balises html des parties contenant les informations qui vous intéressent.

D’autres modèles sont par contre bien conçus pour identifier eux-mêmes uniquement les informations requises.

1.5. Interfaces

Certains modèles sont commercialisés avec une interface utilisateur dédiée. C’est un avantage si vous souhaitez pouvoir sans attendre commencer à y introduire vos documents et obtenir les résultats souhaités.

Si par contre vous souhaitez insérer cette solution dans vos process habituels, vous pourriez préférer les alternatives qui proposent une API (application programming interface ou, en français, interface de programmation d’application), c’est-à-dire une interface qui permet d’automatiser sa communication avec les autres applications avec lesquelles vous souhaitez continuer à travailler.

Bonne nouvelle: un grand nombre de modèles vous offrent les deux possibilités. Mais pas tous.

1.6. Segmentation du modèle

Selon les fournisseurs, vous trouverez deux façons de traiter la diversité de vos documents:

soit un seul modèle qui traite l’ensemble de vos documents
soit un modèle par type de document, voire un modèle par type de mise en page. Par exemple:

Plus le modèle est spécialisé, meilleure sera la qualité des résultats extraits. Mais aussi, plus il sera sensible au changement de mise en page suite au rebranding périodique de votre fournisseur! Et bien sûr, si vous travaillez avec un modèle qui exige un entraînement sur minimum 50 documents avant tout passage en production, ça peut rapidement devenir très laborieux si vous devez le faire pour chaque mise en page différente!

1.7. Interaction humaine

Certains modèles permettent une interaction humaine, par exemple si la valeur de confiance de la valeur qu’ils ont extraite est inférieure à un seuil que vous pouvez fixer. Les corrections éventuellement introduites par l’humain sont alors utilisées pour ré-entraîner le modèle dans un processus d’apprentissage continu.

C’est une fonctionnalité qui est très intéressante, à condition que vous ou l’un de vos collaborateurs soyez disposé(e) à vous en charger.

1.8. Maintenance et mises à jour régulières du modèles

Sinon, l’approche générale est toujours de prévoir, à intervalles réguliers, une évaluation du modèle:

Ses résultats sont-ils toujours aussi fiables?
De nouveaux types de données sont-ils apparus, nécessitant de le ré-entraîner?

Une mise à jour par ré-entraînement du modèle à intervalles réguliers fait partie de la vie normale de tout modèle IA. Selon les modèles, elle sera prise en charge par le fournisseur ou nécessitera votre intervention.

1.9. Modèle de prix

Enfin, lorsque vous comparerez les prix des différents modèles, faites attention à ce que recouvrent les différents montants annoncés.

Il s’agira le plus souvent d’abonnements mensuels ou annuels. Mais le volume de documents couvert par chacune de ces formules pourra être exprimé de façons très différentes:

nombre de documents
nombre de pages
nombre de ‘crédits’.

Si vous travaillez avec des documents de plusieurs centaines de pages chacun, l’abonnement pour un nombre de documents sera très probablement plus intéressant pour vous que celui qui compte le nombre de pages. Quant aux crédits… si la définition de certains est assez claire pour pouvoir anticiper votre facture, il faut bien reconnaître qu’elle peut devenir très opaque pour d’autres…

Outre les frais d’abonnement, deux autres critères devraient aussi retenir votre attention:

Est-il ou non possible de reporter à la période suivante les ressources (nombre de documents, de pages ou de crédits) non utilisés durant la période facturée?
Y a-t-il des frais d’activation/démarrage à prévoir?

2. Exemples d’implémentation

Si vous optez pour une solution intégrée, il vous suffira de suivre les directives du fournisseur pour l’installer et la configurer afin qu’elle réponde au mieux à vos besoins et vous pourrez démarrer.

Comme nous l’avons décrit dans notre article précédent:

vous pouvez aussi l’intégrer dans votre environnement Google ou Microsoft, existant ou non. (Si vous avez besoin d’aide, nous vous proposons nos services et notre expertise de plus de 10 ans dans la configuration de ce type de solution.)

2.1. Low code/no code + IA

La figure ci-dessous vous donne un exemple d’implémentation possible, avec les modules correspondants dans les écosystèmes de Microsoft (en vert) et de Google (en violet):

1. Si vous disposez des documents à analyser en format numérique, PDF ou autres, la plupart des modèles d’extraction de données vous permettront de les envoyer par email.

2. Par contre, si c’est à partir des versions papier de ces documents que vous devez travailler et qu’ils doivent être traités sans accès à une photocopieuse permettant de les numériser et envoyer par email, Power Apps (de Microsoft) comme AppSheet (de Google) vous permettent de photographier chaque page, d’assembler celles-ci en un document et de l’envoyer au modèle IA. Notons toutefois que Google Apps Script permet de créer ces fichiers PDF, alors que pour la même opération avec les applications de Microsoft, vous devrez passer par le connecteur Adobe PDF Services. Il s’agit d’un connecteur premium, c’est-à-dire payant passé un certain nombre de documents.

3. La plupart des modèles d’extraction de données acceptent en entrée des fichiers PDF, certains aussi des formats éditables, et sortent leurs résultats en format JSON, un format standard pour l’échange de données entre différentes applications.

4. Avec Power Automate (de Microsoft) ou Google Apps Script, ces résultats en format JSON peuvent être transférés au bon endroit dans Excel ou Google Sheets.

5. Avec ces mêmes composants, il est aussi possible d’effectuer des vérifications sur les résultats ainsi obtenus: correspondent-ils à des valeurs attendues, atteignent-ils un seuil nécessitant le déclenchement d’une alerte ou d’une autre action,…?

6. Si par exemple un résultat nécessite l’envoi d’une alerte à un opérateur, celle-ci peut être programmée via Outlook ou Gmail.

7. Cette notification peut aussi être poussée dans l’interface utilisateur développée avec Power Apps ou AppSheet.

2.2. Sous-traitance

Vous préférez une solution entièrement sous-traitée? Pas de problème. Ce que nous vous proposons en alternative:

Envoyez vos documents en format PDF à l’adresse email que nous réservons pour vous à ce service.
Partagez avec nous le fichier Excel ou Google Sheets dans lequel vous souhaitez enregistrer les données extraites de ces documents.
Décrivez-nous les conditions nécessitant l’envoi d’une alerte et l’adresse à laquelle vous souhaitez recevoir ces notifications.

Et c’est tout.

En conclusion, une remarque importante

Aucun modèle n’est fiable à 100%. Afin de limiter le risque d’erreur non détectée, il est donc préférable de toujours comparer les mêmes données issues de deux sources différentes. Par exemple:

les quantités mentionnées sur un bon de livraison (extraites par IA) aux quantités réellement comptabilisées lors de la livraison (contrôle humain ou scan automatisé)
les prix unitaires mentionnés sur une facture (extraits par IA) aux valeurs correspondantes dans une base de données interne (données historiques, enregistrées/adaptées au fil du temps)
ou même une même variable extraite par IA de deux documents différents (e.g. bon de livraison et facture).

Statistiquement, le risque d’avoir la même erreur sur deux sources de données différentes est faible, ce qui augmente significativement la confiance qu’on peut avoir dans les données ainsi vérifiées.

Moyennant cette précaution, vous allez adorer déléguer ce travail fastidieux à l’intelligence artificielle. Il ne reste plus qu’une question à vous poser: qu’allez-vous faire de tout ce temps libéré? 😊

Voyez aussi