Un des freins à l’adoption de l’intelligence artificielle par les indépendants et les PME est la question des données. En effet, celles-ci sont généralement considérées comme un pré-requis indispensable. Qu’en est-il?

Réponse de Normand: ça dépend.

Vous avez lu notre article précédent?

Alors, vous avez déjà une partie de la réponse: si vous ne disposez d’aucune donnée, il existe malgré tout des modèles que vous pouvez utiliser. Par exemple, les algorithmes génétiques ou les modèles basés sur des règles du type «if-then-else» (si… alors… sinon…).

L’objet du présent article est d’aller un peu plus loin en répondant à ces deux questions:

Comment savoir si vous disposez d’assez de données? Comment définir «assez»?
Quelles sont les approches possibles quand les données disponibles sont insuffisantes?

1. Assez de données, c’est combien?

1.1. Le problème à résoudre doit (pouvoir) être défini.

Comme nous le verrons plus bas, certaines approches sont possibles même sans donnée. Par contre, le point de départ de votre projet ne doit pas être: «Il faudrait faire quelque chose avec l’IA.» Votre temps est précieux, celui de vos collaborateurs aussi. Nombreuses sont les entreprises qui, sans réel projet, se sont senties forcées de se lancer dans des applications d’intelligence artificielle depuis le lancement en fanfare de ChatGPT en novembre 2022 et qui en sont encore à chercher une quelconque rentabilité aux applications mises en place…

Avez-vous actuellement un problème à résoudre?

Voulez-vous mieux cibler et personnaliser vos contacts commerciaux?

Voulez-vous gagner du temps dans la gestion de vos documents administratifs?

Voulez-vous arrêter de vous arracher les cheveux sur l’établissement de vos plannings?

…

Bref, quels sont les problèmes les plus critiques de votre organisation actuellement?

1.2. Les données doivent être représentatives.

Si vous disposez de données, en avez-vous assez pour représenter la multiplicité des cas possibles?

Par exemple, imaginez que, comme Yann LeCun (un des pionniers des réseaux neuronaux) il y a une trentaine d’années, vous souhaitiez entraîner un modèle à identifier les chiffres manuscrits, à l’aide de cette base de données:

Si, pour une raison ou une autre, vous supprimiez de cette base de données d’entraînement toutes les images représentant, par exemple, le chiffre 7, avec la meilleure volonté du monde (aïe, flagrant délit d’anthropomorphisation 😉), votre modèle aurait bien du mal à apprendre à reconnaître ce chiffre, et n’en serait donc pas capable lorsque vous voudriez l’utiliser en production.

Autre exemple, pour des données commerciales:

Représentativité temporelle: Si les données dont vous disposez couvrent la période allant par exemple de 2020 à 2022, l’influence de la période Covid pourrait y être excessive.
Représentativité géographique: Si vous ne disposez de vos données commerciales que pour la Belgique, il peut être hasardeux de baser sur ces seules données des prédictions mondiales. À l’inverse, si vous ambitionnez juste d’augmenter la part de marché de votre friterie dans le Nord de la France, ce n’est pas la peine de vous encombrer des données socio-économiques du monde entier…

1.3. Vous avez trop peu de données.

Si vous ne disposez pas de suffisamment de données, vous aurez plus intérêt à utiliser des modèles pré-entraînés qu’à tenter de créer votre propre modèle.

Bonne nouvelle: il en existe de plus en plus, et pour une multitude d’applications. C’est d’ailleurs l’approche la plus courante pour les indépendants et les PME… mais aussi pour pas mal d’autres entreprises.

1.4. Vous avez trop de données.

Avoir trop de données n’est pas forcément plus utile: un modèle entraîné sur un nombre excessif de données ne sera plus capable de «généralisation», c’est-à-dire de traiter correctement de nouvelles données différentes de ses données d’entraînement.

1.5. Vos données sont mal équilibrées.

Enfin, il est important aussi d’éviter les données mal équilibrées. Par exemple, dans une base de données de transactions financières, les transactions non frauduleuses sont, généralement, largement majoritaires par rapport aux transactions frauduleuses.

Entraîner un modèle sur une telle base de données résultera probablement en une mauvaise identification des transactions frauduleuses, puisque le modèle n’en rencontrera que très peu. Il est alors important de rééquilibrer la base de données d’entraînement, soit en augmentant artificiellement le nombre de transactions frauduleuses, soit en élaguant significativement dans les transactions non frauduleuses.

Mais si, comme c’est (heureusement!) généralement le cas, le déséquilibre est appelé à se produire aussi lors de l’utilisation en production du modèle, il faudra, dans un second temps, une fois que celui-ci est capable d’identifier correctement si une transaction est ou non frauduleuse, poursuivre son entraînement avec une base de données dont les proportions seront plus proches de la réalité, afin que le modèle intègre également la rareté relative des transactions frauduleuses.

1.6. Les données doivent être de qualité.

Au-delà du nombre de données, on n’insistera jamais assez sur l’importance de la qualité des données utilisées. Il est généralement préférable de «nettoyer» les données pour ne garder que les plus qualitatives.

2. Quelles possibilités avec trop peu ou pas du tout de données?

2.1. Données externes

Il existe quantité de bases de données disponibles gratuitement. Par exemple:

Quelques-unes des bases de données «historiques», qui ont servi à l’entraînement des modèles d’IA qui sont à la base de pas mal des modèles actuels:

https://blog.roboflow.com/free-research-datasets/

Kaggle:

https://www.kaggle.com/datasets

Le portail officiel des données de l’Union Européenne:

https://data.europa.eu/fr

Les données ouvertes de la Banque Mondiale:

https://donnees.banquemondiale.org

Les données ouvertes du gouvernement américain:

https://data.gov

Les bases de données ouvertes de Meta:

https://ai.meta.com/datasets/

Et tant d’autres, voir par exemple:

https://geekflare.com/dev/open-datasets-for-data-science/

Si vous avez besoin de données plus spécifiques et non disponibles gratuitement, vous pourriez devoir mettre la main au portefeuille. Dans ce cas, assurez-vous bien que les données achetées seront suffisamment représentatives du problème que vous souhaitez traiter.

L’avantage des bases de données payantes étant qu’elles sont, généralement, plus susceptibles d’être basées sur des données acquises légalement.

2.2. Données synthétiques

Une manière économique d’obtenir le volume de données requis pour l’entraînement de votre modèle est de générer celles-ci. Textes, images, graphiques, vidéos ou autres, si vous avez une idée assez précise des caractéristiques des données que votre modèle devrait être capable de traiter, vous pouvez générer un ensemble de données d’entraînement.

Par exemple, pour des images, il existe des logiciels gratuits qui vous permettent de les générer en masse. Ci-dessous une copie d’écran de Blender (https://www.blender.org), un logiciel de création 3D gratuit ET programmable, ce qui permet de générer rapidement de grandes séries d’images présentant des caractéristiques précises tout en introduisant suffisamment de paramètres aléatoires pour avoir une diversité suffisante entre elles.

Si vous disposez de quelques images, mais en nombre insuffisant, une autre solution consiste à générer différentes copies modifiées de ces images: réduites ou agrandies, inversées, coupées, colorées différemment…

Les mêmes principes peuvent être adaptés, avec plus ou moins de succès, aux autres types de données.

2.3. Transfer learning (ou apprentissage par transfert)

Une des approches les plus courantes en entreprise, et pas seulement pour des PME d’ailleurs, est de partir d’un modèle existant, préalablement entraîné sur un large ensemble de données généralistes, et de spécialiser ce modèle par un entraînement supplémentaire sur un ensemble de données restreint mais spécifique à l’application souhaitée.

Par exemple, pour un modèle de classification:

1. Modèle pré-entraîné sur de grandes quantités de données:

Données d’entrée: données à classer
Résultats à la sortie: catégorie de chaque donnée (qu’il s’agisse de textes, d’images, de vidéos, de sons, de documents ou de tout autre type de données)
Entre les deux: un réseau neuronal profond (= contenant un grand nombre de couches de neurons) avec une dernière couche dans laquelle s’effectue la classification proprement dite.

2. Transfer learning (apprentissage par transfert):

Ré-entraînement du modèle de base sur un ensemble de données nettement plus restreint, mais spécifique à la tâche que vous voulez assigner à ce modèle. Une méthode très courante consiste à conserver l’ensemble du modèle initial sauf sa dernière couche, celle dans laquelle s’effectuait la classification, cette couche étant remplacée par une ou plusieurs couche(s) de neurones dont les paramètres seront adaptés lors de cette nouvelle phase d’entraînement.

Bien sûr, il est indispensable que le modèle de base soit suffisamment proche de la tâche spécifique assignée au modèle ainsi raffiné. Moyennant quoi, cette méthode permet d’obtenir assez rapidement et avec un nombre limité de données un modèle très performant pour la tâche ciblée.

Reste ici la question des données d’entraînement du modèle initial: avez-vous la possibilité de vérifier s’il s’agissait de données acquises légalement ou non? Si c’est le cas, cette approche est parfaitement éthique.

2.4. Federated learning (ou apprentissage fédéré)

L’apprentissage fédéré présente l’immense avantage de permettre la mise en commun de différentes bases de données sans pour autant les partager. Concrètement, chaque site entraîne une version du modèle avec ses propres données, puis ne partage que les paramètres du modèle entraîné. C’est la mise en commun de ces différents ensembles de paramètres qui permet d’obtenir un modèle global qui optimise un objectif commun à tous les sites.

Comme schématisé ci-dessous, cette approche peut être:

centralisée: un système central communique aux différents sites la version courante du modèle et récupère et combine les versions intermédiaires de celui-ci entraînées sur les différents sites
ou décentralisée: pas de système central, les différents nœuds communiquent directement entre eux, mais toujours sans transfert des données d’entraînement.

Le modèle ainsi entraîné peut être un réseau neuronal, mais aussi une régression linéaire, un ensemble d’arbres de décision (voir notre article précédent) ou tout autre type de modèle.

Les différents ensembles de données peuvent être:

de taille très variable
statistiquement très différents (avec des biais différents).

L’inconvénient étant que le manque d’accès à l’ensemble des données d’entraînement complique l’identification des biais éventuels de celles-ci. Des exemples concrets d’application de cette méthodologie sont, entre autres:

Les réseaux de franchisés devant traiter des documents similaires, issus de leur maison-mère, mais ne souhaitant pas que leurs documents soient disponibles pour les autres franchisés, chacun ayant ses propres intérêts.
IoT – l’internet des objets: par exemple, traitement de données personnelles au niveau d’un smartphone, ne transférant au développeur de l’app utilisée que les modifications résultantes sur le modèle local, pas les données personnelles. Un des points potentiellement problématiques étant ici le risque de perte de connexion, par exemple s’il s’agit de smartphones communiquant via le Wi-Fi.
Secteur médical: voir par exemple le projet Melloddy: https://www.melloddy.eu. Les données personnelles traitées dans ce domaine sont généralement trop sensibles pour être partagées. Même les techniques d’anonymisation peuvent atteindre leurs limites pour ce type de données.

2.5. Algorithmes génétiques

Même en l’absence de la moindre donnée, certains problèmes à résoudre pour une PME n’en sont pas moins balisés par:

un ou plusieurs objectif(s) plus ou moins quantifiable(s) en fonction des valeurs d’un certain nombre de paramètres
un ensemble de contraintes sur les différents paramètres
des «variables de décision»: les paramètres dont on veut optimiser les valeurs pour maximiser ou minimiser un objectif donné.

Par exemple:

l’établissement de plannings complexes sujets à un grand nombre de contraintes
l’optimisation logistique dans un environnement complexe.

Peu connue, la fonctionnalité «Solveur» d’Excel permet de traiter certains de ces problèmes, à condition que leur nombre de variables de décision ne dépasse pas 200. Inutile de dire qu’on y est vite pour des problèmes réels.

Plusieurs solutions existent alors, soit sous forme d’extensions pour Excel soit indépendamment, mais elles sont rapidement très coûteuses.

Les algorithmes génétiques représentent une bonne alternative. Faciles à programmer, ils peuvent s’insérer dans vos outils préférés: Excel, Google Sheets ou tout autre équivalent programmable.

Fondamentalement, il s’agit d’algorithmes qui imitent des phénomènes naturels. Par exemple, la combinaison des chromosomes, la communication par phéromones des fourmis, le vol en essaim des oiseaux ou des abeilles ou même la propagation des mauvaises herbes!

Pour le vol en essaim, par exemple, les différentes étapes de l’algorithme se présentent schématiquement comme ceci:

Génération d’un certain nombre n de solutions aléatoires: dans la plage des valeurs autorisées pour chacune des variables de décision, génération d’une valeur au hasard. Le résultat étant un ensemble de valeurs qui peut être considéré comme un point dans un espace à n dimensions.
Pour chacun de ces ensembles de valeurs:

Calcul du ou des objectif(s) correspondant aux valeurs des variables de décision de ce point
Si la valeur ainsi obtenue est meilleure que celle de l’itération précédente, les valeurs des variables de décision correspondantes deviennent l’optimum pour ce point et remplacent les anciennes valeurs.
Si cette valeur d’objectif est meilleure que toutes les valeurs d’objectif obtenues jusqu’ici pour tous les points (pas seulement celui-ci), ce point devient l’optimum global pour l’essaim.

Pour chacun des points, calcul de nouvelles valeurs des variables de décision en combinant les tendances observées (progrès des valeurs d’objectif) pour ce point en particulier ET en fonction du point optimum global.
Itération sur ces étapes jusqu’à ce que le critère de fin de l’algorithme soit atteint, ce critère pouvant être, au choix:

Un nombre maximum d’itérations
Une valeur cible pour l’objectif
Un gain d’objectif qui ne progresse plus suffisamment d’une itération à l’autre. Le danger de ce dernier type de critère étant que le modèle pourrait être enfermé dans la zone d’un optimum local et manquer le réel optimum global.

Un dessin (et surtout une vidéo) valant mieux qu’une longue explication, voici une visualisation de ce processus:

Conclusion

Nous n’avons fait ci-dessus qu’effleurer l’univers des possibilités d’application de l’intelligence artificielle en l’absence de données ou avec un ensemble réduit de celles-ci. En règle générale, il est préférable de disposer de moins de données de meilleure qualité et/ou plus représentatives des phénomènes étudiés que de rechercher à tout prix le «Big Data».

Travailler avec des modèles de taille réduite et plus spécifiques donne généralement des résultats plus précis que les immenses modèles généralistes, en même temps que des temps de calcul et des coûts énergétiques moins importants. À condition, bien sûr, que les données disponibles soient suffisamment représentatives de la totalité des cas possibles pour que le modèle puisse généraliser ses prédictions à des exemples auxquels il n’a pas été confronté durant son entraînement. Bref, pas besoin d’un modèle entraîné sur l’intégrale du théâtre de Shakespeare ou des tableaux de Monet pour extraire des données financières d’un bon de commande!

Finalement, le plus difficile est de trouver son chemin parmi la multitude de solutions disponibles. Parce que, bien avant quelque intelligence artificielle que ce soit, c’est d’abord d’intelligence humaine que les PME et TPE auront besoin dans les années à venir…

Maintenant que vous savez de quelles données vous pouvez ou non disposer et quel type de modèles vous pourriez utiliser, concrètement, comment ça se passe? Dans quelle mesure ces modèles peuvent-ils, ou non, s’intégrer dans vos process actuels? C’est ce que nous développerons dans un prochain article.

Voyez aussi