You are currently viewing L’intelligence artificielle, vous êtes pour ou vous êtes contre?

Dans les deux cas, vous avez raison! Mais de quoi parlez-vous, exactement?

Dans leur livre «AI Snake Oil: What Artificial Intelligence Can Do, What It Can’t, and How to Tell the Difference»), à paraître dans les prochains jours, le Prof. Arvind Narayanan et le doctorant Sayash Kapoor introduisent leur sujet par une comparaison très pertinente: parler d’«Intelligence Artificielle», c’est comme utiliser le terme général de «véhicules», qu’il s’agisse de voitures, de bus, de bicyclettes, de fusées spatiales ou de tout autre type d’engin permettant de se rendre d’un point A à un point B. Ils imaginent un univers alternatif où cette limitation de langage donnerait lieu à des débats enflammés sur la question de savoir si les «véhicules» sont ou non nuisibles à l’environnement, un camp parlant de bicyclettes alors que l’autre parle d’avions, chacun pensant parler des mêmes «véhicules» que son contradicteur.

Il en est de même pour l’intelligence artificielle. Par exemple, ChatGPT et un modèle utilisé par une entreprise pour optimiser la gestion de ses stocks sont totalement différents, que ce soit dans leur mode de fonctionnement, leur objectif ou leurs failles.

Le but du présent article est d’illustrer (très brièvement!) les différentes facettes de ce qui est communément recouvert par l’appellation d’intelligence artificielle ou IA. Et, surtout, d’en montrer quelques applications réellement utiles et faciles à mettre en œuvre, même au sein d’une PME, en se basant sur des solutions déjà présentes et donc maîtrisées par le personnel existant (e.g. Excel/Power Automate ou Google Sheets/Apps Script).

1. L’intelligence artificielle (ou AI = Artificial Intelligence)

Intelligence artificielle: globale

Nous éviterons le piège de tenter de définir ici l’intelligence artificielle: d’autres l’ont fait mieux que nous et, comme tous les concepts foisonnants, sa définition est en évolution constante et donc constamment sujette à l’obsolescence. Disons juste, à la louche, qu’il s’agit d’essayer de simuler un comportement ou un mode de raisonnement humain OU rationnel, les deux n’étant pas forcément (voire, forcément pas…) identiques.

Peu vulgarisées à destination du grand public, les applications d’IA qui n’entrent pas dans ses sous-ensembles plus populaires que nous verrons ci-dessous sont pourtant tout aussi intéressantes pour une PME. Par exemple:

1.1. Raisonnement automatisé

Remontant aux balbutiements de l’intelligence artificielle, avec les systèmes experts basés sur un ensemble de règles de type if-then-else (si-alors-sinon), les techniques de raisonnement logique automatisé ont bien évolué, souvent couplées maintenant avec l’apprentissage machine (ML, voir plus bas) et/ou des analyses statistiques.

À partir d’un ensemble de connaissances représentées sous forme de concepts et de relations entre ces concepts, il s’agit de déduire selon des règles logiques et/ou induire à partir des données de nouvelles connaissances permettant, in fine, d’aider à la prise de décision.

Les domaines d’application couvrent, entre autres, les analyses de données médicales, la détection de fraudes dans le domaine financier ou la maintenance prédictive d’installations industrielles.

1.2. Algorithmes génétiques

Ce sont des algorithmes qui imitent certains phénomènes naturels aussi variés que la combinaison des chromosomes, la communication par phéromones des fourmis, le vol en essaim des oiseaux ou des abeilles ou même la propagation des mauvaises herbes!

Un des grands avantages de ces algorithmes est qu’ils ne requièrent pas de données de départ, ce qui les rend accessibles même à des startups ou des entreprises ne disposant pas de données. Nous y reviendrons plus longuement dans un article ultérieur.

2. L’apprentissage machine (Machine Learning – ML)

Rapport entre machine learning et intelligence artificielle

Dans une conférence qu’il donnait récemment au Centre Européen du Judaïsme, Etienne KLEIN a mis en évidence la différence de signification du mot «intelligence» en français et en anglais:

Alors qu’en anglais ce mot recouvre le traitement de l’information et la gestion des données, en français son domaine est nettement plus large: «capacités de discernement, capacité à distinguer le vrai du faux, capacité à argumenter, capacité à faire des expériences de pensée, c’est-à-dire interroger son propre savoir pour tester sa cohérence». Distinction importante pour répondre à notre question: «De quoi parlez-vous, exactement?» Avec l’apprentissage machine, nous sommes clairement dans l’acception anglo-saxonne du terme.

Contrairement aux logiciels «traditionnels», où la logique à suivre est codée en dur par le(s) développeur(s), l’apprentissage machine consiste à laisser l’ordinateur construire un modèle à partir d’un ensemble de données. Les avantages étant, entre autres, que les modèles ainsi obtenus sont, généralement capables:

  • de mieux s’adapter à des situations nouvelles
  • de mieux formaliser des notions qu’un humain peut maîtriser intuitivement sans pour autant savoir comment les systématiser (par exemple, la reconnaissance faciale).

Deux exemples de familles importantes de techniques de ML sont:

2.1. Les arbres de décision (Decision Trees – DT)

Arbre de décision. McDonald, James B. & Xu, Yexiao J., 1995, “A generalization of the beta distribution with applications”, Journal of Econometrics, Elsevier, vol. 66(1-2), pages 133-152.
Arbre de décision. McDonald, James B. & Xu, Yexiao J., 1995, “A generalization of the beta distribution with applications”, Journal of Econometrics, Elsevier, vol. 66(1-2), pages 133-152.

Un arbre de décision est une représentation graphique d’un processus de décision. Concrètement, imaginons que vous disposiez d’un ensemble de données concernant vos clients: données socio-économiques, habitudes d’achats et autres. Comment personnaliser au mieux vos offres promotionnelles pour chaque client en particulier?

Nous passerons ici sur les détails de la création des arbres de décision, mais notons les points essentiels de ce processus:

  • À chaque étage de l’arbre, détermination du paramètre qui permettra le mieux de séparer les différentes catégories de clients
  • Trouver le moment optimal pour arrêter le développement de l’arbre: trop tôt, les catégories de clients ne seront pas assez détaillées, trop tard elles le seront inutilement trop.

Généralement, on ne travaille pas avec un seul arbre de décision, mais avec plusieurs, voire beaucoup. Générés aléatoirement, ou sur des sous-ensembles aléatoires des données, ou sur base de critères plus systématiques, le domaine des techniques basées sur les arbres de décision est très vaste, voir par exemple cet inventaire de Yannig Goude:

Méthodes d'ensemble et forêts aléatoires, Yannig Goude. https://www.imo.universite-paris-saclay.fr/yannig.goude/Materials/ProjetMLF/rf_web.html
https://www.imo.universite-paris-saclay.fr/yannig.goude/Materials/ProjetMLF/rf_web.html

Le résultat est un ensemble de règles de type «si… alors… sinon…» (if-then-else), qui présente l’énorme avantage d’être très efficace en production: une fois que le modèle a été patiemment constitué, son application sur les nouvelles données est très rapide.

Évidemment, comme tout modèle, il doit être mis à jour à intervalles réguliers pour tenir compte de l’arrivée de nouveaux produits, de l’évolution des habitudes de consommation et autres paramètres propres aux clients. Pour éviter, par exemple, de faire comme ce magasin de chaussures pour enfants qui continue à vous envoyer ses messages publicitaires alors que vos enfants ont nettement passé l’âge de se fournir chez lui!

Autre avantage, cette structure d’arbres de décision permet ce qu’on appelle l’XAI ou intelligence artificielle explicable, c’est -à-dire que chaque critère conduisant à la décision finale peut être tracé. Ceci est particulièrement important pour des applications telles que, par exemple, l’accession ou non à un prêt bancaire, où le client a le droit d’être informé de la raison d’un refus éventuel. Chose impossible avec d’autres modèles de type «boîte noire», par exemple un réseau neuronal sans composante XAI.

2.2. L’apprentissage par renforcement (Reinforcement Learning – RL)

Un des inconvénients des modèles tels que les arbres de décision, qui sont basés sur des données existantes, est qu’ils sont moins efficaces lorsqu’ils sont utilisés sur des données trop différentes de celles auxquelles ils ont déjà été confrontés: nouveau client atypique, introduction de nouveaux produits dans votre assortiment, évolution des habitudes de consommation…

En combinant l’exploitation des données existantes avec l’exploration de nouvelles voies pour optimiser les objectifs à long terme plutôt que le court terme, l’apprentissage par renforcement permet d’aller plus loin.

Illustration de l'apprentissage par renforcement (reinforcement learning)
Composants de l’image: OPENCLIPART (https://openclipart.org/artist/cbernizet, https://openclipart.org/artist/FLM et https://openclipart.org/artist/wildchief)

Cette technique consiste à tester, au début au hasard, une action, puis calculer le gain (la «récompense») ainsi obtenu. Au fil du temps, la comparaison entre les gains obtenus et les actions effectuées, en tenant compte du contexte au moment de chaque action, permet d’établir les règles à suivre pour maximiser les gains.

Pour l’anecdote: c’est cette technique qui a permis à une IA, AlphaGo, de battre pour la première fois au jeu de Go le champion de l’époque, Lee Sidol.

Image: Pawlak M., “AlphaGo - Quand la machine défie l’homme - 2/3, Medium, 07.09.2020 - https://maximepawlak.medium.com/alphago-quand-la-machine-défie-lhomme-2-3-f21d284a934c
Image: Pawlak M., “AlphaGo - Quand la machine défie l’homme - 2/3, Medium, 07.09.2020 - https://maximepawlak.medium.com/alphago-quand-la-machine-défie-lhomme-2-3-f21d284a934c

3. L’apprentissage profond (Deep Learning – DL)

Relation entre intelligence artificielle, machine learning et deep learning

Le Deep Learning (DL) est la partie de l’IA qui utilise des réseaux neuronaux «profonds». Un réseau neuronal est un modèle qui tente d’imiter le fonctionnement du cerveau en combinant des «neurones». Chaque neurone reçoit des informations d’un ou plusieurs neurones voisins, combine ces informations à l’aide de paramètres qui lui sont propres et transmet l’information résultante vers un ou plusieurs autres neurones. Voir par exemple l’excellente explication de Dominic Pelletier:

https://www.linkedin.com/feed/update/urn:li:activity:7377330940068663297/

Longtemps considéré comme purement théorique, l’usage de ces réseaux neuronaux profonds a littéralement explosé depuis 10-15 ans grâce à l’effet combiné des croissances spectaculaires aussi bien des puissances de calcul que des quantités de données disponibles.

Parmi la multitude des modèles disponibles, deux grands domaines couvrent l’analyse d’images et l’analyse du langage naturel. En combinant ces deux domaines, on arrive aux analyses multimodales, comme décrit ci-dessous.

3.1. L’analyse d’images (Computer Vision – CV)

Suite logique de l’OCR (Optical Character Reading), qui permet depuis plusieurs décennies de numériser des textes entiers mais sans en interpréter la signification, l’analyse d’images et/ou de vidéos par IA a elle aussi bénéficié de l’essor des réseaux neuronaux profonds, et en particulier des réseaux convolutifs (Convolutional Neural Networks – CNN).

Le principe de base est ici de décoder l’image par étapes, en commençant par les fondamentaux (lignes droites, courbes, à plats de couleur, délimitations entre zones de couleurs différentes…) puis, progressivement, des éléments plus complexes (par exemple, pour un visage: œil, nez, bouche…), avant de les recombiner en une vue de l’ensemble.

“Predicting the effective mechanical property of heterogeneous materials by image based modeling and deep learning”, Xiang Li, Zhanli Liu, Shaoqing Cui, Chengcheng Luo, Chenfeng Li, Zhuo Zhuang, Comput. Methods Appl. Mech. Engrg. 347 (2019) 735-753
“Predicting the effective mechanical property of heterogeneous materials by image based modeling and deep learning”, Xiang Li, Zhanli Liu, Shaoqing Cui, Chengcheng Luo, Chenfeng Li, Zhuo Zhuang, Comput. Methods Appl. Mech. Engrg. 347 (2019) 735-753

Contrairement aux systèmes d’OCR, dont la qualité des résultats se dégrade très vite dès que la qualité de l’image qui leur est fournie n’est pas optimale, ou juste lorsque son alignement s’écarte trop de l’horizontale, les réseaux convolutifs sont plus robustes.

Un des pionniers du développement de ces réseaux est Yann LeCun, un ingénieur français qui dirige maintenant le laboratoire d’intelligence artificielle de Meta, la maison mère de Facebook, WhatsApp et Instagram. Durant la dernière décennie du siècle dernier déjà, c’est lui qui est à la base de la mise au point du réseau neuronal LeNet, un des premiers modèles permettant de déchiffrer avec assez de précision des chiffres manuscrits. Basé sur les opérations de convolution décrites ci-dessus, ce réseau permet, à partir d’une image carrée de 28 pixels de côté d’obtenir le chiffre de 0 à 9 représenté sur celle-ci:

Réseau LeNet de Yann LeCun - Zhang A., Lipton Z. C., Li M. et Smola A. J. - https://github.com/d2l-ai/d2l-en, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=152265656
Réseau LeNet de Yann LeCun - Zhang A., Lipton Z. C., Li M. et Smola A. J. - https://github.com/d2l-ai/d2l-en, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=152265656

Inutile de dire que de l’eau a coulé sous les ponts depuis et que les modèles se sont multipliés, approfondis, spécialisés… Les applications possibles en entreprises sont très nombreuses. Votre supermarché favori les utilise probablement déjà pour automatiser la reconnaissance de certains fruits et légumes lors de votre passage à la caisse. Le maraîcher qui produit ces fruits et légumes les utilise peut-être aussi pour optimiser ses arrosages, détecter les fruits murs, malades ou avariés, etc. Votre fournisseur préféré sur internet y fait peut-être appel pour détecter les colis défectueux avant leur envoi… ou peut-être devrait-il y penser. 😉

Contrairement à l’IA générative dont il sera question plus bas, la plupart de ces modèles sont entraînés sur des ensembles de données ne comportant pas de données sous copyright. La plupart, mais pas tous. À ce stade déjà, certains ensembles de données utilisés sont parfois considérés comme litigieux. À vérifier au cas par cas, donc.

3.2. L’analyse du langage naturel (Natural Language Processing – NLP)

Bien avant ChatGPT & Cie, les chercheurs se sont penchés sur l’analyse automatisée du langage naturel. Contrairement aux images, qui, sous forme numérique, ne sont finalement qu’un tableau de pixels dont les couleurs sont représentées par un ou plusieurs nombres, soit un format parfaitement adapté pour un traitement informatique, représenter le langage naturel sous une forme interprétable par un ordinateur (en clair, des nombres) n’est pas immédiat.

3.2.1. One-hot encoding (ou encodage 1 parmi n)

L’approche la plus simple consiste à attribuer à chaque mot présent (que ce soit une ou plusieurs fois) dans le texte un numéro unique. Si V est le nombre total de mots différents dans tous les textes du corpus considéré, chaque mot est donc représenté par un vecteur de taille V, dont tous les éléments sont égaux à 0 sauf celui correspondant à l’index du mot en question dans la liste du vocabulaire ainsi défini.

C’est facile, mais ça présente plusieurs inconvénients dont, entre autres:

  • Il faut réadapter la numérotation à chaque introduction de nouveaux mots.
  • La taille de l’ensemble des numéros devient rapidement énorme, et les vecteurs représentant chaque mot contiennent principalement des 0, ce qui n’est pas optimal pour les opérations numériques qui seront nécessaires pour entraîner le modèle.
  • Chaque mot est considéré individuellement, sans prise en compte de son contexte dans les textes étudiés.
  • La fréquence d’apparition du mot dans le texte n’est pas non plus prise en compte.

3.2.2. Prise en compte de la fréquence du mot

Une seconde approche consiste à ajouter le nombre de fois que le mot apparaît dans le texte, avec ou sans pondération sur le nombre total de mots du texte en question. Ceci permet d’améliorer la classification des textes, la fréquence d’apparition d’un mot dans différents textes permettant d’identifier des similarités sémantiques entre ces textes.

Restent quand même deux inconvénients majeurs:

  • Deux synonymes seront identifiés comme deux mots totalement différents.
  • L’ordre dans lequel apparaissent les mots n’est pas pris en compte.

3.2.3. Groupes de mots

Pour ajouter la notion de contexte, une troisième approche consiste à diviser le texte en sous-ensembles de n mots contigus. Par exemple:

Groupes de mots

Remarque: l’exemple ci-dessus est purement théorique. En pratique, la plupart des modèles de langage commencent par supprimer les mots tels que «le», «la», «de» et autres articles, prépositions et autres, porteurs de peu de contenu sémantique, afin de se focaliser sur les noms, verbes, etc.

En augmentant le nombre n de mots dans chaque groupe, on considère un contexte plus large, mais on augmente aussi le nombre d’ensembles de mots possibles et donc le nombre de 0 dans les vecteurs représentant chacun de ces ensembles présent dans les textes considérés, soit le même problème que ci-dessus.

Néanmoins, on peut considérer que des textes présentant une grande similitude en terme de ces ensembles de mots seront sémantiquement proches.

Toutes les approches décrites jusqu’ici partagent les limitations suivantes:

  • Elles traitent les mots séparément ou par groupes, ce qui ne leur permet pas de capturer les relations entre les mots.
  • Elles ne sont pas capables de traiter des mots non compris au départ dans leur vocabulaire.
  • Elles résultent dans des représentations de mots ou de groupes de mots sous forme de vecteurs de grande dimension contenant principalement des 0.

3.2.4. Word embeddings (en français: plongement lexical ou plongement sémantique)

Avec l’avènement des réseaux neuronaux, il est devenu possible de représenter le langage naturel sous une forme plus compacte (typiquement 50 à 500 dimensions, au lieu des dizaines de milliers voire plus si chaque mot ou groupe de mots est considéré séparément) et plus dense (moins de 0): c’est une représentation vectorielle qu’on appelle en anglais les «embeddings». Avec une telle représentation, les modèles d’apprentissage machine (ML) deviennent plus efficaces. Il devient également possible d’identifier des similarités sémantiques entre les mots, permettant d’établir entre eux des relations telles que, par exemple:

Roi – Homme + Femme => Reine

Néanmoins, il s’agit toujours d’une représentation par mot, et l’ordre des mots n’y est pas encore très bien pris en compte. En outre, dans le cas particulier de la traduction par exemple, il reste délicat d’utiliser ces approches, certaines langues ayant des structures de phrase trop différentes (par exemple, renvoi du verbe en fin de phrase ou non).

3.2.5. Mécanisme d’attention

Une avancée significative pour résoudre ce problème a été apportée par l’introduction du mécanisme d’attention. Par similarité avec l’attention humaine, ce mécanisme permet de focaliser, pour chacun des mots de la phrase, l’attention sur les éléments sémantiques les plus proches du sien. L’exemple de traduction ci-dessous montre que c’est sur le mot «cat» de la phrase cible que le modèle doit porter la plus grande attention pour la traduction du mot «chat» de la phrase source. Les deux composants suivants en importance relative étant «’s» (appartenance du dit chat) et «mouse» (l’autre comparse de la scène décrite), alors que «my», «eats» et «the» sont les moins susceptibles de représenter le félin vorace…

Image: Louen342 - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=170780198

Ce mécanisme d’attention a d’abord été utilisé avec toutes sortes de modèles pré-existants, aussi bien pour l’analyse de langage que pour l’analyse d’images (focaliser l’attention du réseau convolutif sur une zone spécifique de l’image).

C’est en 2017 qu’une équipe de huit chercheurs de Google a publié un article intitulé «Attention is all you need», définissant un nouveau type de modèle basé exclusivement sur ce mécanisme d’attention, les «transformers»:

https://arxiv.org/pdf/1706.03762

Ceux-ci seront à la base des Large Language Models (voir ci-dessous).

Bien que le mécanisme d’attention ait permis d’améliorer significativement la qualité des traductions automatiques, il importe de rester prudent face aux auto-congratulations du secteur: les taux de réussite affichés sont généralement calculés… automatiquement, sur base de critères calculés ou d’autres traductions automatisées! De l’avis général des professionnels de la traduction, si le sens général du texte commence à être bien rendu par les traductions automatisées, celles-ci restent actuellement incapables de rendre ce qu’il est coutume d’appeler le «génie de la langue» et les nuances.

Enfin, il est important de noter que tous les modèles de langage sont forcément biaisés, puisqu’ils sont entraînés sur un corpus de textes donné. Les tentatives de correction de ces biais entraînant, à leur tour, une inflexion du modèle dans une autre direction…

3.3. Les analyses multimodales

Le concept d’«embeddings» décrit ci-dessus peut être étendu à d’autres types d’information que les textes. Par exemple, en entraînant simultanément deux modèles, un sur des images et l’autre sur les descriptions textuelles de celles-ci, on génère deux ensembles d’embeddings. En entraînant un modèle à faire correspondre ces paires de vecteurs, il est possible par après d’utiliser ce modèle pour retrouver une image à partir du texte la décrivant ou rédiger une description à partir de l’image correspondante.

CLIP - https://proceedings.mlr.press/v139/radford21a.html
https://proceedings.mlr.press/v139/radford21a.html

La méthode peut encore être raffinée pour permettre de se focaliser sur certains détails de l’image. En 2018 déjà, soit bien avant l’annonce fracassante d’OpenAI à propos de ChatGPT, Katrien Laenen et son équipe de la KUL avaient ainsi développé, pour un site de vente online de vêtements et accessoires, un modèle capable de retrouver des objets globalement semblables à un objet donné, mais avec certains détails différents, décrits textuellement:

Analyse multi-modale dans le domaine de la mode - Laenen K., Zoghbi S. et Moens M.F., “Web Search of Fashion Items with Multimodal Querying”, WSDM’18, February 5-9, 2018, Marina Del Rey, CA, USA, pp. 342-350. https://dl.acm.org/doi/pdf/10.1145/3159652.3159716
Laenen K., Zoghbi S. et Moens M.F., “Web Search of Fashion Items with Multimodal Querying”, WSDM’18, February 5-9, 2018, Marina Del Rey, CA, USA, pp. 342-350. https://dl.acm.org/doi/pdf/10.1145/3159652.3159716

Étonnamment, ce n’est que très récemment que Vinted a commencé à proposer une option du même ordre d’idée, bien que moins élaborée:

https://www.vinted.be - 11.09.2025

Un grand nombre d’applications sont maintenant multimodales, c’est-à-dire qu’elles permettent de combiner des éléments de texte avec des images et/ou vidéos, ou même des pistes sonores. C’est aussi sur ce concept de représentation vectorielle multimodale que sont basés pas mal de modèles d’IA générative permettant, par exemple, de générer des images ou même des vidéos ou des sons à partir d’une simple description textuelle (DALL-E, Stable Diffusion, Sora…).

4. Les Large Language Models (LLMs), dont ChatGPT

Comme leur nom l’indique, les Large Language Models (LLMs) sont des modèles de langage, mais XXXXXX…L! Tout y est démesuré: le nombre de données utilisées pour leur entraînement, les data centers et les puissances de calcul nécessaires à leur entraînement et à leur utilisation, les montants des investissements consentis… C’est sur ces modèles que se concentrent la plupart des critiques relatives à ce que la plupart des gens appellent l’«IA»:

  • Empreinte écologique disproportionnée par rapport à la valeur produite
  • Origine douteuse des ensembles gigantesques de données sans cesse nécessaires à l’entraînement et à la mise à jour de ces modèles
  • Bilan économique insensé (dépenses démesurées par rapport aux bénéfices engendrés) si on ne tient pas compte de l’exploitation possible des données en question (voir par exemple «L’âge du capitalisme de surveillance» de Shoshana Zuboff).

Les principales différences entre les modèles de langage «traditionnels» (même si cet adjectif est peu approprié pour un domaine si récent…) et les LLMs sont les suivantes:

  • Là où les modèles NLP traditionnels sont adéquats pour la compréhension, le résumé ou le classement de textes, les LLMs sont en plus capables de générer de nouveaux textes sur base de prompts, c’est-à-dire de descriptions textuelles du contenu, du style, de la longueur, etc. des textes souhaités.
  • Les LLMs peuvent être utilisés pour un grand nombre de tâches sans devoir être ré-entraînés spécifiquement pour celles-ci, contrairement à la plupart des modèles traditionnels.
  • Les LLMs sont aussi capables de tenir compte d’un contexte plus long que les modèles traditionnels, ce qui leur permet d’interagir de façon plus naturelle et cohérente dans leur conversation avec l’utilisateur. Cette caractéristique est d’ailleurs poussée au maximum dans les chatbots «compagnons», qui sont entraînés pour émailler leur conversation de «… hum» et autres respirations typiques de la conversation humaine à bâtons rompus, favorisant chez leurs interlocuteurs une certaine forme d’anthropomorphisme. Au point d’influencer le comportement de certains de ceux-ci, conduisant (entre autres) au suicide de plusieurs adolescents.

Bien que l’utilisation de ces modèles en entreprise ait été poussée au maximum ces dernières années, force est de constater que pas mal de ces applications se sont révélées au mieux pas très utiles, au pire nuisibles, avec des hallucinations de chatbots qui ont parfois coûté très cher aux entreprises concernées. Il est d’ailleurs intéressant de voir que la plupart des startups qui proposent des modèles d’IA spécialisés (non LLMs), si elles proposent sur leur site un chatbot, se gardent bien de laisser à une IA le soin de celui-ci: nous avons plusieurs fois pu constater que les questions que nous posions via le dit chatbot recevaient en fait une réponse on ne peut plus humaine, généralement rédigée par un des fondateurs de l’entreprise! Comme quoi, ceux qui savent… 😉

Image générée à l’aide de truepixai.com par Tripathi N., pour “Guide to Large Language Models: How They Learn, Adapt and Transform AI”, Medium, 21.12.2024
Image générée à l’aide de truepixai.com par Tripathi N., pour “Guide to Large Language Models: How They Learn, Adapt and Transform AI”, Medium, 21.12.2024

Les LLMs peuvent néanmoins être utiles en entreprise, par exemple:

  • Pour de l’assistance à la rédaction: si vous n’avez pas la plume facile, un LLM peut vous aider en générant une première version de votre texte. Mais si vous voulez éviter tout problème, il vous faudra en faire une sérieuse relecture. Et oubliez cette solution s’il s’agit d’un domaine que vous maîtrisez mal: il est impératif que vous soyez en mesure de corriger les erreurs que tout LLM est capable d’affirmer avec un extraordinaire aplomb!
  • Pour générer des images ou des vidéos: il faut bien le reconnaître, c’est très tentant. La facilité avec laquelle il est possible d’obtenir un résultat très satisfaisant fait vite oublier les problèmes éthiques. Mais ceux-ci sont bien présents, la plupart de ces modèles ayant été entraînés sur des données obtenues, pour certaines, de façon équivoque…
  • Pour des applications où les résultats obtenus avec un LLM peuvent être comparés aux résultats obtenus d’une ou plusieurs autres sources de données: que deux ou plusieurs extractions de données différentes donnent exactement la même erreur est déjà moins probable… même si toujours pas impossible! Il est donc important de calculer le risque au cas par cas pour chaque application envisagée.

Reste que, même pour les applications mentionnées ci-dessus, il ne faut pas oublier que les LLMs sont, par définition, des modèles gigantesques, dont la consommation d’énergie est conséquente. La plupart du temps, il existe des modèles de taille plus modeste qui sont plus spécialisés pour la tâche spécifique envisagée et donnent donc des résultats plus fiables, tout en consommant nettement moins d’énergie.

Conclusion

Bref, ChatGPT et les LLMs ne représentent qu’une très faible partie de l’ensemble des modèles d’intelligence artificielle actuellement disponibles, mais ils projettent sur l’ensemble du domaine les critiques qui les concernent.

D’autre part, leur mise en avant à notre avis exagérée occulte quantité d’autres modèles de taille réduite et plus spécialisés, qui apportent pourtant nettement plus de valeur aux entreprises en général et aux PME en particulier, tout en étant moins énergivores et en fournissant des réponses plus précises.

Enfin, combiner différents types d’approches est de plus en plus considéré comme la voie la plus prometteuse, les modèles hybrides ainsi obtenus compensant leurs faiblesses mutuelles pour donner des solutions plus robustes. L’IA neuro-symbolique, qui combine un ou des réseaux neuronaux avec une approche symbolique (relations entre les différents composants) semble particulièrement prometteuse. La recherche de l’Algorithme Maître (voir l’excellent livre de Pedro Domingos, «The Master Algorithm») n’est cependant pas près d’aboutir…

 

Alors, s’il vous plaît, une fois pour toutes, arrêtez de dire «IA» quand vous voulez parler de (ou critiquer… ) ChatGPT ou autres LLMs!