You are currently viewing Face à l’intelligence artificielle, éloge de la créativité humaine
Le Moléson, Alpes suisses

Au hasard d’une randonnée dans les Alpes suisses:

— Ce pic-là, c’est le Moléson.

— On dirait un mammouth.

— Un quoi??? … Mais… tiens, c’est vrai. Bien vu!

Vous ne le voyez pas? Essayez…

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

Voilà, vous y êtes!

Le Moléson avec silhouette de mammouth
Cette image N’A PAS été créée par IA. La photo du Moléson est prise “à l’ancienne” avec un iPhone, le contour du mammouth y a été ajouté manuellement dans Pixelmator.

Autre exemple: que pensez-vous du slogan de ce glacier?

Image publiée sur Substack par Diane Fastrez le 08.09.2025

Ça n’a l’air de rien, mais voilà deux associations d’idées issues probablement d’une inspiration soudaine d’un cerveau bien humain, et que les intelligences artificielles actuelles auraient eu bien du mal à trouver. À moins, peut-être, d’y être spécifiquement entraînées, avec des quantités non négligeables de données et une consommation énergétique non moins impressionnante.

1. Le cerveau est-il un «disque dur»?

Les premiers réseaux neuronaux ont été imaginés à partir du fonctionnement observé pour le cerveau: un amas de neurones, chacun recevant des informations de neurones adjacents et transmettant à son tour des informations à d’autres neurones. Enregistrement et traitement d’informations sous forme d’influx nerveux.

1.1. C’est plus complexe que ça

Mais des études récentes (voir par exemple «Memory lane», de Ciara Greene et Gillian Murphy aux editions Princeton University Press) montrent que le cerveau humain ne se contente pas de traiter les informations reçues, il les trie également. Ce qu’on appelle mémoire sélective est inhérent à l’être humain et résulte du lent travail de l’évolution, où l’être humain a été sélectionné entre autres sur sa capacité à retenir les informations utiles pour sa survie et oublier les autres. La distorsion de la réalité, que nous pratiquons tous à des degrés divers, n’étant qu’une des facettes de ce processus: la partie qui nous permet de protéger notre estime de nous-même.

1.2. Et la consommation énergétique?

En 2013 déjà, Ray Kurzweil, dans son livre «How to create a mind – The secret of human thought revealed», mettait le doigt sur la grande différence de niveau d’énergie requis par le cerveau, par rapport à un réseau neuronal artificiel, pour effectuer une tâche donnée.

Plus récemment, un vaste consortium de recherche financé par l’Union Européenne, The Human Brain project, s’est également penché sur le sujet, avec des observations similaires:

«In contrast to power-hungry computers, brains have evolved to be energy-efficient. It is estimated that a human brain uses roughly 20 Watts to work – that is equivalent to the energy consumption of your computer monitor alone, in sleep mode. On this shoe-string budget, 80–100 billion neurons are capable of performing trillions of operations that would require the power of a small hydroelectric plant if they were done artificially.»

Ou, en traduction libre: «Contrairement aux ordinateurs gourmands en énergie, le cerveau a évolué pour être économe en énergie. On estime qu’un cerveau humain consomme environ 20 watts pour fonctionner, soit l’équivalent de la consommation d’énergie de votre écran d’ordinateur en mode veille. Avec cette faible consommation, 80 à 100 milliards de neurones sont capables d’effectuer des quantités d’opérations qui nécessiteraient la puissance d’une petite centrale hydroélectrique si elles étaient réalisées artificiellement.»

Bref, l’intelligence artificielle a encore du chemin à faire avant de répliquer le fonctionnement du cerveau humain… pour autant que ceci soit utile/souhaitable!

2. Les modèles d’intelligence artificielle: un concentré d’intelligence humaine

Prenons un exemple au hasard: Stable Diffusion. Il s’agit d’un modèle qui permet de générer une image à partir d’un simple prompt (texte) décrivant son contenu.

Ce modèle repose sur plusieurs inventions de véritables génies créateurs humains.

2.1. L’auto-encodeur et l’espace latent

Quand on travaille avec des images, en informatique, on se retrouve rapidement avec des données de taille non négligeable. En effet, pour un modèle numérique, une image c’est un ensemble de pixels, dont la couleur est représentée par 1 nombre s’il s’agit d’une image en noir et blanc ou 3 (quantités de rouge, de vert et de bleu) pour les images en couleurs.

Pour de simples images représentant des chiffres manuscrits, telles que celles d’un célèbre ensemble de données appelé MNIST, chaque image est un carré de 28 pixels de côté. 28 x 28, ça donne déjà 784 pixels, soit 784 valeurs à stocker pour chaque image en noir et blanc.

MNIST dataset example.png (2024, December 2). Wikimedia Commons. Copié le 18.09.2025 de https://commons.wikimedia.org/w/index.php?title=File:MNIST_dataset_example.png&oldid=964754690
Extrait de la base de données MNIST - Wikimedia Commons, copié le 18.09.2025.

Pour des photos en couleurs de 2000 x 3000 pixels, on arrive plutôt à 2000 x 3000 x 3 = 18 millions de valeurs, pour une seule image de résolution moyenne.

Afin de réduire la taille des données représentant ces images, une solution consiste à travailler avec un modèle appelé auto-encodeur. Sans rentrer dans les détails techniques, il s’agit de l’assemblage de deux réseaux neuronaux:

  • Un encodeur, qui reçoit en données d’entrée les images et produit à la sortie une représentation de celles-ci sous forme condensée, comportant nettement moins de dimensions. On appelle cet espace multi-dimensionnel réduit l’espace latent.
  • Un décodeur, qui, à partir de la représentation condensée produite par l’encodeur, reconstruit des images complètes.
Schéma d’un auto-encodeur
Schéma d’un auto-encodeur

Durant l’entraînement d’un auto-encodeur, ses paramètres sont progressivement ajustés de façon à minimiser les différences entre les images à l’entrée de l’encodeur et celles qu’on retrouve à la sortie du décodeur.

Mais quel est l’intérêt d’entraîner un modèle à reconstruire des images dont on dispose déjà? Il y en a plusieurs. Par exemple:

  • Détection d’anomalies: un auto-encodeur entraîné sur des chiffres manuscrits tels que ceux de la célèbre base de données MNIST sera capable de reconstruire ces images avec une grande fiabilité. Par contre, s’il reçoit en entrée une image très différente de celles-ci, il y aura une différence nettement plus importante entre cette image d’entrée et celle qu’il sera capable de reconstruire. Instaurer une veille sur l’amplitude de cette différence permettra donc d’automatiser la détection d’anomalie sur ce type d’images.
  • Amélioration de la qualité des images: Toujours avec le même exemple des chiffres manuscrits, si la qualité de l’image fournie en entrée n’est pas bonne, si elle contient ce qu’on appelle du «bruit», jusqu’à un certain point de dégradation de qualité, l’encodeur sera néanmoins capable d’extraire la représentation des caractéristiques principales de cette image dans l’espace latent (par exemple: il s’agit d’un 7). Après quoi, le décodeur qui a été entraîné sur des images de bonne qualité sera capable de reconstruire l’image du 7 sans le bruit.

2.2. L’auto-encodeur variationnel

Au lieu de produire des valeurs bien déterminées pour représenter les images dans l’espace latent, l’encodeur peut être entraîné pour produire une représentation statistique de celles-ci (le plus souvent, la moyenne et l’écart-type d’une loi de Gauss).

Schéma d’un auto-encodeur variationnel
Schéma d’un auto-encodeur variationnel
L’intérêt de cette modification est que, dans ce cas, le décodeur ne part plus de valeurs fixes, mais sélectionne un des points de la distribution probabilistique en question. Ceci introduit dans le processus une composante aléatoire qui permet de générer des variations par rapport aux données d’entraînement. C’est une des méthodes qui permettent ce qu’on appelle l’intelligence artificielle générative.

2.3. Les modèles de diffusion

Les illustrations de ce paragraphe et du suivant sont largement inspirées des excellents tutoriels de AI Coffee Break with Letitia.

Le principe général pour l’entraînement d’un modèle de diffusion est assez simple. On prend une image de bonne qualité, sur laquelle on ajoute progressivement de plus en plus de «bruit», jusqu’à n’avoir plus que du bruit.
Bruitage progressif d’une image
Bruitage progressif d’une image

L’entraînement du modèle consiste alors à adapter de façon itérative ses paramètres pour qu’il soit capable de restaurer l’image de départ à partir du bruit, avec l’aide d’un prompt textuel. À partir de l’image au temps t, le modèle extrait progressivement les caractéristiques principales de l’image dans un nombre restreint de dimensions, avant de reconstruire une image contenant moins de bruit, comme expliqué ci-dessus pour les auto-encodeurs.

Entraînement itératif d’un modèle de diffusion
Entraînement itératif d’un modèle de diffusion

L’intérêt d’effectuer ce processus de façon itérative et non en une fois est que ça permet au modèle d’ajouter des détails supplémentaires à chaque itération, généralement guidé par le texte décrivant l’image souhaitée, ce qui permet d’obtenir à la sortie une image de grande qualité.

L’inconvénient, par contre, est que pour des images de bonne résolution, la taille des calculs nécessaires devient vite très importante. Une parade souvent utilisée est alors de réduire en amont la résolution de l’image, d’appliquer le modèle de diffusion sur cette image réduite, puis d’utiliser en aval un autre modèle qui permet d’augmenter la résolution de l’image obtenue vers la taille d’image souhaitée.

Modèle de diffusion appliqué sur une image de taille réduite

2.4. La spécificité de Stable Diffusion

Le génie des concepteurs de Stable Diffusion a été d’appliquer le modèle de diffusion non à l’image (réduite ou non), mais à sa représentation dans l’espace latent, ce qui présente principalement deux avantages:

  • réduction drastique de la taille des calculs nécessaires
  • mais surtout, le modèle de diffusion ne travaille pas sur des pixels, mais directement sur le contenu sémantique de l’image.
Stable Diffusion - Modèle de diffusion dans l’espace latent
Stable Diffusion - Modèle de diffusion dans l’espace latent

Ce modèle présente encore d’autres avancées, par exemple dans la manière d’utiliser le prompt décrivant l’image souhaitée, mais une description exhaustive sortirait du cadre de cet article.

2.5. Les données d’entraînement

Et, bien sûr, pour entraîner ce modèle et tous ses composants, il a fallu d’importantes quantités de données d’entraînement. En clair: des paires image-texte descriptif. Une des caractéristiques spécifiques de Stable Diffusion est d’avoir été entraîné sur l’ensemble d’images LAION Aesthetics. Il s’agit d’images qui ont été spécialement sélectionnées pour leur grande qualité esthétique. C’est ce qui procure aux images générées par Stable Diffusion une qualité artistique très particulière.

Ici aussi, c’est donc bien aussi de créativité humaine qu’il s’agit, la plupart de ces images ayant été créées avant l’explosion de l’IA générative et donc, par des artistes humains. Dont certains ont d’ailleurs intenté des procès à LAION mais aussi à quelques-uns des utilisateurs de ces ensembles de données: Stability AI, Midjourney et DeviantArt. Recherche scientifique ou utilisation commerciale, la frontière est souvent floue entre ces deux usages et le législateur n’est pas toujours bien outillé pour s’y retrouver…

2.6. Et tous les autres modèles…

Nous aurions pu faire la même analyse pour la plupart des modèles IA:

  • les LLMs et le mécanisme d’attention dans leurs transformers
  • les innombrables modèles d’identification, segmentation, génération ou autres d’images, de vidéos, de sons
  • les algorithmes génétiques qui imitent la décomposition cellulaire, la propagation des mauvaises herbes ou le vol en essaim des abeilles…

À la base de tous ces modèles, c’est avant tout de la créativité humaine qu’on retrouve. Assaisonnée par-ci par-là d’un soupçon d’aléatoire, pour pimenter les résultats.

3. IA alternatives

Au-delà des applications habituelles de l’intelligence artificielle, d’autres génies créatifs humains entrent aussi en action pour en contrer certains effets négatifs. Quelques exemples.

3.1. Curiouser.ai

Curiouser.ai
https://curiouser.ai

Une boutade qui a pas mal circulé à propos de l’intelligence artificielle est: «Je ne cherche pas une IA qui crée à ma place et me laisse le temps de faire ma lessive, mais une IA qui fera ma lessive et me donnera le temps de laisser libre cours à ma créativité.»

C’est la promesse de curiouser.ai: La technologie devrait renforcer l’imagination humaine, pas la remplacer. Devenir notre «intelligence réflective».

On nous promet un dialogue socratique avec la première IA générative «coach stratégique», une IA qui pose des questions au lieu de donner des réponses. Rien que ça!

3.2. Nightshade

Face au pillage de leurs créations, de plus en plus d’artistes s’inquiètent de leur avenir.

Développé par des chercheurs de l’université de Chicago, le but annoncé de Nightshade est d’augmenter le coût d’entraînement de modèles sur des données non prévues à cet effet, afin d’inciter les concepteurs de ces modèles à privilégier les bases de données rétribuant justement leurs créateurs. Comment? En transformant les images en données «empoisonnées» pour l’entraînement de modèles IA. Empoisonner signifiant ici qu’utiliser ces images risque de conduire les modèles à des constructions imprévisibles qui divergent du comportement pour lequel ils sont entraînés.

Par exemple, comme expliqué par ses concepteurs, sur une de ces images l’œil humain verrait l’ombre d’une vache dans un champ vert, tandis qu’un modèle IA y verrait un grand sac à main en cuir posé dans l’herbe. Entraîné sur un nombre suffisant d’images incluant des ombres de vaches, ce modèle serait de plus en plus convaincu que les vaches ont de jolies anses en cuir marron, des poches latérales lisses avec fermeture éclair, et peut-être même un joli logo de marque!

50 à 100 images bien sélectionnées suffiraient pour détériorer significativement la capacité d’un modèle à générer des images incluant le concept ciblé, mais aussi tous les concepts associés! Par exemple, dégrader l’identification d’un chien aurait également un effet sur la restitution graphique d’un chiot, d’un husky ou d’un loup:

Image tirée de Shan S., Ding W., Passananti J., Zheng H. et Zhao B.Y. (2023), “Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models” - voir lien en commentaire
Image tirée de Shan S., Ding W., Passananti J., Zheng H. et Zhao B.Y. (2023), “Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models” - voir lien en commentaire

Et il y a tant d’autres utilisations géniales de l’intelligence artificielle…

Conclusion

Il y a essentiellement deux façons de faire progresser un modèle IA:

  1. L’entraîner en continu sur des quantités de plus en plus importantes de données. C’est par exemple la technique d’OpenAI. L’inconvénient est qu’il faut des quantités de données de plus en plus monstrueuses et, vu qu’elles sont pour la plupart prélevées sur internet, une proportion de plus en plus importante de ces données sont désormais… générées par IA. Dans la nature, on appelle dégénérescence la conséquence de ce type de process. D’où la chasse ouverte aux données générées par l’humain, qui seront de plus en plus précieuses.
  2. La réflexion humaine est une autre solution pour raffiner ou révolutionner les algorithmes. On l’a vu par exemple avec DeepSeek, un modèle chinois concurrent de ChatGPT. De taille nettement plus modeste et avec une consommation énergétique divisée par 10, DeepSeek atteint des performances presque comparables à celles de ChatGPT. Bien sûr, on peut se poser des questions sur la gouvernance des données introduites dans un modèle chinois et sur d’autres aspects éthiques, mais reste la performance intellectuelle d’amélioration des algorithmes en remplacement de la brute accumulation des données d’entraînement.

Bref, l’intelligence artificielle est une invention extraordinaire mais encore bien loin de concurrencer la créativité humaine, cette étincelle de génie qui surgit sans prévenir d’on ne sait où, mais qui semble plus qu’une simple combinaison statistique construite sur des données antérieurement accumulées…

Les neuro-sciences ont encore beaucoup à nous apprendre!