Le monde qui vient
La disproportion entre la puissance des outils mis à disposition par OpenAI et l’absence d’émergence de nouveaux services viables est le signe que nous sommes à l’aube d’une nouvelle ère et que nous sommes pour l’instant incapables de comprendre ls transformations qui nous attendent.
La réalité dépasse la fiction
Il y a plus de dix ans maintenant, lors de ma première expérience professionnelle, j’enseignais à des étudiants en Lettres la différence entre le réel et le vraisemblable. L’argument reste toujours le même : la fiction est parfois plus vraisemblable que la réalité, et le réel choque parfois tant qu’on ne peut pas croire qu’il est vrai.
La photo d’une adolescente démembrée dans l’arrière d’un pick-up sur le compte Instagram d’un reporter de guerre indépendant me hante toujours : elle est malheureusement vraie.
Il n’y a aucune raison de douter que la énième photo d’Aitana Lopez à la salle de sport soit réelle : c’est pourtant une image générée par IA.
La réalité dépasse la fiction. 2023 a révélé au grand public la puissance des modèles d’IA générative. Texte, image, son, vidéo, tout y passe. La force de frappe est militaire. Nous ne mesurons pas l’ampleur du phénomène. C’est normal. Au-delà d’un certain montant d’innovation, la raison se trouble. Il en est forcément ainsi. Impossible de digérer une telle nouvelle : le monde est sur le point de changer.
Pourtant la disproportion entre la puissance des outils mis à disposition par OpenAI, pour ne citer qu’eux, et l’absence d’émergence de nouveaux services viables est le signe que nous sommes incapables de comprendre les transformations qui nous attendent.
Les AI influenceurs vous proposent leur dernier GPT (désormais disponible dans le GPT Store). Mais aussi bluffant que soient ces outils, c’est encore peu de choses. Par rapport à la puissance réelle et inexplorée de ces modèles.
Si on analyse rapidement l’offre de l’acteur le plus important du marché, OpenAI, on se rend vite compte que la génération de texte dans une interface de Chat n’est qu’une entrée en matière.
Les capacités des modèles d’OpenAI
Génération
C’est le cas d’utilisation le plus connu des modèles de langage. Générer du texte. Drafter des documents, répondre à des questions, générer du code (note : probablement le cas d’utilisation le plus puissant. Pour toutes les tâches en programmation qui nécessitent une syntaxe lourde et terriblement ennuyante à apprendre, comme les regex, ou les scripts concernant le gestionnaire de fichier sur des machines Linux, par exemple, les LLM sont du pain-béni ; on divise littéralement son temps de travail par deux, voire plus). Je ne m’étends pas sur cette capacité là, elle est suffisamment connue.
Appel de fonctions (function calling)
L’appel de fonction fait partie de ces use-case moins connus du grand public. Et pour cause, même s’il est surpuissant en théorie, cet outil offert par les LLM nous expose au problème central soulevé dans cet article : les possibilités sont tellement infinies qu’on peine à savoir quoi en faire en réalité. L’idée de l’appel de fonction est que je peux demander à mon modèle de structurer sa réponse de telle sorte qu’elle puisse être directement utilisée comme paramètre déclenchant un événement pré-programmé. Une image, pour simplifier, est d’imaginer un programme de réservation d’un vol qui attend comme input une date en JJ/MM/AAAA, une destination, et un nom, le tout dans un format très structuré. Si l’utilisateur écris quelque chose comme “bonjour, je m’appelle Elliot, j’aimerais partir vendredi dans deux semaines, pour visiter la capitale de l’Espagne”, le LLM extrait automatiquement l’information, la structure, et l’envoie au programme au bon format, déclenchant le processus de réservation. Note : bien sûr, une UX bien pensée aurait déjà permis de faire cette transformation sans LLM, en demandant à l’utilisateur de remplir les champs corrects. Mais c’est là tout le problème : on conçoit qu’il y a quelque chose de révolutionnaire, mais on ne sait pas encore dire quoi.
Embeddings
L’embedding, que l’on traduit laborieusement par “plongement lexical” en français, consiste à vectoriser les mots d’un corpus de texte donné. La vectorisation du langage, donc, est le fait de transformer des mots en vecteurs. Si on simplifie encore, on peut dire que la vectorisation du langage permet de passer de mots à des nombres, et donc d’opérer sur le langage des fonctions mathématiques. L’exemple le plus célèbre est celui du Roi et de la Reine. On prend le mot Roi, on lui soustrait le mot Homme, on ajoute le mot Femme, et on “tombe” sur le mot Reine. Façon très simple d’illustrer que la vectorisation du langage permet d’opérer mathématiquement sur ce dernier. La distance mathématique qui sépare un mot de l’autre devient une indication de leur distance sémantique. L’algorithme Word2Vec, conceptualisé en 2013, qui prend un corpus de mots et les transforme en vecteurs capables d’exprimer des relations sémantiques est le point de départ des modèles de langage actuels. La pièce manquante apportée en 2017 par le célèbre article Attention is all you need, consistait “seulement”, à augmenter word2vec d’une fonction permettant d’être sensible à la place du mot dans un énoncé donné. Ce qu’il y a de fou avec les LLM c’est qu’ils ont été entraînés lors d’un processus long, fastidieux et coûteux en énergie, grâce à ce système de vectorisation du langage appliqué à des corpus de texte immenses (cf tableau ci-dessous), mais, dès qu’ils ont fini leur entraînement, ils deviennent des machines à vectoriser ultra aisément des corpus de textes nouveaux qu’on leur soumet. C’est cela qui permet, entre autres, de faire de la recherche très rapide dans notre documentation existante, ou encore de faire du retrieval augmented generation (RAG).
Fine-tuning
Le fine-tuning des LLMs, en bout de chaîne, consiste à “forcer” l’output d’un modèle pour qu’il reproduise toujours la même structure de réponse. On lui donne un maximum d’exemples qui reproduisent toujours la même correspondance input-output, en lui montrant ce que l’on attend à la fois du prompt et de la réponse, et au-delà d’un certain nombre le modèle finit par se stabiliser pour recracher toujours le même contenu. Cette vidéo explique très bien ce principe, avec des exemples clairs.
Image generation
Comme son nom l’indique, cette capacité des modèles de OpenAI consiste en la génération d’images à partir de texte. La génération d’images est l’objet d’un autre article sur notre blog, je ne vais donc pas m’étendre là-dessus ici.
Vision
Moins souvent discutée, la capacité de “vision” des modèles d’OpenAI permet de donner au modèle une image et de lui demander de “raisonner” à son propos.
Text to speech
Reposant sur le modèle Whisper, d’ailleurs le seul modèle d’OpenAI a jouir d’une distribution libre permettant de l’installer sur une machine locale, le modèle de text to speech d’OpenAI et son pendant le speech to text permet toutes sortes de manipulation audio-texte avec une précision et une puissance des milliers de fois supérieurs à ses ancêtres Siri et Alexa. Les discussions du dépôt GitHub de Whisper regorgent d’utilisation ultra avancées et passionnantes du modèle.
Les Assistants
Mais OpenAI ne s’arrête par là, et propose aussi des modules plus “complets”, qui sont comme des proto-librairies, permettant des modes d’interaction plus évolués.
Les assistants, présentés comme une des augmentation les plus révolutionnaires des modèles d’OpenAI permettent de faire appel à d’autres modèles, d’accéder à des outils externes (API privées, publiques, etc.), de stocker des flux de conversation par utilisateur - leur procurant ainsi une forme de mémoire -, d’accéder à des fichiers. Les plug-ins et les actions, présentés dans l’éco-système du GPT store et des customs GPT, sont une variation de ces assistants et possèdent les mêmes capacités. Ces assistants sont la promesse la plus folle d’OpenAI et en même temps celle qui soulève le plus de questions. En tous cas celle qui m’occupe ici : comment se fait-il que nous ayons accès à de telles capacités, sans pour autant savoir exactement comment en faire bon usage ?
Quand on comprend la puissance réelle des outils à notre disposition, le premier réflexe est de se frotter les mains en se disant que l’on va créer l’application du futur et révolutionner le monde (surtout si on consomme trop de “code report”). Pourtant, très vite, on se heurte à un problème de taille : dans l’immensité des possibles, que faire ?
Et la réponse n’est pas facile à trouver. Mon hypothèse est que ça n’est pas tant parce que nous sommes incapables d’imaginer des services utilisant ces outils et pour lesquels les utilisateurs seraient susceptibles de payer, mais plutôt parce que nous soupçonnons qu’il y a mieux à faire, sans pour autant savoir quoi. Comme si une énième copie de tripadvisor dopée à l’IA n’avait soudain plus de saveur. Certes, on peut créer une plateforme qui simplifie encore la trajectoire utilisateur allant de “je veux aller à Edimbourgh” jusqu’au fait d’avoir un hôtel booké avec un programme au jour le jour de visites assisté par une IA. Mais est-ce vraiment ça le projet ? Ne sommes-nous pas arrivés en bout de course dans cette direction là ?
Voilà mon soupçon. Nous sommes à l’aube d’une nouvelle ère. Mais nous sommes encore incapables de comprendre laquelle.
Posons les faits. Il est désormais possible de demander à un modèle d’aller chercher n’importe quelle information disponible sur le web, dans n’importe quelle base de donnée, de comprendre, de structurer, d’exploiter cette information, d’en extraire des parties, de l’utiliser pour générer du texte, du son, de l’image, de la vidéo. En d’autres termes, notre capacité à modeler l’information, sous sa forme numérique, est illimitée.
Mais qu’allons-nous en faire ?
La question ne peut que rester ouverte. Parce que c’est à chacun d’y répondre. C’est à chacun et chacune de s’intéresser à ce qui est en train de se produire sous nos yeux et trouver des façons de l’exploiter.
Chez RITSL, nous utilisons les technologies de l’intelligence artificielle générative pour offrir à nos clients des solutions à des problématiques concrètes et actuelles, mais nous cherchons également à savoir comment ces technologies pourront être exploitées dans un futur proche pour aider l’humain à inventer des nouvelles formes de subjectivité.