Portfolio project : IA et capital-risque
Automatiser la recherche de business models adaptables au marché suisse
Dans le monde dynamique du capital-risque, identifier des startups prometteuses et évaluer leur potentiel pour de nouveaux marchés est une tâche complexe et chronophage. En exploitant le traitement du langage naturel, le web scraping et les outils d'analyse de marché, nous avons développé un système automatisé qui extrait et analyse les modèles d'affaires innovants extraits des newsletters de venture capital, fournissant des informations précieuses sur leur applicabilité au marché suisse. Découvrez comment cette approche novatrice peut transformer les opérations de capital-risque, en gagnant du temps et en améliorant la prise de décision.
Le défi d'identifier des startups prometteuses
Notre client, actif dans le venture capital et le venture building, en Suisse, nous a approché avec le besoin suivant : automatiser l’extraction de modèles d’affaires intéressants depuis les newsletters reçues de VC basés aux Etats-Unis.
La donnée initiale existe sous la forme de newsletters (cf : ci-dessous), dans lesquelles sont listées des startups ayant récemment levé des fonds, ou attiré le regard de la presse d’une manière ou d’une autre.
À l’état brut, les modèles d’affaires sont décrits de façon minimale.
Le processus complet partant de la newsletter pour aboutir à la data sous sa forme finale est le suivant :
Extraire les noms de startup depuis les newsletters (en moyenne 20 startups par newsletter, 3-4 newsletters par semaine).
Retrouver les sites web des startups.
Extraire la proposition de valeur depuis le site web.
Classer les startups par secteur d’activité (filtrer uniquement certains secteurs, tels que finance, legal, etc.).
Evaluer la taille du marché pour la startup correspondante.
Ne retenir que les startups dont le marché excède un certain cap.
Le but est de stocker la liste des startups ainsi filtrées dans un document Excel. À la main, le processus est long et fastidieux.
Tirer parti de l'IA pour automatiser cette pipeline
Compte tenu des performances des modèles de langage pour des tâches de synthèse, d’analyse, d’extraction de données textuelles, il va de soi qu’une approche utilisant l’IA pour automatiser la liste de tâches ci-dessus est intéressante.
Certains outils no-code ou low-code comme Make ou Zapier permettent de créer très vite des prototypes d’une telle application. Mais l’outil n’est pas rentable à échelle industrielle.
Le contenu HTML brut d’un email est extrêmement long. Environ 2200 lignes de code pour l’exemple ci-dessus de Strictly VC, aka 34,643 Tokens et 175550. Pour donner un ordre de mesure, avec gpt-4 il faudrait 10$ pour parser 29 newsletters. Et encore, c’est sans compter l’output, qui ferait probablement doubler le prix.
C’est pourquoi nous avons fait le choix de construire une pipeline plus robuste, tirant parti de librairies de NLP plus traditionnelles, qui permettent de dégrossir le nombre de tokens avant de passer par les modèles d’OpenAI.
Dans les grandes lignes, voilà la logique implémentée :
Reconnaissance d'entités nommées avec spaCy : Extraction des noms d'entreprises à partir des newsletters de capital-risque reçues par le client.
Appels à SerpApi : Recherche des sites web des entreprises identifiées.
Scraping de contenu web avec Beautiful Soup : Collecte du contenu pertinent des sites web des entreprises.
Analyse des propositions de valeur avec OpenAI : Récupération et interprétation des propositions de valeur des entreprises.
Modélisation de la taille du marché avec Statista : Estimation des tailles de marché par secteur d'activité.
Reconnaissance d'entités nommées avec spaCy
L’un des plus gros challenges de l’implémentation de cette pipeline est la reconnaissance des noms d’entreprises dans les newsletter initiales.
Les modèles de langage type GPT accomplissent cette tâche relativement facilement, mais le format brut d’un mail contient énormément de tokens, ce qui rendrait la tâche trop coûteuse à échelle.
La solution que nous adoptée consiste à utiliser spaCy, une librairie “vieille école” de Natural Langage Processing (NLP) permettant des fonctions comme l’extraction d’entités nommées. La différence majeure est celle du prix. Cette librairie n’engendre aucun coût. Pour réussir à extraire les entités, il faut trouver des astuces, mais avec une bonne dose d’ingéniosité, cela fonctionne.
Découverte des sites web d'entreprises avec SerpApi
À partir du moment où nous avons les noms d’entreprise, il s’agit de retrouver leur site web. Pour cela, une fois de plus, les modèles de langage sont inutiles. Ils ne possèdent pas la capacité intrinsèque de faire des recherches web. Les recherches que ChatGPT est capable de faire depuis fin 2023 sont une extension du modèle de langage utilisant des ressources annexes (raison pour laquelle il existait déjà des plug-ins ChatGPT capables de faire ça bien avant la release officielle).
L’outil nécessaire à la recherche Google programmatique s’appelle SerpApi. On lui donne un mot-clé de recherche (en l’occurrence le nom d’entreprise) et il retourne les X premiers résultats d’une recherche Google. Il faut ensuite trouver la logique adéquate pour s’assurer que le résultat est correct.
Dans notre cas, une des astuces consistait à ajouter aux données de recherche SerApi des mots-clés issus de l’énoncé dans lequel le nom d’entreprise avait été trouvé (e.g : medtech, startup, silicon valley, etc.) qui permettent de spécifier la recherche Google pour affiner les résultats.
Extraction de contenu de site web avec beautiful soup
Résumé : Détailler l'utilisation de Beautiful Soup pour le web scraping afin de collecter le contenu pertinent des sites web d'entreprises. Expliquer l'importance de cette étape pour recueillir des données complètes à analyser.
À partir du moment où l’on possède le site web de l’entreprise, il s’agit de se rendre sur leur page d’accueil et lire les textes, comme le ferait un humain, pour comprendre le modèle d’affaire de la startup. Pour cela, rien de tel que beautifulsoup, qui est LA librairie de web scraping en Python.
Beautifulsoup permet d’accéder à n’importe quelle page d’un site web et d’en extraire la quasi totalité des contenus.
Ici, une contrainte essentielle est de respecter les normes de confidentialité des sites qui n’autorisent pas les robots à scraper leur contenu. Malheureusement, un site sur quatre, en moyenne, bloque l’accès aux robots dans un fichier appelé “robot.txt” que tout développeur de site a le droit de spécifier lors de sa création.
Analyse des propositions de valeur avec OpenAI
Le contenu extrait grâce à beautifulsoup correspond, par exemple, à tous les textes présents sur la page d’accueil de la startup visée. Il s’agit ensuite de passer ces contenus à travers un modèle de langage type GPT pour en extraire une proposition de valeur condensée en une phrase. Grâce à cela, on est capable de comprendre l’industrie dans laquelle la startup est active.
Modélisation de la taille du marché avec Statista
Statista permet de modéliser la taille du marché potentielle pour une proposition de valeur dans une industrie et un segment de marché donnés. Bien sûr, cette modélisation est hypothétique, et il faut ensuite l’affiner avec des stratégies plus avancées, voire même la challenger avec un regard humain.
Conclusion : transformer le capital-risque avec l'IA
Dans cet article, nous avons présenté une application possible de technologies d’intelligence artificielle à un problème spécifique des métiers du capital-risque : le scouting d’entreprise et l’identification de business-models prometteurs.
Cette tâche, jusqu’à aujourd’hui, est principalement accomplie par des humains. Qui n’a jamais rempli un tableau excel à la main, ligne par ligne, avec des adresses web et des noms d’entreprise (ne serait-ce que dans une perspective de business development).
Ce genre de tâches est chronophage, car elle ne fait du sens que lorsqu’elle est appliquée à l’échelle et de façon systématique. Un scouting n’a de sens que si on essaie d’être le plus exhaustif possible.
Grâce aux outils d’intelligence artificielle, et plus généralement à la programmation, nous pouvons désormais simplifier, rationaliser et accélérer ce genre de processus, tout en diminuant drastiquement leurs coûts.