En 2023 l’actualité a été marquée par l’influence grandissante de l’IA, notamment les prouesses techniques d’OpenAI mais aussi par l’actualité au sommet de sa direction.
Plusieurs entreprises se sont lancées dans l’intégration d’IA génératives à leurs produits, que ce soit pour les améliorer ou leur ajouter de nouvelles fonctionnalités. De nouvelles solutions innovantes ont également émergé, s’appuyant souvent sur les API des modèles d’OpenAI.
Cependant, malgré leur performance et leur facilité d’accès, ces IA ne sont pas exemptes d’inconvénients. Il est donc pertinent de se questionner sur le choix entre les API d’OpenAI et les solutions Open Source. En effet, les LLM Open Source ont connu un développement spectaculaire cette année, offrant une alternative séduisante.
Je vous propose quelques éléments de réflexion. Les LLM Open Source, en constante évolution, pourraient bien être la clé pour relever de nouveaux défis. Si vous souhaitez discuter davantage de ces sujets ou partager vos propres expériences, n’hésitez pas à me contacter en message privé. Bonne lecture et à bientôt pour une année 2024 sous le signe de l’innovation ! 💡
GPT (OpenAI) : inconvénients
GPT 3.5 et GPT 4 d’OpenAI sont des LLM très performants, faciles et rapides à intégrer dans des applications mais ils présentent plusieurs risques :
- La politique tarifaire peut changer à tout moment
- Les conditions générales d’utilisations peuvent évoluer
- Des données envoyées à GPT peuvent fuiter
- Le modèle peut être modifié sans préavis => le comportement peut changer
- L’entreprise peut disparaître
L’Open source
Il existe pourtant des alternatives dans le domaine de l’Open Source avec de nombreux avantages :
- Hébergeables sur un cloud dédié (AWS, Hub spécialisé, …), voir un cloud privé, voire même sur ses propres serveurs (selon configuration)
- Maîtrise de l’évolution
- Maîtrise de l’utilisation des données
- Evolutivité
Cette solution a bien sûr quelques inconvénients :
- Elle nécessite des ressources dédiées au déploiement et à la maintenance
- Le coût d’un serveur dédié est potentiellement élevé selon les ressources matérielles demandées
- L’offre de serveurs adaptés localisés en Europe est réduite
Le budget nécessaire pour la configuration matérielle est très variable d’un LLM à l’autre selon sa taille.
Tandis que les plus petits peuvent tourner sur le CPU avec un peu de RAM dans un container ou une VM aux ressources modestes, les plus gros nécessitent l’utilisation d’un ou plusieurs GPU disposant de grandes quantité de VRAM.
Voici une estimation des coûts approximatifs d’hébergement fin 2023 pour une instance fonctionnant 24/7. Ces chiffres peuvent varier selon le LLM et l’hébergeur :
Modèle LLM | Performances | Taille | Configuration possible | Coût mensuel |
7B | < GPT 3.0 | ~ 4 GO | CPU 1 coeur – RAM 8GO ou 1x GPU – VRAM 8GO | 25€ – 1 000€ |
13B | < GPT 3.5 | ~ 7.5 GO | CPU 4 coeurs – RAM 16 GO ou 1X GPU – VRAM 24GO | 25€ – 3 500€ |
70B | >= GPT 3.5 | ~ 40 GO | 2-8X GPU NVIDIA A100 VRAM 160GO | 2 600€ – 10 000€ |
180B | > GPT 3.5 <= GPT 4 | 100 – 350 GO | 8x NVIDIA A100 VRAM 640 GO | 38 000€ – 73 000€ |
L’échelle de prix est fonction de l’offre souscrite (instance à la demande, engagement de 1 à 3 ans, du fournisseur, ….)
Vous pouvez par exemple utiliser le calculateur de AWS (instances p5): https://calculator.aws/#/addService/ec2-enhancement.
OVH muscle son offre dédiée à l’IA pour concurrencer Amazon, à surveiller …
En comparaison, GPT 4 d’OpenAI est facturé à l’usage, quelques centimes pour 1000 tokens traités (presque équivalent aux mots).
Le tarif est donc à calculer en fonction de son usage, très variable selon le projet.
Vous trouverez l’ensemble de leurs tarifs sur leur site : https://openai.com/pricing
Tests
J’ai développé un ChatBot en guise de POC pour évaluer les cas d’usage de GPT et des LLM Open Source. Il permet également de tester les facultés des agents multimodaux basés sur différents LLM.
Dans les grandes lignes, techniquement, un agent multimodal est basé sur un LLM qui a la faculté d’utiliser d’autres outils à sa disposition. Dans mon cas je lui ai donné la faculté de générer des images et de faire des recherches sur le web en plus de la conversation.

Dans cette première instance de chat j’utilise un LLM hébergé dans un container de mon hyperviseur. J’ai attribué 8 GO de RAM et un CPU de deux coeurs.
Il n’est pas très doué avec le français mais se débrouille bien en anglais. C’est un modèle très efficace compte tenu de sa taille modeste. Les temps de réponses sont tout à fait satisfaisants sur cette configuration légère.
Il s’agit de Mistral 7B développé par Mistral AI, une startup française ayant récemment levé 385 millions d’euros en plus des 105 millions déjà levés en juin.

Dans cette deuxième instance, j’ai déployé un modèle de 13 milliards de paramètres sur un serveur AWS doté des ressources nécessaires pour de bonnes performances (4 x NVIDIA TESLA T4, 64 GO de VRAM), il s’agit de Llama 2 13B. Je lui ai ajouté la faculté d’utiliser dall-e pour générer des images.
Discussion
Si vous souhaitez échanger sur le sujet vous pouvez me contacter en MP sur Linkedin :
https://www.linkedin.com/in/lionel-antraigue/.
N’hésitez pas à me solliciter si vous avez des projets de développement d’applications qu’elles nécessitent ou non l’utilisation d’IA.