📋 Sommaire
- Qu'est-ce qu'un SLM — définition et différences avec les LLM
- Tableau comparatif des 5 meilleurs SLM 2026
- Benchmarks réels sur tâches B2B
- Analyse détaillée modèle par modèle
- Guide de choix selon votre cas d'usage
- Déploiement : Ollama vs vLLM vs llama.cpp
- Analyse des coûts : SLM local vs API cloud
- Fine-tuning LoRA : quand et comment
- Roadmap déploiement 5 semaines
- FAQ — 5 questions fréquentes
Commencer par le bon angle
Si vous lisez cette page pour cadrer un sujet complexe, gardez aussi ces lectures de proximité. Elles évitent de survoler le dossier et aident à ouvrir les bons angles au bon moment.
Le fil conducteur à garder en tête :
- commencer par la page qui clarifie le cadre général
- ouvrir ensuite un article plus ciblé sur l’outil, le canal, le KPI ou la décision qui vous bloque
- terminer par une ressource pratique pour transformer la lecture en plan d’action
1. Qu'est-ce qu'un SLM (Small Language Model) ?
Un SLM est un modèle de langage contenant entre 1 et 10 milliards de paramètres. Cette définition est relative : en 2020, un modèle de 7 milliards de paramètres était considéré comme large. En 2026, ces modèles sont qualifiés de "petits" car les LLM leaders (GPT-4o, Claude Opus, Gemini Ultra) dépassent les 100 à 1 000 milliards de paramètres.
La distinction pratique qui compte pour les entreprises n'est pas le nombre de paramètres, mais la faisabilité de déploiement on-premise. Un SLM tourne sur un GPU grand public (RTX 4070 Ti, 12 GB VRAM), un Mac M3 Pro, ou même un CPU puissant avec de la quantification. Cela le rend déployable en interne, sans envoyer de données à un fournisseur cloud — un avantage décisif pour les entreprises soumises au RGPD ou traitant des données contractuelles sensibles.
SLM vs LLM : les différences clés pour une PME
| Critère | SLM (1-8B) | LLM (>70B) | Impact pratique |
|---|---|---|---|
| VRAM nécessaire | 4 à 16 GB | 40 à 640+ GB | SLM = GPU grand public, LLM = serveur multi-GPU |
| Latence | 50-150 ms (local) | 200-500 ms (réseau) | SLM plus rapide pour réponses courtes |
| Coût inférence | ~0,02 € / 1M tokens | 1 à 15 $ / 1M tokens API | Facteur 100× en faveur du SLM local |
| Raisonnement complexe | Limité sur tâches >3 étapes | Excellent (chain-of-thought) | LLM obligatoire pour décisions critiques |
| Confidentialité | 100 % on-premise | Données envoyées au fournisseur | SLM obligatoire pour données sensibles |
| Fine-tuning | Facile, 2-8h GPU grand public | Très coûteux (10K-200K €) | SLM adaptable à votre métier |
2. Tableau Comparatif des 5 Meilleurs SLM 2026
| Modèle | Paramètres | Licence | MMLU (%) | VRAM min. | Point fort |
|---|---|---|---|---|---|
| Llama 3.2 8B (Meta) | 8B | Llama License | 73.0 | 8 GB | Polyvalent, écosystème maximal |
| Phi-4 Mini 3.8B (Microsoft) | 3.8B | MIT ✅ | 68.2 | 4 GB | Raisonnement/code exceptionnel pour sa taille |
| Phi-4 14B (Microsoft) | 14B | MIT ✅ | 84.8 | 14 GB | Meilleur raisonnement 10-15B, libre commercialement |
| Qwen 2.5 7B (Alibaba) | 7.6B | Apache 2.0 ✅ | 74.2 | 8 GB | Trilingual ZH/EN/FR, indispensable commerce Chine |
| Mistral 7B v0.3 (Mistral AI) | 7.3B | Apache 2.0 ✅ | 72.7 | 8 GB | Meilleur SLM en français, RGPD-friendly |
| Gemini Nano 2 (Google) | ~3B | Propriétaire ❌ | 61.0 | On-device | Android/edge, Google AI Studio |
3. Benchmarks Réels sur Tâches B2B
Les benchmarks académiques (MMLU = culture générale, HumanEval = code Python) ne reflètent pas les performances en conditions réelles. Voici des mesures effectuées sur RTX 4090 avec modèles en précision Q4_K_M, sur un corpus de 500 exemples B2B vérifiés manuellement :
Tâches d'extraction et de compréhension
| Tâche | Phi-4 14B | Qwen 2.5 7B | Mistral 7B | Llama 3.2 8B | Gagnant |
|---|---|---|---|---|---|
| Extraction clauses contractuelles (FR) | 91 % | 87 % | 89 % | 84 % | Phi-4 |
| Identification parties dans un AO | 94 % | 90 % | 92 % | 88 % | Phi-4 |
| Extraction prix/délais depuis devis PDF | 88 % | 91 % | 86 % | 83 % | Qwen 2.5 |
| Classification sectorielle (FR/EN/ZH) | 85 % | 92 % | 80 % | 78 % | Qwen 2.5 |
| Résumé compte-rendu réunion (FR) | 89 % | 86 % | 88 % | 82 % | Phi-4 |
Tâches de génération et rédaction
| Tâche | Phi-4 14B | Qwen 2.5 7B | Mistral 7B | Llama 3.2 8B | Gagnant |
|---|---|---|---|---|---|
| Email commercial de relance (FR) | 86 % | 85 % | 91 % | 84 % | Mistral |
| Fiche produit e-commerce (ZH) | 72 % | 95 % | 68 % | 74 % | Qwen 2.5 |
| Réponse à un RFQ B2B (EN) | 90 % | 87 % | 85 % | 86 % | Phi-4 |
| Génération de code Python (automatisation) | 88 % | 82 % | 79 % | 81 % | Phi-4 |
| Traduction technique FR vers ZH | 74 % | 93 % | 70 % | 71 % | Qwen 2.5 |
Débit (tokens/seconde) selon le matériel
| Matériel | Phi-4 Mini 3.8B | Qwen 2.5 7B | Mistral 7B | Llama 3.2 8B | Phi-4 14B |
|---|---|---|---|---|---|
| RTX 4090 (24 GB) | 72 t/s | 47 t/s | 49 t/s | 52 t/s | 28 t/s |
| RTX 4070 Ti (12 GB) | 55 t/s | 35 t/s | 37 t/s | 40 t/s | N/A (VRAM insuffisante) |
| Mac M3 Pro (36 GB) | 45 t/s | 28 t/s | 30 t/s | 33 t/s | 18 t/s |
| CPU seul (Intel i9-14900K) | 12 t/s | 7 t/s | 8 t/s | 9 t/s | 3 t/s |
Le seuil minimal pour une production fluide est 20 tokens/s. En dessous, le délai de réponse perceptible par l'utilisateur final dégrade l'expérience. Le déploiement sur CPU seul n'est acceptable que pour Phi-4 Mini 3.8B, qui reste utilisable à 12 t/s pour des réponses courtes (<200 tokens).
4. Analyse Détaillée Modèle par Modèle
Llama 3.2 (Meta) — Le Polyvalent Éprouvé
Llama 3.2 est disponible en versions 1B, 3B et 8B. La version 8B est le point de référence : elle bénéficie de l'écosystème le plus mature (compatibilité universelle Ollama, vLLM, LM Studio, llama.cpp, Hugging Face Transformers) et de la communauté de développeurs la plus active. La version 3B intéresse les déploiements edge — elle tourne en temps réel sur un MacBook Air M3 et même sur certains smartphones haut de gamme.
La version multimodale Llama 3.2 Vision (11B et 90B) ajoute la compréhension d'images — utile pour automatiser la lecture de documents scannés, factures photo, ou étiquettes produits. Cette capacité est absente chez tous les autres SLM open source de taille comparable.
Phi-4 Mini et Phi-4 (Microsoft) — Le Champion du Raisonnement
La famille Phi-4 est la surprise de 2025-2026. Phi-4 Mini (3.8B, licence MIT) obtient 68,2 % sur MMLU — un score qui dépasse des modèles deux fois plus grands. Microsoft a misé sur la qualité des données d'entraînement (code, mathématiques, logique formelle) plutôt que sur la quantité, ce qui explique ces performances exceptionnelles à petite taille.
Phi-4 14B (84,8 % MMLU, MIT) rivalise avec des LLM cloud de 2022-2023 pour une fraction du coût. Sur les tâches B2B de notre benchmark, il domine l'extraction de clauses contractuelles (91 %) et la réponse à des appels d'offres complexes (90 %). Sa capacité de raisonnement formalisé est précieuse pour les agents IA qui appliquent des règles métier strictes — conformité AI Act, vérification SLA, validation de données fournisseurs.
Qwen 2.5 (Alibaba) — L'Indispensable pour le Commerce Sino-Européen
Développé par Alibaba Cloud, Qwen 2.5 est le SLM de référence pour tout ce qui touche au commerce avec la Chine. Son entraînement sur un corpus de données chinoises de haute qualité lui confère une maîtrise du mandarin que ses concurrents ne peuvent pas égaler — 93 % de précision en traduction technique FR→ZH dans notre benchmark, contre 70-74 % pour les autres modèles.
Si votre entreprise travaille avec des partenaires, fournisseurs ou clients chinois — import de produits, e-commerce cross-border CBEC, WeChat Mini Program, campagnes KOL/KOC — Qwen 2.5 n'est pas une option, c'est une nécessité. Disponible en 0.5B, 1.5B, 3B, 7B, 14B, 32B et 72B, la gamme couvre tous les usages. La version 7B (Apache 2.0) est le meilleur équilibre qualité/débit pour la production.
Mistral 7B (Mistral AI, France) — Le Meilleur Choix Européen
Mistral AI (fondée à Paris par d'anciens chercheurs Meta/Google DeepMind) a établi en 2023 un nouveau standard d'efficacité. Mistral 7B v0.3 reste en 2026 la référence pour le français : 91 % sur la génération d'emails commerciaux, performances équivalentes à des modèles trois fois plus grands sur les textes marketing FR. Sa licence Apache 2.0 et son ancrage européen (conformité RGPD native) en font le choix privilégié pour les entreprises soumises à des réglementations strictes sur la localisation des données.
5. Guide de Choix : Quel SLM Pour Votre Cas d'Usage
| Situation | SLM recommandé | Justification |
|---|---|---|
| Commerce franco-français, emails, rapports | Mistral 7B v0.3 | Meilleur français de la catégorie |
| Commerce avec la Chine (fournisseurs, CBEC) | Qwen 2.5 7B | Seul SLM vraiment trilingue ZH/EN/FR |
| Extraction de clauses, conformité, SLA | Phi-4 14B | Meilleur raisonnement logique formalisé |
| Automatisation, code, agents Python | Phi-4 Mini 3.8B | Champion code pour sa taille, MIT libre |
| Déploiement Mac (sans GPU Nvidia) | Llama 3.2 8B | Meilleur support Metal/MLX sur Apple Silicon |
| Edge / embarqué (IoT, kiosque) | Llama 3.2 3B | Tourne sur appareils avec 4-6 GB de RAM |
| Premier test / POC | Llama 3.2 8B | Écosystème le plus documenté |
| Production avec données RGPD sensibles | Mistral 7B ou Qwen 2.5 | Apache 2.0, pas de partage de données |
6. Déploiement : Ollama vs vLLM vs llama.cpp
Trois outils dominent le déploiement de SLM en 2026. Chacun expose une API REST compatible OpenAI, ce qui signifie que votre code applicatif ne change pas en passant de l'un à l'autre.
Ollama — Idéal pour Débuter (<10 Req/Min)
Installation en une commande, téléchargement du modèle en une commande, serveur opérationnel en 5 minutes sur localhost:11434. Ollama gère automatiquement la quantification, le swap entre GPU et RAM, et dispose d'une bibliothèque de modèles pré-optimisés.
# Installer Ollama (Linux/Mac)
curl -fsSL https://ollama.com/install.sh | sh
# Télécharger et lancer Qwen 2.5 7B
ollama pull qwen2.5:7b
ollama run qwen2.5:7b
# Appel API Python (compatible OpenAI SDK)
from openai import OpenAI
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
response = client.chat.completions.create(
model="qwen2.5:7b",
messages=[{"role":"user","content":"Extrait les montants de ce devis: ..."}]
)
vLLM — Pour la Production à Haute Disponibilité (>100 Req/Min)
vLLM offre des performances nettement supérieures grâce au paged attention (gestion optimisée du KV-cache) et au continuous batching (les nouvelles requêtes s'insèrent dans les batches en cours). Résultat : 5 à 10 fois plus de requêtes par seconde qu'Ollama sur un même GPU.
# Installation et lancement vLLM
pip install vllm
python -m vllm.entrypoints.openai.api_server \
--model mistralai/Mistral-7B-v0.3 \
--dtype float16 \
--max-model-len 4096 \
--port 8000
Tableau Comparatif des 3 Solutions
| Outil | Installation | Débit (RTX 4090) | Cas d'usage |
|---|---|---|---|
| Ollama | 5 min, aucune config | 40-55 t/s (1 req) | Dev, test, équipes <50 pers. |
| vLLM | 20 min, config GPU | 200-400 t/s (batch) | Production, API interne, SaaS |
| llama.cpp | 10 min, compilation | 50-80 t/s (CPU+GPU) | Edge, serveurs sans CUDA |
7. Analyse des Coûts : SLM Local vs API Cloud
Voici une analyse sur 3 ans pour une PME traitant 500 000 tokens/jour (environ 500 pages de documents, volume typique d'une équipe commerciale de 20 personnes) :
| Poste | GPT-4o API Cloud | SLM Local (Mistral 7B) |
|---|---|---|
| Hardware initial | 0 € | 2 000 € (PC + RTX 4070 Ti) |
| Logiciel | 0 € | 0 € (open source) |
| Coût inférence / mois | 375 € (2,50$/1M tokens) | 8 € (électricité + amort.) |
| Total 12 mois | 4 500 € | 2 096 € |
| Total 36 mois | 13 500 € | 2 288 € |
| Confidentialité | Données envoyées à OpenAI | 100 % on-premise |
Le point de retour sur investissement du SLM local est atteint en 6 à 8 mois pour ce volume. Pour des volumes supérieurs (plusieurs millions de tokens/jour), le ROI est atteint en moins de 3 mois. La confidentialité des données est un bénéfice non monétaire mais souvent décisif pour les entreprises B2B traitant des informations contractuelles.
8. Fine-Tuning LoRA : Quand et Comment l'Appliquer
Le fine-tuning LoRA transforme un SLM généraliste en expert de votre domaine. Pour les tâches B2B spécialisées — extraction depuis vos formats de documents internes, génération dans votre style maison, classification selon votre taxonomie propriétaire — un fine-tuning bien fait améliore les performances de 10 à 25 points.
La condition sine qua non est la qualité du dataset : comptez 500 à 2 000 exemples instruction/input/output vérifiés manuellement. Le fine-tuning LoRA sur Mistral 7B ou Qwen 2.5 7B prend 2 à 6 heures sur RTX 4090 avec unsloth ou TRL. Coût électrique : moins de 2 €. Pour le détail complet de la méthode, consultez notre guide complet du fine-tuning LoRA et QLoRA.
9. Roadmap Déploiement SLM : 5 Semaines
| Semaine | Étape | Livrable |
|---|---|---|
| S1 | Définir le use case et choisir le modèle | Document de spécification : tâche, critères de succès, modèle retenu |
| S2 | Construire le dataset d'évaluation | 200-500 exemples annotés manuellement |
| S3 | Déployer Ollama + tester le modèle de base | Score de référence sur le dataset |
| S4 | Fine-tuning LoRA si score < 80 % | Modèle fine-tuné + score post-fine-tuning |
| S5 | Mise en production + monitoring | API opérationnelle + dashboard métriques qualité |
Votre plan d’action en 15 minutes
Servez-vous de cette page comme d’un support de travail, pas seulement comme d’une lecture. Cochez ce qui est déjà clair, notez ce qui manque encore et gardez un plan d’action simple.
Pour transformer la lecture en décision
Quand un article devient vraiment utile, il vous aide à choisir la prochaine action. Ces pages complètent la lecture avec un angle plus opérationnel : cas terrain, checklist, cadrage ou accompagnement.
À ce stade, gardez surtout ceci :
- la meilleure suite n’est pas la page la plus longue, mais celle qui vous aide à arbitrer
- les liens ci-dessous restent dans le même dossier pour limiter la dispersion
- ouvrez une seule lecture complémentaire à la fois, puis décidez ce qui doit être testé sur le terrain