Le red teaming LLM est l'application au domaine IA des principes du red team offensif classique : simuler un attaquant réel non-déclaré, sans périmètre exhaustif, avec un objectif business défini et la liberté tactique de l'atteindre. À la différence du pentest LLM scopé, le red team mesure simultanément la prévention et la détection, sur une durée longue. Ce guide pratique structure les règles d'engagement, les TTPs alignées MITRE ATLAS, l'outillage 2025, le playbook tactique et les métriques de mesure pour les pentesters francophones qui ajoutent la dimension LLM à leur scope.
1. Red team LLM vs pentest LLM scopé — clarifier le périmètre
Les deux prestations sont régulièrement confondues. Distinction synthétique :
| Dimension | Red team LLM | Pentest LLM scopé |
|---|---|---|
| Périmètre | Objectif business défini, chemins libres | Endpoints + tools listés en convention |
| Durée | 4 à 12 semaines | 8 à 30 jours-homme |
| Préavis | Aucun ou très haut niveau seulement | Annoncé, fenêtre négociée |
| Mesure | Prévention + détection (MTTD, MTTC) | Prévention principalement |
| Cible défense | Tests bleu équipe en parallèle | Pas de mesure défense |
| Livrable | Rapport d'engagement + métriques | Rapport pentest avec findings hiérarchisés |
| Fréquence | Annuel ou continu | Ponctuel, après changements majeurs |
Pour la définition conceptuelle, voir Red teaming LLM — définition. Pour le pentest scopé, voir Pentest d'un chatbot IA d'entreprise. Cet article-ci est l'application pratique côté red team.
2. Règles d'engagement spécifiques au red team LLM
Les règles d'engagement (Rules of Engagement, RoE) d'un red team LLM diffèrent du red team classique sur cinq points opérationnels.
Cinq spécificités RoE LLM
- Budget tokens hard-capped — un test prompt-injection mal calibré peut coûter 10-50× le coût normal. Cap dur par engagement (typiquement 5 000 à 20 000 € de budget API selon l'ampleur).
- Whitelist d'IPs source côté reverse proxy pour distinguer le trafic red team du trafic légitime. Sans cela, les WAF clients réels coupent l'accès en cours d'engagement.
- Marquage des artefacts — tous les payloads, comptes test, mailboxes d'audit, documents RAG empoisonnés portent un identifiant red team unique reproductible (par exemple
RT-2026-Q2-0042ou tout schéma adapté). - Comptes API dédiés — jamais le compte production, pour isoler les coûts et permettre un kill switch immédiat.
- Canal de sécurité escalade — un point de contact unique côté commanditaire (RSSI ou délégué) joignable 24/7 pour suspendre l'engagement en cas d'incident grave.
Périmètre minimum à figer dans la convention
Les éléments à graver dans la RoE même pour un red team non-scopé sur les chemins :
- Objectif business unique formulé précisément (par exemple « obtenir un transfert non autorisé > 1 000 € via le chatbot bancaire »).
- Cibles opérationnelles explicitement hors scope (production payments, données utilisateurs réels en clair, infrastructure fournisseur LLM).
- Fenêtre d'engagement avec dates exactes et timezone.
- Critères d'arrêt anticipé — incident SEV1 client, breach data réelle, demande équipe défense.
- Modalités de communication avec les parties prenantes informées (typiquement RSSI + DPO + 1-2 personnes max côté technique).
3. TTPs MITRE ATLAS pour LLM
MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) est le référentiel TTP (Tactics, Techniques, Procedures) dédié aux attaques sur les systèmes IA, complément de MITRE ATT&CK. Cartographie tactique d'un red team LLM type :
| Tactique ATLAS | Techniques applicables LLM | Exemples concrets |
|---|---|---|
| Reconnaissance | AML.T0001 Search Open AI Vulnerability Analysis, AML.T0006 Active Scanning | OSINT sur fournisseur modèle, fingerprinting API |
| Resource Development | AML.T0008 Acquire Public ML Artifacts | Récupération du modèle de base, prompts templates publics |
| Initial Access | AML.T0051 LLM Prompt Injection (direct/indirect) | OWASP LLM01 |
| ML Model Access | AML.T0040 ML Model Inference API Access | Test des limites légitimes via API exposée |
| Execution | AML.T0050 Command and Scripting Interpreter | Exécution via tools de function calling exposés |
| Persistence | AML.T0067 LLM Plugin Compromise, mémoire persistante | Empoisonnement vector store ou mémoire long-terme |
| Privilege Escalation | AML.T0053 LLM Plugin Compromise | Escalade via tool en écriture mal scopé (LLM06) |
| Defense Evasion | AML.T0054 LLM Jailbreak | Bypass guardrails via encodages, multi-tour |
| Credential Access | AML.T0048.001 External Harms - Financial Harm | Extraction tokens / credentials via prompt injection |
| Collection | AML.T0035 ML Artifact Collection | Extraction system prompt, données autres utilisateurs |
| Exfiltration | AML.T0024 Exfiltration via ML Inference API | Sortie via tool email, webhook, image markdown |
| Impact | AML.T0029 Denial of ML Service | LLM10 Unbounded Consumption |
Cette grille structure le rapport final : chaque finding est mappé sur 1 à N techniques ATLAS, ce qui rend le rendu comparable et exploitable par l'équipe défense pour construire ses détections.
4. Outillage red team LLM 2025
Une stack red team LLM moderne combine quatre familles d'outils. Stack OSS minimale couvre 70 % des besoins, le commercial complète sur les vulnérabilités complexes (LLM06, LLM08).
| Famille | Outils OSS | Outils commerciaux | Couverture |
|---|---|---|---|
| Prompt injection automation | Garak (NVIDIA), Promptfoo | Lakera Red, Mindgard | LLM01, LLM07 |
| Red team orchestration | PyRIT (Microsoft) | Lakera Red, Mindgard | Multi-tour, scénarios complexes |
| Régression et CI/CD | Promptfoo, DeepEval | Patronus AI | Tests reproductibles |
| Observabilité runtime | Langfuse, Arize Phoenix | LangSmith, Datadog LLM | Replay, drift, anomalies |
| RAG et embedding tests | Custom Python + Garak | Mindgard | LLM08 |
| Agent autonome tests | Custom + LangChain callbacks | Mindgard agentic suite | LLM06 + cascading |
Points clés de la stack 2025
- Garak est devenu le standard de fait pour automatiser les tests prompt injection / jailbreak / leak ; intégré dans la plupart des pipelines red team modernes.
- PyRIT (Python Risk Identification Toolkit) couvre les scénarios multi-tours impossibles à automatiser avec Garak seul.
- Lakera Red et Mindgard offrent une couverture plus complète mais leur ROI dépend du volume de cibles auditées.
Voir aussi Audit IA générative : checklist OWASP LLM Top 10 pour l'utilisation de ces outils côté audit structuré.
5. Playbook red team LLM par phase
Quatre phases canoniques pour un engagement red team LLM. Durées indicatives pour un engagement de 8 semaines.
Phase 1 — Reconnaissance et threat modeling (semaines 1-2)
- Cartographie publique du système IA cible : sources d'OSINT, posts techniques internes (LinkedIn, blog), mentions presse.
- Fingerprinting du modèle (provider, version, fine-tuning probable) via empreinte stylistique et tests de limites.
- Inventaire des canaux d'injection indirecte (RAG, emails, tickets, formulaires, calendrier, documents partagés).
- Threat modeling adapté au contexte business — quels actifs ont la valeur la plus élevée pour l'objectif fixé en RoE ?
Phase 2 — Exploitation graduée (semaines 3-6)
Le playbook par classe de vulnérabilité. Exemple structuré en YAML d'un mini-playbook pour un red team chatbot :
# Playbook red team LLM — chatbot RAG enterprise
engagement_id: RT-2026-Q2-banking
objective: "Exfiltration de PII utilisateurs autres tenants via RAG"
duration_weeks: 8
phases:
- name: recon
duration: "2w"
tasks:
- "Fingerprint modèle (test stylistique + empreinte limites)"
- "Cartographie tools function calling exposés"
- "Inventaire sources RAG accessibles à l'attaquant externe"
- name: exploitation
duration: "4w"
techniques:
- id: AML.T0051.000
name: "Direct prompt injection"
payloads_count: 30
success_threshold: ">5 leak system prompt"
- id: AML.T0051.001
name: "Indirect prompt injection via RAG"
payloads_count: 15
success_threshold: ">1 cross-tenant retrieval"
- id: AML.T0054
name: "LLM Jailbreak"
payloads_count: 50
success_threshold: ">3 bypass guardrails"
- name: persistence_exfil
duration: "1w"
objective: "Maintenir accès via empoisonnement mémoire persistante"
- name: reporting
duration: "1w"
deliverables:
- "Rapport engagement red team (40-60 pages)"
- "Métriques MTTC, MTTD, TTP coverage"
- "Replay scenarios pour équipe défense"Phase 3 — Persistence et exfiltration (semaine 7)
Si l'engagement le justifie, démontrer la persistance d'accès : empoisonnement durable du vector store, manipulation de la mémoire long-terme, écriture dans un système accessible via tool. Toujours sur des cibles d'audit isolées, jamais sur les ressources production réelles.
Phase 4 — Reporting et métriques (semaine 8)
- Rapport d'engagement (40-60 pages typique).
- Métriques détaillées (section 6).
- Replay scenarios pour l'équipe défense (purple team workshop conseillé).
- Plan de remédiation hiérarchisé.
6. Métriques et rapport red team
Trois métriques principales transforment un engagement ponctuel en programme mesurable.
Métriques clés
| Métrique | Définition | Cible idéale | Source |
|---|---|---|---|
| MTTC (Mean Time To Compromise) | Temps avant première compromission significative | Croissant entre engagements (signal d'amélioration prévention) | Logs red team |
| MTTD (Mean Time To Detection) | Temps avant que l'équipe défense détecte l'activité | Décroissant entre engagements | Logs SOC + observabilité LLM |
| TTP coverage | % des techniques MITRE ATLAS testées avec succès | Viser 80 %+ couverture sur les TTPs applicables | Mapping ATLAS du rapport |
| Dwell time | Durée moyenne d'accès non détecté après compromission | Décroissant — signal détection plus rapide | Logs corrélés |
| False positive rate (côté défense) | % des alertes générées par l'activité red team identifiées correctement | Croissant — qualification des alertes | Tickets SOC |
Structure rapport red team
- Executive summary (2-3 pages) — synthèse business, objectif atteint ou non, métriques clés.
- Méthodologie — RoE appliquées, frameworks (MITRE ATLAS, OWASP LLM Top 10 v2 2025), périmètre d'engagement.
- Timeline d'engagement — ligne du temps des événements clés (compromission, détection, escalade).
- Findings techniques — par technique ATLAS, avec preuves (transcripts, captures, logs).
- Évaluation de la défense — détections observées vs manquées, temps de réaction.
- Plan de remédiation priorisé — actions par sprint avec délais et coûts estimés.
- Annexes — payloads, configurations, replay scripts pour purple team workshop.
Points clés à retenir
- Le red team LLM diffère du pentest scopé sur cinq dimensions structurelles — durée, périmètre, mesure de la détection, livrable, fréquence. Pas substituables.
- Cinq spécificités RoE LLM non couvertes par les RoE red team classiques — budget tokens, whitelist IPs côté API LLM, marquage artefacts, comptes API dédiés, kill switch 24/7.
- MITRE ATLAS structure le rendu — chaque finding mappé sur 1+ technique ATLAS pour comparabilité et exploitation côté défense.
- Stack OSS Garak + PyRIT + Promptfoo couvre 70 % des besoins ; complément commercial (Lakera Red, Mindgard) sur LLM06 et LLM08.
- Trois métriques mesurent un programme red team — MTTC croissant, MTTD décroissant, TTP coverage. Sans elles, les engagements restent ponctuels et incomparables.
Pour aller plus loin, voir Pentest d'un chatbot IA d'entreprise pour la méthodologie pentest scopée complémentaire, Tester les vulnérabilités d'un agent IA autonome pour les agents multi-tools, et Audit IA générative : checklist OWASP LLM Top 10 pour la dimension structurée. Le bootcamp LLM Security inclut un module red team LLM avec lab pratique sur 10 semaines.







