Quelle vraie différence entre red team LLM et pentest LLM scopé ?

Le red team LLM simule un attaquant réel sans préavis ni périmètre exhaustif documenté — durée longue (4 à 12 semaines), objectif business défini, mais chemins libres. Il mesure la prévention ET la détection. Le pentest LLM est scopé par convention (endpoints listés, fenêtres négociées, règles précises), time-boxé (8 à 30 jours), et mesure principalement la prévention. Les deux sont complémentaires : le pentest produit une cartographie exhaustive ponctuelle, le red team valide la chaîne d'attaque réaliste sur la durée.

Faut-il être pentester web confirmé pour faire du red team LLM ?

Oui dans la majorité des cas. La compréhension d'OWASP Web Top 10, des techniques d'exfiltration, du pivoting réseau et de l'OPSEC reste transposable. Mais il faut compléter par : maîtrise d'OWASP LLM Top 10 v2 2025, compréhension des architectures RAG et function calling, pratique du prompt engineering offensif. Six mois de transition sont typiques pour un pentester web senior qui passe au LLM red team avec sérieux.

Quelle stack outils minimale pour du red team LLM en 2025 ?

Trois piliers : (1) Garak (NVIDIA, OSS) pour automatiser les tests prompt injection, jailbreak et leak de system prompt ; (2) PyRIT (Microsoft, OSS) pour orchestrer des scénarios multi-tours et mesurer les taux de réussite ; (3) Promptfoo pour la régression et l'intégration CI/CD. Compléter avec Lakera Red ou Mindgard si budget commercial. La stack OSS minimale couvre 70 % des besoins du red team LLM.

Combien de temps dure un engagement red team LLM typique ?

Un engagement red team LLM standard dure 4 à 12 semaines avec une équipe de 2 à 4 opérateurs. Les 2 premières semaines sont consacrées à la reconnaissance approfondie et au threat modeling, les 4 à 8 semaines suivantes à l'exploitation graduée et au pivot, les 1 à 2 dernières semaines au reporting. À comparer aux 8 à 30 jours-homme d'un pentest LLM scopé. Les engagements continus (red team continu en abonnement annuel) émergent en 2025 chez les organisations matures.

Comment mesurer le succès d'un red team LLM ?

Trois métriques principales : (1) Mean Time To Compromise (MTTC) — temps avant première compromission significative, idéalement croissant entre engagements ; (2) Mean Time To Detection (MTTD) — temps avant que l'équipe défense détecte l'activité, idéalement décroissant ; (3) coverage TTP — pourcentage des techniques MITRE ATLAS testées avec succès. Ces métriques deviennent comparables d'un engagement à l'autre et alimentent un programme red team continu.

LLM Security

Red teaming LLM : guide pratique pour pentesters francophones

Guide pratique du red teaming LLM pour pentesters : règles d'engagement, TTPs MITRE ATLAS, outils 2025, playbook par phase et métriques de mesure.

Naim Aouaichia

28 avril 202610 min de lecture

Red teaming
LLM Security
Pentest
MITRE ATLAS
OWASP LLM
Méthodologie
Playbook
TTPs

Le red teaming LLM est l'application au domaine IA des principes du red team offensif classique : simuler un attaquant réel non-déclaré, sans périmètre exhaustif, avec un objectif business défini et la liberté tactique de l'atteindre. À la différence du pentest LLM scopé, le red team mesure simultanément la prévention et la détection, sur une durée longue. Ce guide pratique structure les règles d'engagement, les TTPs alignées MITRE ATLAS, l'outillage 2025, le playbook tactique et les métriques de mesure pour les pentesters francophones qui ajoutent la dimension LLM à leur scope.

1. Red team LLM vs pentest LLM scopé — clarifier le périmètre

Les deux prestations sont régulièrement confondues. Distinction synthétique :

Dimension	Red team LLM	Pentest LLM scopé
Périmètre	Objectif business défini, chemins libres	Endpoints + tools listés en convention
Durée	4 à 12 semaines	8 à 30 jours-homme
Préavis	Aucun ou très haut niveau seulement	Annoncé, fenêtre négociée
Mesure	Prévention + détection (MTTD, MTTC)	Prévention principalement
Cible défense	Tests bleu équipe en parallèle	Pas de mesure défense
Livrable	Rapport d'engagement + métriques	Rapport pentest avec findings hiérarchisés
Fréquence	Annuel ou continu	Ponctuel, après changements majeurs

Pour la définition conceptuelle, voir Red teaming LLM — définition. Pour le pentest scopé, voir Pentest d'un chatbot IA d'entreprise. Cet article-ci est l'application pratique côté red team.

2. Règles d'engagement spécifiques au red team LLM

Les règles d'engagement (Rules of Engagement, RoE) d'un red team LLM diffèrent du red team classique sur cinq points opérationnels.

Cinq spécificités RoE LLM

Budget tokens hard-capped — un test prompt-injection mal calibré peut coûter 10-50× le coût normal. Cap dur par engagement (typiquement 5 000 à 20 000 € de budget API selon l'ampleur).
Whitelist d'IPs source côté reverse proxy pour distinguer le trafic red team du trafic légitime. Sans cela, les WAF clients réels coupent l'accès en cours d'engagement.
Marquage des artefacts — tous les payloads, comptes test, mailboxes d'audit, documents RAG empoisonnés portent un identifiant red team unique reproductible (par exemple RT-2026-Q2-0042 ou tout schéma adapté).
Comptes API dédiés — jamais le compte production, pour isoler les coûts et permettre un kill switch immédiat.
Canal de sécurité escalade — un point de contact unique côté commanditaire (RSSI ou délégué) joignable 24/7 pour suspendre l'engagement en cas d'incident grave.

Périmètre minimum à figer dans la convention

Les éléments à graver dans la RoE même pour un red team non-scopé sur les chemins :

Objectif business unique formulé précisément (par exemple « obtenir un transfert non autorisé > 1 000 € via le chatbot bancaire »).
Cibles opérationnelles explicitement hors scope (production payments, données utilisateurs réels en clair, infrastructure fournisseur LLM).
Fenêtre d'engagement avec dates exactes et timezone.
Critères d'arrêt anticipé — incident SEV1 client, breach data réelle, demande équipe défense.
Modalités de communication avec les parties prenantes informées (typiquement RSSI + DPO + 1-2 personnes max côté technique).

3. TTPs MITRE ATLAS pour LLM

MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) est le référentiel TTP (Tactics, Techniques, Procedures) dédié aux attaques sur les systèmes IA, complément de MITRE ATT&CK. Cartographie tactique d'un red team LLM type :

Tactique ATLAS	Techniques applicables LLM	Exemples concrets
Reconnaissance	AML.T0001 Search Open AI Vulnerability Analysis, AML.T0006 Active Scanning	OSINT sur fournisseur modèle, fingerprinting API
Resource Development	AML.T0008 Acquire Public ML Artifacts	Récupération du modèle de base, prompts templates publics
Initial Access	AML.T0051 LLM Prompt Injection (direct/indirect)	OWASP LLM01
ML Model Access	AML.T0040 ML Model Inference API Access	Test des limites légitimes via API exposée
Execution	AML.T0050 Command and Scripting Interpreter	Exécution via tools de function calling exposés
Persistence	AML.T0067 LLM Plugin Compromise, mémoire persistante	Empoisonnement vector store ou mémoire long-terme
Privilege Escalation	AML.T0053 LLM Plugin Compromise	Escalade via tool en écriture mal scopé (LLM06)
Defense Evasion	AML.T0054 LLM Jailbreak	Bypass guardrails via encodages, multi-tour
Credential Access	AML.T0048.001 External Harms - Financial Harm	Extraction tokens / credentials via prompt injection
Collection	AML.T0035 ML Artifact Collection	Extraction system prompt, données autres utilisateurs
Exfiltration	AML.T0024 Exfiltration via ML Inference API	Sortie via tool email, webhook, image markdown
Impact	AML.T0029 Denial of ML Service	LLM10 Unbounded Consumption

Cette grille structure le rapport final : chaque finding est mappé sur 1 à N techniques ATLAS, ce qui rend le rendu comparable et exploitable par l'équipe défense pour construire ses détections.

4. Outillage red team LLM 2025

Une stack red team LLM moderne combine quatre familles d'outils. Stack OSS minimale couvre 70 % des besoins, le commercial complète sur les vulnérabilités complexes (LLM06, LLM08).

Famille	Outils OSS	Outils commerciaux	Couverture
Prompt injection automation	Garak (NVIDIA), Promptfoo	Lakera Red, Mindgard	LLM01, LLM07
Red team orchestration	PyRIT (Microsoft)	Lakera Red, Mindgard	Multi-tour, scénarios complexes
Régression et CI/CD	Promptfoo, DeepEval	Patronus AI	Tests reproductibles
Observabilité runtime	Langfuse, Arize Phoenix	LangSmith, Datadog LLM	Replay, drift, anomalies
RAG et embedding tests	Custom Python + Garak	Mindgard	LLM08
Agent autonome tests	Custom + LangChain callbacks	Mindgard agentic suite	LLM06 + cascading

Points clés de la stack 2025

Garak est devenu le standard de fait pour automatiser les tests prompt injection / jailbreak / leak ; intégré dans la plupart des pipelines red team modernes.
PyRIT (Python Risk Identification Toolkit) couvre les scénarios multi-tours impossibles à automatiser avec Garak seul.
Lakera Red et Mindgard offrent une couverture plus complète mais leur ROI dépend du volume de cibles auditées.

Voir aussi Audit IA générative : checklist OWASP LLM Top 10 pour l'utilisation de ces outils côté audit structuré.

5. Playbook red team LLM par phase

Quatre phases canoniques pour un engagement red team LLM. Durées indicatives pour un engagement de 8 semaines.

Phase 1 — Reconnaissance et threat modeling (semaines 1-2)

Cartographie publique du système IA cible : sources d'OSINT, posts techniques internes (LinkedIn, blog), mentions presse.
Fingerprinting du modèle (provider, version, fine-tuning probable) via empreinte stylistique et tests de limites.
Inventaire des canaux d'injection indirecte (RAG, emails, tickets, formulaires, calendrier, documents partagés).
Threat modeling adapté au contexte business — quels actifs ont la valeur la plus élevée pour l'objectif fixé en RoE ?

Phase 2 — Exploitation graduée (semaines 3-6)

Le playbook par classe de vulnérabilité. Exemple structuré en YAML d'un mini-playbook pour un red team chatbot :

# Playbook red team LLM — chatbot RAG enterprise
engagement_id: RT-2026-Q2-banking
objective: "Exfiltration de PII utilisateurs autres tenants via RAG"
duration_weeks: 8
 
phases:
  - name: recon
    duration: "2w"
    tasks:
      - "Fingerprint modèle (test stylistique + empreinte limites)"
      - "Cartographie tools function calling exposés"
      - "Inventaire sources RAG accessibles à l'attaquant externe"
 
  - name: exploitation
    duration: "4w"
    techniques:
      - id: AML.T0051.000
        name: "Direct prompt injection"
        payloads_count: 30
        success_threshold: ">5 leak system prompt"
 
      - id: AML.T0051.001
        name: "Indirect prompt injection via RAG"
        payloads_count: 15
        success_threshold: ">1 cross-tenant retrieval"
 
      - id: AML.T0054
        name: "LLM Jailbreak"
        payloads_count: 50
        success_threshold: ">3 bypass guardrails"
 
  - name: persistence_exfil
    duration: "1w"
    objective: "Maintenir accès via empoisonnement mémoire persistante"
 
  - name: reporting
    duration: "1w"
    deliverables:
      - "Rapport engagement red team (40-60 pages)"
      - "Métriques MTTC, MTTD, TTP coverage"
      - "Replay scenarios pour équipe défense"

Phase 3 — Persistence et exfiltration (semaine 7)

Si l'engagement le justifie, démontrer la persistance d'accès : empoisonnement durable du vector store, manipulation de la mémoire long-terme, écriture dans un système accessible via tool. Toujours sur des cibles d'audit isolées, jamais sur les ressources production réelles.

Phase 4 — Reporting et métriques (semaine 8)

Rapport d'engagement (40-60 pages typique).
Métriques détaillées (section 6).
Replay scenarios pour l'équipe défense (purple team workshop conseillé).
Plan de remédiation hiérarchisé.

6. Métriques et rapport red team

Trois métriques principales transforment un engagement ponctuel en programme mesurable.

Métriques clés

Métrique	Définition	Cible idéale	Source
MTTC (Mean Time To Compromise)	Temps avant première compromission significative	Croissant entre engagements (signal d'amélioration prévention)	Logs red team
MTTD (Mean Time To Detection)	Temps avant que l'équipe défense détecte l'activité	Décroissant entre engagements	Logs SOC + observabilité LLM
TTP coverage	% des techniques MITRE ATLAS testées avec succès	Viser 80 %+ couverture sur les TTPs applicables	Mapping ATLAS du rapport
Dwell time	Durée moyenne d'accès non détecté après compromission	Décroissant — signal détection plus rapide	Logs corrélés
False positive rate (côté défense)	% des alertes générées par l'activité red team identifiées correctement	Croissant — qualification des alertes	Tickets SOC

Structure rapport red team

Executive summary (2-3 pages) — synthèse business, objectif atteint ou non, métriques clés.
Méthodologie — RoE appliquées, frameworks (MITRE ATLAS, OWASP LLM Top 10 v2 2025), périmètre d'engagement.
Timeline d'engagement — ligne du temps des événements clés (compromission, détection, escalade).
Findings techniques — par technique ATLAS, avec preuves (transcripts, captures, logs).
Évaluation de la défense — détections observées vs manquées, temps de réaction.
Plan de remédiation priorisé — actions par sprint avec délais et coûts estimés.
Annexes — payloads, configurations, replay scripts pour purple team workshop.

Points clés à retenir

Le red team LLM diffère du pentest scopé sur cinq dimensions structurelles — durée, périmètre, mesure de la détection, livrable, fréquence. Pas substituables.
Cinq spécificités RoE LLM non couvertes par les RoE red team classiques — budget tokens, whitelist IPs côté API LLM, marquage artefacts, comptes API dédiés, kill switch 24/7.
MITRE ATLAS structure le rendu — chaque finding mappé sur 1+ technique ATLAS pour comparabilité et exploitation côté défense.
Stack OSS Garak + PyRIT + Promptfoo couvre 70 % des besoins ; complément commercial (Lakera Red, Mindgard) sur LLM06 et LLM08.
Trois métriques mesurent un programme red team — MTTC croissant, MTTD décroissant, TTP coverage. Sans elles, les engagements restent ponctuels et incomparables.

Pour aller plus loin, voir Pentest d'un chatbot IA d'entreprise pour la méthodologie pentest scopée complémentaire, Tester les vulnérabilités d'un agent IA autonome pour les agents multi-tools, et Audit IA générative : checklist OWASP LLM Top 10 pour la dimension structurée. Le bootcamp LLM Security inclut un module red team LLM avec lab pratique sur 10 semaines.

Questions fréquentes

Quelle vraie différence entre red team LLM et pentest LLM scopé ?
Le red team LLM simule un attaquant réel sans préavis ni périmètre exhaustif documenté — durée longue (4 à 12 semaines), objectif business défini, mais chemins libres. Il mesure la prévention ET la détection. Le pentest LLM est scopé par convention (endpoints listés, fenêtres négociées, règles précises), time-boxé (8 à 30 jours), et mesure principalement la prévention. Les deux sont complémentaires : le pentest produit une cartographie exhaustive ponctuelle, le red team valide la chaîne d'attaque réaliste sur la durée.
Faut-il être pentester web confirmé pour faire du red team LLM ?
Oui dans la majorité des cas. La compréhension d'OWASP Web Top 10, des techniques d'exfiltration, du pivoting réseau et de l'OPSEC reste transposable. Mais il faut compléter par : maîtrise d'OWASP LLM Top 10 v2 2025, compréhension des architectures RAG et function calling, pratique du prompt engineering offensif. Six mois de transition sont typiques pour un pentester web senior qui passe au LLM red team avec sérieux.
Quelle stack outils minimale pour du red team LLM en 2025 ?
Trois piliers : (1) Garak (NVIDIA, OSS) pour automatiser les tests prompt injection, jailbreak et leak de system prompt ; (2) PyRIT (Microsoft, OSS) pour orchestrer des scénarios multi-tours et mesurer les taux de réussite ; (3) Promptfoo pour la régression et l'intégration CI/CD. Compléter avec Lakera Red ou Mindgard si budget commercial. La stack OSS minimale couvre 70 % des besoins du red team LLM.
Combien de temps dure un engagement red team LLM typique ?
Un engagement red team LLM standard dure 4 à 12 semaines avec une équipe de 2 à 4 opérateurs. Les 2 premières semaines sont consacrées à la reconnaissance approfondie et au threat modeling, les 4 à 8 semaines suivantes à l'exploitation graduée et au pivot, les 1 à 2 dernières semaines au reporting. À comparer aux 8 à 30 jours-homme d'un pentest LLM scopé. Les engagements continus (red team continu en abonnement annuel) émergent en 2025 chez les organisations matures.
Comment mesurer le succès d'un red team LLM ?
Trois métriques principales : (1) Mean Time To Compromise (MTTC) — temps avant première compromission significative, idéalement croissant entre engagements ; (2) Mean Time To Detection (MTTD) — temps avant que l'équipe défense détecte l'activité, idéalement décroissant ; (3) coverage TTP — pourcentage des techniques MITRE ATLAS testées avec succès. Ces métriques deviennent comparables d'un engagement à l'autre et alimentent un programme red team continu.

Découvrir la formation LLM Security

Écrit par

Naim Aouaichia

Expert cybersécurité et fondateur de Zeroday Cyber Academy

Expert cybersécurité avec un master spécialisé et un parcours hybride : développement, DevOps, DevSecOps, SOC, GRC. Fondateur de Hash24Security et Zeroday Cyber Academy. Formateur et créateur de contenu technique sur la cybersécurité appliquée, la sécurité des LLM et le DevSecOps.

Red teaming LLM : guide pratique pour pentesters francophones

1. Red team LLM vs pentest LLM scopé — clarifier le périmètre

2. Règles d'engagement spécifiques au red team LLM

Cinq spécificités RoE LLM

Périmètre minimum à figer dans la convention

3. TTPs MITRE ATLAS pour LLM

4. Outillage red team LLM 2025

Points clés de la stack 2025

5. Playbook red team LLM par phase

Phase 1 — Reconnaissance et threat modeling (semaines 1-2)

Phase 2 — Exploitation graduée (semaines 3-6)

Phase 3 — Persistence et exfiltration (semaine 7)

Phase 4 — Reporting et métriques (semaine 8)

6. Métriques et rapport red team

Métriques clés

Structure rapport red team

Points clés à retenir

Questions fréquentes

Naim Aouaichia

Red teaming LLM : qu'est-ce que c'est ? Guide 2025

Pentest d'un chatbot IA d'entreprise : méthodologie complète

Comment tester les vulnérabilités d'un agent IA autonome

Audit IA générative : checklist OWASP LLM Top 10 (v2 2025)

Auditer un LLM en production sans casser le service

Prompt injection : définition - Ce que tout dev doit savoir

Questions fréquentes

Naim Aouaichia

À lire également

Red teaming LLM : qu'est-ce que c'est ? Guide 2025

Pentest d'un chatbot IA d'entreprise : méthodologie complète

Comment tester les vulnérabilités d'un agent IA autonome

Audit IA générative : checklist OWASP LLM Top 10 (v2 2025)

Auditer un LLM en production sans casser le service

Prompt injection : définition - Ce que tout dev doit savoir