LLM Security

Red teaming LLM : guide pratique pour pentesters francophones

Guide pratique du red teaming LLM pour pentesters : règles d'engagement, TTPs MITRE ATLAS, outils 2025, playbook par phase et métriques de mesure.

Naim Aouaichia
10 min de lecture
  • Red teaming
  • LLM Security
  • Pentest
  • MITRE ATLAS
  • OWASP LLM
  • Méthodologie
  • Playbook
  • TTPs

Le red teaming LLM est l'application au domaine IA des principes du red team offensif classique : simuler un attaquant réel non-déclaré, sans périmètre exhaustif, avec un objectif business défini et la liberté tactique de l'atteindre. À la différence du pentest LLM scopé, le red team mesure simultanément la prévention et la détection, sur une durée longue. Ce guide pratique structure les règles d'engagement, les TTPs alignées MITRE ATLAS, l'outillage 2025, le playbook tactique et les métriques de mesure pour les pentesters francophones qui ajoutent la dimension LLM à leur scope.

1. Red team LLM vs pentest LLM scopé — clarifier le périmètre

Les deux prestations sont régulièrement confondues. Distinction synthétique :

DimensionRed team LLMPentest LLM scopé
PérimètreObjectif business défini, chemins libresEndpoints + tools listés en convention
Durée4 à 12 semaines8 à 30 jours-homme
PréavisAucun ou très haut niveau seulementAnnoncé, fenêtre négociée
MesurePrévention + détection (MTTD, MTTC)Prévention principalement
Cible défenseTests bleu équipe en parallèlePas de mesure défense
LivrableRapport d'engagement + métriquesRapport pentest avec findings hiérarchisés
FréquenceAnnuel ou continuPonctuel, après changements majeurs

Pour la définition conceptuelle, voir Red teaming LLM — définition. Pour le pentest scopé, voir Pentest d'un chatbot IA d'entreprise. Cet article-ci est l'application pratique côté red team.

2. Règles d'engagement spécifiques au red team LLM

Les règles d'engagement (Rules of Engagement, RoE) d'un red team LLM diffèrent du red team classique sur cinq points opérationnels.

Cinq spécificités RoE LLM

  • Budget tokens hard-capped — un test prompt-injection mal calibré peut coûter 10-50× le coût normal. Cap dur par engagement (typiquement 5 000 à 20 000 € de budget API selon l'ampleur).
  • Whitelist d'IPs source côté reverse proxy pour distinguer le trafic red team du trafic légitime. Sans cela, les WAF clients réels coupent l'accès en cours d'engagement.
  • Marquage des artefacts — tous les payloads, comptes test, mailboxes d'audit, documents RAG empoisonnés portent un identifiant red team unique reproductible (par exemple RT-2026-Q2-0042 ou tout schéma adapté).
  • Comptes API dédiés — jamais le compte production, pour isoler les coûts et permettre un kill switch immédiat.
  • Canal de sécurité escalade — un point de contact unique côté commanditaire (RSSI ou délégué) joignable 24/7 pour suspendre l'engagement en cas d'incident grave.

Périmètre minimum à figer dans la convention

Les éléments à graver dans la RoE même pour un red team non-scopé sur les chemins :

  1. Objectif business unique formulé précisément (par exemple « obtenir un transfert non autorisé > 1 000 € via le chatbot bancaire »).
  2. Cibles opérationnelles explicitement hors scope (production payments, données utilisateurs réels en clair, infrastructure fournisseur LLM).
  3. Fenêtre d'engagement avec dates exactes et timezone.
  4. Critères d'arrêt anticipé — incident SEV1 client, breach data réelle, demande équipe défense.
  5. Modalités de communication avec les parties prenantes informées (typiquement RSSI + DPO + 1-2 personnes max côté technique).

3. TTPs MITRE ATLAS pour LLM

MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems) est le référentiel TTP (Tactics, Techniques, Procedures) dédié aux attaques sur les systèmes IA, complément de MITRE ATT&CK. Cartographie tactique d'un red team LLM type :

Tactique ATLASTechniques applicables LLMExemples concrets
ReconnaissanceAML.T0001 Search Open AI Vulnerability Analysis, AML.T0006 Active ScanningOSINT sur fournisseur modèle, fingerprinting API
Resource DevelopmentAML.T0008 Acquire Public ML ArtifactsRécupération du modèle de base, prompts templates publics
Initial AccessAML.T0051 LLM Prompt Injection (direct/indirect)OWASP LLM01
ML Model AccessAML.T0040 ML Model Inference API AccessTest des limites légitimes via API exposée
ExecutionAML.T0050 Command and Scripting InterpreterExécution via tools de function calling exposés
PersistenceAML.T0067 LLM Plugin Compromise, mémoire persistanteEmpoisonnement vector store ou mémoire long-terme
Privilege EscalationAML.T0053 LLM Plugin CompromiseEscalade via tool en écriture mal scopé (LLM06)
Defense EvasionAML.T0054 LLM JailbreakBypass guardrails via encodages, multi-tour
Credential AccessAML.T0048.001 External Harms - Financial HarmExtraction tokens / credentials via prompt injection
CollectionAML.T0035 ML Artifact CollectionExtraction system prompt, données autres utilisateurs
ExfiltrationAML.T0024 Exfiltration via ML Inference APISortie via tool email, webhook, image markdown
ImpactAML.T0029 Denial of ML ServiceLLM10 Unbounded Consumption

Cette grille structure le rapport final : chaque finding est mappé sur 1 à N techniques ATLAS, ce qui rend le rendu comparable et exploitable par l'équipe défense pour construire ses détections.

4. Outillage red team LLM 2025

Une stack red team LLM moderne combine quatre familles d'outils. Stack OSS minimale couvre 70 % des besoins, le commercial complète sur les vulnérabilités complexes (LLM06, LLM08).

FamilleOutils OSSOutils commerciauxCouverture
Prompt injection automationGarak (NVIDIA), PromptfooLakera Red, MindgardLLM01, LLM07
Red team orchestrationPyRIT (Microsoft)Lakera Red, MindgardMulti-tour, scénarios complexes
Régression et CI/CDPromptfoo, DeepEvalPatronus AITests reproductibles
Observabilité runtimeLangfuse, Arize PhoenixLangSmith, Datadog LLMReplay, drift, anomalies
RAG et embedding testsCustom Python + GarakMindgardLLM08
Agent autonome testsCustom + LangChain callbacksMindgard agentic suiteLLM06 + cascading

Points clés de la stack 2025

  • Garak est devenu le standard de fait pour automatiser les tests prompt injection / jailbreak / leak ; intégré dans la plupart des pipelines red team modernes.
  • PyRIT (Python Risk Identification Toolkit) couvre les scénarios multi-tours impossibles à automatiser avec Garak seul.
  • Lakera Red et Mindgard offrent une couverture plus complète mais leur ROI dépend du volume de cibles auditées.

Voir aussi Audit IA générative : checklist OWASP LLM Top 10 pour l'utilisation de ces outils côté audit structuré.

5. Playbook red team LLM par phase

Quatre phases canoniques pour un engagement red team LLM. Durées indicatives pour un engagement de 8 semaines.

Phase 1 — Reconnaissance et threat modeling (semaines 1-2)

  • Cartographie publique du système IA cible : sources d'OSINT, posts techniques internes (LinkedIn, blog), mentions presse.
  • Fingerprinting du modèle (provider, version, fine-tuning probable) via empreinte stylistique et tests de limites.
  • Inventaire des canaux d'injection indirecte (RAG, emails, tickets, formulaires, calendrier, documents partagés).
  • Threat modeling adapté au contexte business — quels actifs ont la valeur la plus élevée pour l'objectif fixé en RoE ?

Phase 2 — Exploitation graduée (semaines 3-6)

Le playbook par classe de vulnérabilité. Exemple structuré en YAML d'un mini-playbook pour un red team chatbot :

# Playbook red team LLM — chatbot RAG enterprise
engagement_id: RT-2026-Q2-banking
objective: "Exfiltration de PII utilisateurs autres tenants via RAG"
duration_weeks: 8
 
phases:
  - name: recon
    duration: "2w"
    tasks:
      - "Fingerprint modèle (test stylistique + empreinte limites)"
      - "Cartographie tools function calling exposés"
      - "Inventaire sources RAG accessibles à l'attaquant externe"
 
  - name: exploitation
    duration: "4w"
    techniques:
      - id: AML.T0051.000
        name: "Direct prompt injection"
        payloads_count: 30
        success_threshold: ">5 leak system prompt"
 
      - id: AML.T0051.001
        name: "Indirect prompt injection via RAG"
        payloads_count: 15
        success_threshold: ">1 cross-tenant retrieval"
 
      - id: AML.T0054
        name: "LLM Jailbreak"
        payloads_count: 50
        success_threshold: ">3 bypass guardrails"
 
  - name: persistence_exfil
    duration: "1w"
    objective: "Maintenir accès via empoisonnement mémoire persistante"
 
  - name: reporting
    duration: "1w"
    deliverables:
      - "Rapport engagement red team (40-60 pages)"
      - "Métriques MTTC, MTTD, TTP coverage"
      - "Replay scenarios pour équipe défense"

Phase 3 — Persistence et exfiltration (semaine 7)

Si l'engagement le justifie, démontrer la persistance d'accès : empoisonnement durable du vector store, manipulation de la mémoire long-terme, écriture dans un système accessible via tool. Toujours sur des cibles d'audit isolées, jamais sur les ressources production réelles.

Phase 4 — Reporting et métriques (semaine 8)

  • Rapport d'engagement (40-60 pages typique).
  • Métriques détaillées (section 6).
  • Replay scenarios pour l'équipe défense (purple team workshop conseillé).
  • Plan de remédiation hiérarchisé.

6. Métriques et rapport red team

Trois métriques principales transforment un engagement ponctuel en programme mesurable.

Métriques clés

MétriqueDéfinitionCible idéaleSource
MTTC (Mean Time To Compromise)Temps avant première compromission significativeCroissant entre engagements (signal d'amélioration prévention)Logs red team
MTTD (Mean Time To Detection)Temps avant que l'équipe défense détecte l'activitéDécroissant entre engagementsLogs SOC + observabilité LLM
TTP coverage% des techniques MITRE ATLAS testées avec succèsViser 80 %+ couverture sur les TTPs applicablesMapping ATLAS du rapport
Dwell timeDurée moyenne d'accès non détecté après compromissionDécroissant — signal détection plus rapideLogs corrélés
False positive rate (côté défense)% des alertes générées par l'activité red team identifiées correctementCroissant — qualification des alertesTickets SOC

Structure rapport red team

  • Executive summary (2-3 pages) — synthèse business, objectif atteint ou non, métriques clés.
  • Méthodologie — RoE appliquées, frameworks (MITRE ATLAS, OWASP LLM Top 10 v2 2025), périmètre d'engagement.
  • Timeline d'engagement — ligne du temps des événements clés (compromission, détection, escalade).
  • Findings techniques — par technique ATLAS, avec preuves (transcripts, captures, logs).
  • Évaluation de la défense — détections observées vs manquées, temps de réaction.
  • Plan de remédiation priorisé — actions par sprint avec délais et coûts estimés.
  • Annexes — payloads, configurations, replay scripts pour purple team workshop.

Points clés à retenir

  • Le red team LLM diffère du pentest scopé sur cinq dimensions structurelles — durée, périmètre, mesure de la détection, livrable, fréquence. Pas substituables.
  • Cinq spécificités RoE LLM non couvertes par les RoE red team classiques — budget tokens, whitelist IPs côté API LLM, marquage artefacts, comptes API dédiés, kill switch 24/7.
  • MITRE ATLAS structure le rendu — chaque finding mappé sur 1+ technique ATLAS pour comparabilité et exploitation côté défense.
  • Stack OSS Garak + PyRIT + Promptfoo couvre 70 % des besoins ; complément commercial (Lakera Red, Mindgard) sur LLM06 et LLM08.
  • Trois métriques mesurent un programme red team — MTTC croissant, MTTD décroissant, TTP coverage. Sans elles, les engagements restent ponctuels et incomparables.

Pour aller plus loin, voir Pentest d'un chatbot IA d'entreprise pour la méthodologie pentest scopée complémentaire, Tester les vulnérabilités d'un agent IA autonome pour les agents multi-tools, et Audit IA générative : checklist OWASP LLM Top 10 pour la dimension structurée. Le bootcamp LLM Security inclut un module red team LLM avec lab pratique sur 10 semaines.

Questions fréquentes

  • Quelle vraie différence entre red team LLM et pentest LLM scopé ?
    Le red team LLM simule un attaquant réel sans préavis ni périmètre exhaustif documenté — durée longue (4 à 12 semaines), objectif business défini, mais chemins libres. Il mesure la prévention ET la détection. Le pentest LLM est scopé par convention (endpoints listés, fenêtres négociées, règles précises), time-boxé (8 à 30 jours), et mesure principalement la prévention. Les deux sont complémentaires : le pentest produit une cartographie exhaustive ponctuelle, le red team valide la chaîne d'attaque réaliste sur la durée.
  • Faut-il être pentester web confirmé pour faire du red team LLM ?
    Oui dans la majorité des cas. La compréhension d'OWASP Web Top 10, des techniques d'exfiltration, du pivoting réseau et de l'OPSEC reste transposable. Mais il faut compléter par : maîtrise d'OWASP LLM Top 10 v2 2025, compréhension des architectures RAG et function calling, pratique du prompt engineering offensif. Six mois de transition sont typiques pour un pentester web senior qui passe au LLM red team avec sérieux.
  • Quelle stack outils minimale pour du red team LLM en 2025 ?
    Trois piliers : (1) Garak (NVIDIA, OSS) pour automatiser les tests prompt injection, jailbreak et leak de system prompt ; (2) PyRIT (Microsoft, OSS) pour orchestrer des scénarios multi-tours et mesurer les taux de réussite ; (3) Promptfoo pour la régression et l'intégration CI/CD. Compléter avec Lakera Red ou Mindgard si budget commercial. La stack OSS minimale couvre 70 % des besoins du red team LLM.
  • Combien de temps dure un engagement red team LLM typique ?
    Un engagement red team LLM standard dure 4 à 12 semaines avec une équipe de 2 à 4 opérateurs. Les 2 premières semaines sont consacrées à la reconnaissance approfondie et au threat modeling, les 4 à 8 semaines suivantes à l'exploitation graduée et au pivot, les 1 à 2 dernières semaines au reporting. À comparer aux 8 à 30 jours-homme d'un pentest LLM scopé. Les engagements continus (red team continu en abonnement annuel) émergent en 2025 chez les organisations matures.
  • Comment mesurer le succès d'un red team LLM ?
    Trois métriques principales : (1) Mean Time To Compromise (MTTC) — temps avant première compromission significative, idéalement croissant entre engagements ; (2) Mean Time To Detection (MTTD) — temps avant que l'équipe défense détecte l'activité, idéalement décroissant ; (3) coverage TTP — pourcentage des techniques MITRE ATLAS testées avec succès. Ces métriques deviennent comparables d'un engagement à l'autre et alimentent un programme red team continu.

Écrit par

Naim Aouaichia

Expert cybersécurité et fondateur de Zeroday Cyber Academy

Expert cybersécurité avec un master spécialisé et un parcours hybride : développement, DevOps, DevSecOps, SOC, GRC. Fondateur de Hash24Security et Zeroday Cyber Academy. Formateur et créateur de contenu technique sur la cybersécurité appliquée, la sécurité des LLM et le DevSecOps.