LLM Security

Stratégie de défense en profondeur contre la prompt injection

Architecture stratégique anti-prompt injection : threat model STRIDE-LLM + MITRE ATLAS, 7 couches indépendantes, modèle de maturité, gouvernance, mapping NIST/EU AI Act.

Naim Aouaichia
12 min de lecture
  • défense en profondeur
  • architecture
  • gouvernance
  • threat model
  • LLM security

L'erreur stratégique la plus fréquente sur la sécurité LLM en 2026 : choisir une couche (un guardrail, un system prompt durci, un classifier) et croire que le problème est résolu. La prompt injection est, par construction, une menace probabiliste qui ne disparaît pas — elle se réduit. La seule réponse défendable est la défense en profondeur : plusieurs couches indépendantes dont les modes d'échec ne se recouvrent pas.

Cet article aborde la défense en profondeur sous l'angle stratégique (threat model, architecture, gouvernance, conformité) plutôt que tactique. Pour les implémentations concrètes par couche, voir les articles dédiés : protéger une application LLM, system prompt durci, guardrails, détection runtime.

Pourquoi la défense en profondeur LLM diffère

Trois propriétés rendent l'approche LLM différente d'un WAF ou d'une défense réseau classique :

  1. Mélange donnée/instruction : un LLM reçoit un prompt qui contient à la fois le contexte système (instruction) et l'input utilisateur (donnée), et il les concatène en un seul flux qu'il interprète sémantiquement. Aucun parser n'extrait l'instruction de la donnée comme dans le langage SQL ou HTML.
  2. Surface d'attaque incluant le contenu retrieved : RAG, browsing, emails, fichiers — toute donnée externe ingérée est un vecteur. La surface dépasse largement l'input direct.
  3. Défense probabiliste : aucune couche ne couvre 100% des attaques. Les benchmarks publics (HarmBench, JailbreakBench) mesurent les bypass, et ils sont non-nuls même pour les meilleurs produits.

Conséquence : le bon analogue mental n'est pas le WAF, c'est la lutte anti-fraude — accumulation de signaux faibles, scoring multi-dimensionnel, calibration continue, acceptation d'un taux de FP/FN, monitoring runtime obligatoire.

Threat model : STRIDE-LLM et MITRE ATLAS

Avant d'empiler des couches, formaliser le modèle de menace. Deux référentiels utilisables :

STRIDE adapté au LLM

Catégorie STRIDEManifestation LLMExemple concret
SpoofingPersona injection / impersonationDAN, Developer Mode, claim d'identité système
TamperingModification du comportement via injectionOverride d'instructions, RAG poisoning
RepudiationAction sans trace attribuableTool call déclenché par injection indirecte sans log
Information disclosureLeak de system prompt, exfiltration RAGEchoLeak, Bing Sydney, system prompt leak
Denial of servicePrompts qui font boucler ou consommer le quotaMany-shot, prompts adversariaux longs
Elevation of privilegeLLM exécute action qu'il ne devrait pasTool call non autorisé déclenché par injection

MITRE ATLAS

MITRE ATLAS (Adversarial Threat Landscape for AI Systems) catalogue les techniques adverses contre les systèmes IA. Pour un LLM, les techniques pertinentes incluent : Prompt Injection (AML.T0051), LLM Plugin Compromise (AML.T0053), LLM Jailbreak (AML.T0054), Indirect Prompt Injection (AML.T0070).

Couvrir explicitement ces techniques dans le threat model permet de mapper chaque couche défensive à une ou plusieurs techniques — exigence de plus en plus demandée par auditeurs externes (EU AI Act, ISO 42001, NIST AI RMF).

Tip — Documenter le threat model dans un format vivant (markdown versionné), pas un PDF qui dort. Le mettre à jour à chaque évolution majeure de l'application ou des techniques d'attaque publiques. Cible : revue trimestrielle.

Architecture cible : 7 couches indépendantes

Pour un système exposé en production, l'architecture défensive cible :

                ┌─────────────────────────────────────┐
                │ Couche 7 — Audit & red teaming       │
                │ (externe, périodique)                │
                └─────────────────────────────────────┘
                ┌─────────────────────────────────────┐
                │ Couche 6 — Gouvernance & monitoring  │
                │ (SOC, SIEM, runbooks, KPIs)          │
                └─────────────────────────────────────┘
                ┌─────────────────────────────────────┐
                │ Couche 5 — Tool allowlist + HITL    │
                │ (approval pour actions sortantes)    │
                └─────────────────────────────────────┘
                ┌─────────────────────────────────────┐
                │ Couche 4 — Output filter (DLP)      │
                │ (Presidio, canary detection, URLs)   │
                └─────────────────────────────────────┘
                ┌─────────────────────────────────────┐
                │ Couche 3 — Sanitization ingestion   │
                │ (RAG chunks, docs, emails, web)      │
                └─────────────────────────────────────┘
                ┌─────────────────────────────────────┐
                │ Couche 2 — System prompt durci      │
                │ (rôle strict, délimiteurs, canary)   │
                └─────────────────────────────────────┘
                ┌─────────────────────────────────────┐
                │ Couche 1 — Input filter             │
                │ (regex + classifier + guardrail)     │
                └─────────────────────────────────────┘

Propriétés clés :

  • Indépendance des modes d'échec : un bypass de couche 1 (regex + classifier) ne signifie pas un bypass de couche 4 (output filter). Si elles partageaient le même classifier, l'indépendance serait illusoire.
  • Granularité d'intervention : chaque couche peut être activée, désactivée, calibrée séparément.
  • Observabilité par couche : chaque couche émet ses propres métriques et logs vers le SIEM.
  • Coût décroissant : les premières couches (input filter, system prompt) sont peu coûteuses ; les dernières (audit externe, HITL) sont plus chères mais critiques.
CoucheCoût relatifCouverture incrémentaleArticle dédié
1 — Input filterFaibleÉlevée (attaques connues)détecter
2 — System promptTrès faibleModéréesystem prompt
3 — SanitizationFaibleÉlevée (indirecte)protéger LLM
4 — Output filterMoyenModérée à élevéeprotéger LLM
5 — Tool + HITLMoyenTrès élevée (agents)agents APIs
6 — GouvernanceMoyenTransverseCet article
7 — Audit externeÉlevéTransversered teaming LLM

Décisions de trade-off

Toute stratégie défensive arbitre entre quatre dimensions :

DimensionLevierTrade-off
LatencePlus de couches synchrones = plus de p95UX vs sécurité
CoûtCouches managées + infra interne$ vs autonomie
Faux positifs (FPR)Seuils strictsFriction utilisateur vs couverture
Faux négatifs (FNR)Seuils permissifsCouverture vs friction

Cadre de décision par profil de risque

ProfilExemplesCible FPRCible FNRLatence acceptable
CritiqueSanté, finance, défense, M365-class< 0.5%< 5%< 200ms p95
ÉlevéSupport client B2B, RH, juridique< 1-2%< 10%< 300ms p95
ModéréChatbot grand public sans données< 3%< 20%< 500ms p95
FaibleOutil interne dev, sandbox< 5%< 30%< 1s

Calibrer les seuils selon ce profil, pas selon les défauts du fournisseur. Le profil détermine aussi le nombre de couches obligatoires (cf. modèle de maturité ci-dessous).

Modèle de maturité par niveau

Cinq niveaux progressifs. Chaque niveau ajoute des couches et de la rigueur opérationnelle.

Niveau 1 — Initial (POC)

  • System prompt minimal, sans canary token.
  • Aucun filtre input/output.
  • Pas de monitoring.
  • Tools débridés.
  • Risque : fuite quasi-certaine sous attaque ciblée. Acceptable seulement pour POC interne sans données sensibles.

Niveau 2 — MVP

  • System prompt durci (rôle strict + délimiteurs + canary).
  • Input filter regex + classifier managé (Lakera, Prompt Shields).
  • Désactivation rendu markdown image côté UI.
  • Logs structurés vers SIEM.
  • Risque : couvre 60-80% des attaques connues. Acceptable pour public non-sensible.

Niveau 3 — Production standard

  • Niveaux 1-2 + sanitization à l'ingestion (RAG, docs, emails).
  • Output filter DLP (Presidio + canary detection + allowlist URLs).
  • Tool allowlist statique pour agents.
  • Monitoring runtime + alerting SOC.
  • Red teaming interne semestriel.
  • Risque : couvre 80-95% des attaques connues. Acceptable pour la plupart des cas d'usage entreprise.

Niveau 4 — Production critique

  • Niveaux 1-3 + approval HITL pour actions sortantes (envoi email, partage, API externes).
  • Isolation par contexte de confiance (les chunks d'un user ne passent pas en système).
  • Canary tokens dans documents test continus.
  • Red teaming externe trimestriel.
  • Conformité documentée (NIST AI RMF, ISO 42001).
  • Risque : couvre > 95% des attaques connues. Requis pour santé, finance, défense, M365-class.

Niveau 5 — Optimisé

  • Niveaux 1-4 + recherche interne sur nouvelles techniques d'attaque (veille arXiv mensuelle, contributions open source).
  • Bug bounty IA actif.
  • Threat intelligence partagée avec partenaires/communauté.
  • Re-calibration mensuelle des seuils.
  • Métriques de maturité publiées (cf. NIST AI RMF Tier 4).

Cible réaliste pour la plupart des organisations : niveau 3 dans l'année qui suit le déploiement, niveau 4 pour les systèmes critiques sous 18-24 mois.

Mapping aux référentiels

La défense en profondeur LLM doit s'aligner avec les référentiels en vigueur. Trois cadres principaux à connaître en 2026.

NIST AI RMF (AI Risk Management Framework, 2023+)

Quatre fonctions principales : Govern, Map, Measure, Manage. Pour la prompt injection, le mapping typique :

  • Govern : politique de sécurité IA, ownership, RACI, formation des équipes.
  • Map : threat model STRIDE-LLM + MITRE ATLAS, classification de risque par usage.
  • Measure : métriques par couche (TPR/FPR, latence, MTTD/MTTR), benchmarks périodiques.
  • Manage : runbooks SOC, calibration continue, gestion d'incident.

EU AI Act (entrée en vigueur progressive 2024-2027)

Pour les systèmes IA à haut risque (Annexe III : santé, éducation, RH, justice, infrastructures critiques) :

  • Article 9 — Système de gestion des risques (obligatoire) : threat model documenté.
  • Article 10 — Données : qualité et gouvernance des données d'entraînement et d'inférence.
  • Article 13 — Transparence : information utilisateur sur les limites du système.
  • Article 14 — Surveillance humaine : approval HITL pour actions critiques.
  • Article 15 — Cybersécurité : robustesse contre les attaques (incluant prompt injection).

Sanctions jusqu'à 35M€ ou 7% du CA mondial pour non-conformité sur systèmes à haut risque.

ISO 42001 (publiée décembre 2023)

Premier standard international de management de l'IA. Aligné sur la structure ISO (Plan-Do-Check-Act). Couvre :

  • Contexte organisationnel et parties intéressées
  • Leadership et politique
  • Planification (objectifs, gestion des risques IA)
  • Support (compétences, communication, documentation)
  • Opération (contrôles techniques, gestion de fournisseurs IA)
  • Évaluation des performances (audit, revue de direction)
  • Amélioration

ISO 42001 fournit le cadre formel ; NIST AI RMF fournit le pratico-technique. Les deux sont complémentaires.

OWASP LLM Top 10 v2 (2025)

Référence technique opérationnelle. La défense en profondeur couvre directement :

  • LLM01 Prompt Injection
  • LLM02 Sensitive Information Disclosure
  • LLM03 Supply Chain
  • LLM06 Excessive Agency
  • LLM07 System Prompt Leakage

Pour le détail OWASP : audit IA générative OWASP LLM Top 10 et audit conformité NIST/ISO/EU AI Act.

Gouvernance, ownership et cadence opérationnelle

Une stratégie sans gouvernance est un PowerPoint. La défense en profondeur LLM exige une structure RACI explicite et des cadences opérationnelles.

RACI type

ResponsabilitéOwner principalContributeurs
Threat modelRSSI / Security ArchitectTech lead LLM, Data Privacy Officer
System prompt + sanitizationTech lead LLMAppSec
Input/output filtersAppSecTech lead LLM, SRE
Monitoring + SOCSOCAppSec, SRE
Red teamingRed team / externeRSSI
Conformité (NIST/AI Act/ISO)DPO + RSSIDirection juridique
Gestion incidentSOC + RSSITech lead LLM, Comms

Cadences opérationnelles

CadenceActivité
ContinueMonitoring runtime, alertes SOC
HebdoRevue des détections, ajustement seuils mineurs
MensuelleRevue des métriques, re-calibration classifiers, mise à jour corpus de test
TrimestrielleRevue threat model, audit interne, métriques direction
SemestrielleRed teaming interne, revue conformité
AnnuelleRed teaming externe, revue politique de sécurité IA, audit ISO 42001 si applicable

KPIs minimum

  • Couverture techniques d'attaque : % des techniques du Top 20 jailbreak bloquées sur corpus de test.
  • MTTD (Mean Time to Detect) : temps moyen entre attaque réussie et détection.
  • MTTR (Mean Time to Respond) : temps moyen entre détection et action.
  • FPR sur trafic légitime : taux de blocage erroné.
  • Disponibilité du service : pas dégradée par les couches défensives.
  • Coût défensif total / coût LLM : ratio à monitorer (cible 5-20%).

Pour l'opérationnalisation runtime côté SOC, voir détecter une prompt injection en temps réel.

Points clés à retenir

  • La prompt injection est une menace probabiliste qui ne se résout pas par une seule mesure. Toute stratégie sérieuse repose sur la défense en profondeur avec couches indépendantes.
  • Threat model d'abord (STRIDE-LLM + MITRE ATLAS), avant d'empiler des outils. Documenté, vivant, mis à jour trimestriellement.
  • 7 couches cibles : input filter, system prompt durci, sanitization à l'ingestion, output filter DLP, tool allowlist + HITL, gouvernance/monitoring, audit externe.
  • Modèle de maturité 5 niveaux : POC → MVP → Production standard → Production critique → Optimisé. Cibler niveau 3 dans l'année, niveau 4 pour les systèmes critiques.
  • Trade-offs explicites : latence, coût, FPR, FNR. Calibrer selon le profil de risque (critique, élevé, modéré, faible), pas selon les défauts vendeur.
  • Conformité incontournable en 2026 : NIST AI RMF (technique), EU AI Act (légal/sanctions), ISO 42001 (management), OWASP LLM Top 10 (opérationnel).
  • Gouvernance = RACI explicite + cadences (continue → hebdo → mensuelle → trimestrielle → annuelle) + KPIs (MTTD, MTTR, FPR, couverture).
  • Ne pas créer de cellule IA isolée : intégrer la défense LLM aux pratiques existantes (SOC, AppSec, audit, threat modeling, red team).

La défense en profondeur LLM est un programme, pas un produit. Sa qualité se mesure dans la durée — capacité à détecter de nouvelles techniques, à calibrer en continu, à intégrer les retours du SOC et des red teams. C'est un alignement entre architecture technique, gouvernance et opérationnel, indissociables.

Questions fréquentes

  • Combien de couches de défense faut-il pour une application LLM en production ?
    Le minimum opérationnel défendable en 2026 est 5 couches indépendantes : (1) input filter, (2) system prompt durci, (3) sanitization à l'ingestion (RAG/docs), (4) output filter + DLP, (5) monitoring runtime. Les systèmes critiques (santé, finance, défense) ajoutent 2 couches : (6) tool allowlist + approval HITL pour agents, (7) audit externe régulier. Le bon nombre dépend du profil de risque et du blast radius : plus l'agent a de privilèges, plus il faut de couches indépendantes.
  • Quel ordre de priorité d'implémentation pour une équipe qui démarre ?
    Phase 1 (semaines 1-4) : system prompt durci + input filter de base (regex + classifier managé type Lakera) + désactivation rendu markdown image en sortie. C'est 80% de la couverture pour 20% de l'effort. Phase 2 (mois 2-3) : sanitization à l'ingestion RAG, output filter DLP (Presidio), canary tokens, monitoring/SIEM. Phase 3 (mois 3-6) : tool allowlist + approval HITL, red teaming périodique, calibration continue. Ne pas tenter le 'big bang' — c'est le meilleur moyen de rien finir.
  • Comment justifier le budget défense LLM auprès de la direction ?
    Trois leviers chiffrés. (1) Coût d'un incident type EchoLeak (CVE-2025-32711) : exfiltration M365 Copilot = remédiation + audit + perte de confiance, typiquement 500k-5M€ pour une ETI. (2) Conformité : EU AI Act (sanctions jusqu'à 35M€ ou 7% du CA mondial pour systèmes à haut risque), NIST AI RMF (exigé par contrats US fédéraux). (3) Coût opérationnel d'une stack défense complète : 50-300k€/an selon volume, soit 1-10% du coût d'un seul incident. Le ratio est imbattable.
  • Quelle différence entre défense en profondeur LLM et défense en profondeur classique (réseau, app web) ?
    Trois différences structurelles. (1) Le LLM mélange par construction donnée et instruction — un WAF web peut filtrer du SQL ou du XSS sur signature, un classifier LLM raisonne sur sémantique avec FP/FN inhérents. (2) La surface d'attaque inclut le contenu retrieved (RAG, web, emails) — pas seulement l'input direct. (3) La défense est probabiliste : 100% de couverture est techniquement impossible aujourd'hui, alors qu'on peut atteindre des niveaux quasi-parfaits sur l'injection SQL. La défense LLM est plus proche de la lutte anti-fraude que d'un WAF.
  • Faut-il documenter la stratégie de défense LLM dans une politique formelle ?
    Oui, surtout si l'organisation est soumise à EU AI Act, NIST AI RMF, ISO 42001 ou DORA. Le document type contient : (1) périmètre des systèmes LLM internes, (2) classification de risque par usage, (3) couches de défense obligatoires par classe de risque, (4) ownership et RACI, (5) métriques et seuils, (6) cadence d'audit, (7) procédure de gestion d'incident. ISO 42001 (publiée en décembre 2023) fournit un cadre de management de l'IA aligné avec ce besoin.
  • Comment articuler la défense LLM avec le SOC et l'AppSec existants ?
    Trois principes. (1) Le SOC reçoit les détections LLM via le SIEM existant (Splunk, Sentinel, Elastic) — pas de console séparée. (2) L'AppSec hérite des reviews de prompt comme du code source — versioning Git, MR/PR, tests CI. (3) Les processus existants s'étendent : pentest devient red team LLM, threat modeling intègre STRIDE-LLM, audit annuel inclut un volet IA. L'erreur classique est de créer une 'cellule IA' isolée — la sécurité IA doit s'intégrer aux pratiques de sécurité existantes, pas les remplacer.

Écrit par

Naim Aouaichia

Expert cybersécurité et fondateur de Zeroday Cyber Academy

Expert cybersécurité avec un master spécialisé et un parcours hybride : développement, DevOps, DevSecOps, SOC, GRC. Fondateur de Hash24Security et Zeroday Cyber Academy. Formateur et créateur de contenu technique sur la cybersécurité appliquée, la sécurité des LLM et le DevSecOps.