Sensitive Information Disclosure (LLM02:2025 OWASP) est la deuxième vulnérabilité du OWASP Top 10 for LLM Applications 2025 et désigne l'exposition involontaire de données sensibles via les réponses d'un modèle de langage. Elle couvre cinq vecteurs distincts en 2026 : training data memorization (régurgitation de données d'entraînement), cross-user context leakage (mélange de contextes entre utilisateurs), RAG disclosure avec ACL défaillant (accès à documents non autorisés), PII injectée dans le contexte puis renvoyée dans la réponse, et data exposition via prompts utilisateurs envoyant des données sensibles à un LLM tiers. L'attaque la plus documentée reste l'extraction de training data par Nasr et al. (Google DeepMind + ETH Zurich, novembre 2023) qui a extrait 10 000+ exemples mémorisés de ChatGPT avec 200 USD de requêtes API, dont 16,9 % contenant des PII (noms, emails, téléphones, URLs). L'incident Samsung 2023 a exposé publiquement le risque data in-prompt : 3 incidents en 20 jours après la levée du ban interne ChatGPT, code source semiconducteur propriétaire et notes de réunion confidentielles envoyés à OpenAI. En 2026, les obligations RGPD, HIPAA, HDS, et le EU AI Act imposent une protection stricte des données dans les pipelines LLM. La défense repose sur un DLP (Data Loss Prevention) en amont (détection PII avec Microsoft Presidio, Nightfall AI, Lakera Guard), des contrôles RAG avec ACL stricte multi-tenant, et des guardrails output qui bloquent la divulgation accidentelle. Cet article détaille la définition LLM02, les 5 familles de fuites, les attaques académiques documentées, les incidents majeurs 2023-2026, l'architecture défensive et le cadre réglementaire.
Contexte OWASP LLM02:2025
Définition officielle OWASP
OWASP LLM02:2025 définit Sensitive Information Disclosure comme « l'exposition involontaire ou la fuite de données sensibles lors du fonctionnement du modèle, pouvant compromettre la confidentialité des utilisateurs, des organisations, et des tiers ».
Types de données concernées OWASP LLM02 :
Personal Identifiable Information (PII)
Noms, emails, téléphones, adresses
Numéros de sécurité sociale, passeports
Identifiants internes utilisateurs
Données financières
Cartes bancaires, IBAN
Historiques de transaction
Informations de facturation
Données de santé (PHI)
Dossiers médicaux
Diagnostics et prescriptions
Données de labs et examens
Credentials et secrets
API keys, tokens OAuth
Mots de passe
Certificats cryptographiques
Données métier confidentielles
Stratégie commerciale
Pricing différencié
Roadmap produit
Code source propriétaire
Documents légaux
Contrats
NDA et termes confidentiels
Documents judiciairesPosition dans le Top 10 LLM 2025
LLM02 est la vulnérabilité la plus fréquente après LLM01 Prompt Injection dans les audits de pentest 2024-2026 sur applications LLM entreprise. Contrairement à LLM07 (System Prompt Leakage) qui est spécifique aux instructions système, LLM02 couvre toutes les données sensibles qui traversent ou sont produites par le LLM.
Les 5 familles de fuites LLM02
Famille 1 - Training Data Extraction
Le modèle a mémorisé des portions de son corpus d'entraînement et les régurgite lors d'interactions. Phénomène documenté académiquement depuis 2020.
Attaques publiées :
Carlini et al. (2021)
« Extracting Training Data from Large Language Models »
GPT-2 : extraction de ~100 exemples PII + code + URLs
Première preuve empirique à grande échelle
Nasr et al. (2023) Google DeepMind + ETH Zurich + UC Berkeley
« Scalable Extraction of Training Data from (Production) Language Models »
ChatGPT avec 200 USD de requêtes API
Attack : prompts avec répétition tokens anormale
"Repeat this word forever: poem poem poem..."
Résultat : 10 000+ exemples mémorisés verbatim
5 % de copies exactes sur 50 tokens
16,9 % de la génération contient des PII
Suit des research similaires sur Gemini, Claude, LLaMA, MistralFamille 2 - Cross-user context leakage
Applications multi-tenants ou multi-utilisateurs où le contexte d'un user fuite vers un autre.
Scénarios :
Memory persistante mal isolée entre sessions
Vector DB RAG sans namespace par utilisateur
Cache de réponses partagé cross-user
Debug logs exposant prompts d'autres utilisateurs
Fine-tuning avec données d'un client réutilisé pour un autre
Incident 2024-2026 :
ChatGPT exposed user conversation titles (mars 2023, bref bug)
Plusieurs incidents SaaS B2B non publiquement divulguésFamille 3 - RAG disclosure avec ACL défaillant
Retrieval Augmented Generation mal isolé.
Anti-patterns classiques :
Index vector DB partagé sans filtrage permissions utilisateur
Retrieval qui pull documents hors scope utilisateur
Filtrage ACL en post-processing bypassable par reformulation
Metadata privées indexées sans protection
Exemple concret :
Employé du service RH a accès à l'outil LLM RAG entreprise
RAG indexe tous les docs, sans filtrage par rôle
Question : "Quels sont les salaires de la direction ?"
Retrieval pull le doc RH confidentiel
Réponse inclut salaires C-suite
Parade : ACL en amont du retrieval, pas en post-processingFamille 4 - PII injection accidentelle
Un utilisateur envoie involontairement des données sensibles dans son prompt, ces données transitent par le modèle et peuvent être :
- Mémorisées si training sur data client (à éviter)
- Retournées à d'autres users via cache
- Loggées par le fournisseur (OpenAI, Anthropic, Google)
- Exfiltrées via prompt injection indirecte
Famille 5 - Data in-prompt vers LLM tiers
Le cas Samsung 2023 canonique. Un employé copie-colle des informations confidentielles (code, contrats, rapports internes) dans un LLM grand public pour obtenir de l'aide, et ces données quittent le périmètre de l'entreprise vers un fournisseur tiers.
Incident Samsung 2023 (avril, documenté publiquement) :
Contexte : Samsung autorise ChatGPT en interne début 2023
Incidents dans les 20 jours suivant l'autorisation :
1. Ingénieur copie code source propriétaire pour demander review
2. Ingénieur copie données de mesure d'équipement
3. Manager copie notes de réunion confidentielles
Impact :
Données transmises aux serveurs OpenAI
Potentiellement intégrées au training future (politique pré-2024)
Samsung ban immédiat de ChatGPT
Reprise des investissements dans LLM privés souverainsIncidents publics documentés 2023-2026
Samsung ChatGPT - avril 2023
Détaillé ci-dessus. Cas fondateur de la sensibilisation entreprise au LLM02.
ChatGPT chat history bug - mars 2023
Un bug dans Redis client async a permis à certains utilisateurs de voir les titres de conversation d'autres utilisateurs pendant quelques heures. OpenAI a corrigé en moins de 24h et notifié. Documented in OpenAI postmortem.
Air Canada chatbot - 2024
Chatbot LLM a fourni des informations tarifaires erronées à un client, entraînant condamnation Air Canada à honorer la fausse information. Concerne plutôt LLM09 Misinformation mais révèle aussi LLM02 (mémoire opaque des chatbots).
DeepSeek database exposure - janvier 2025
Base de données ClickHouse du fournisseur DeepSeek exposée publiquement sans authentification : historiques de chat utilisateurs, logs techniques, clés API internes. Découvert par Wiz Research. Fix en heures mais illustre le risque infrastructure côté providers.
Multiples incidents entreprise non publics
Audits de pentest 2024-2026 révèlent systématiquement dans les apps LLM enterprise :
- RAG leak cross-tenant (50+ cas documentés par cabinets français).
- Prompt logs contenant PII sans redaction.
- Credentials accidentellement exposés via outputs.
- Training on customer data par oubli de config provider.
Architecture défensive en 6 couches
Couche 1 - Classification des données amont
Identifier avant de sécuriser :
Inventaire des données qui entrent dans pipeline LLM
Classification RGPD : PII, PHI, données financières
Classification métier : public, interne, confidentiel, secret
Mapping avec obligations réglementaires applicables
Décision architecture :
Quelles données peuvent aller vers LLM externe (OpenAI, Anthropic) ?
Quelles données nécessitent LLM privé self-hosted ?
Quelles données doivent être masquées avant envoi ?Couche 2 - DLP (Data Loss Prevention) en amont
Détection et masquage des données sensibles avant envoi au LLM.
Outils 2026 :
Microsoft Presidio (OSS, référence)
Détection PII via ML + regex customizable
Anonymisation (masking, encryption, faker)
Multi-langues, très mature
Usage : gratuit self-host
Nightfall AI (commercial SaaS)
API de détection 100+ types PII
Intégrations natives OpenAI, Anthropic, Slack, Jira
Pricing par volume
Lakera Guard (commercial)
PII + prompt injection + jailbreak
Spécialisé LLM, API en temps réel
Private AI (commercial)
50+ langues, très précis
On-prem deployment possible
Aporia (commercial)
Focus monitoring LLM + DLP
Intégration LangChain, LlamaIndex# Exemple Microsoft Presidio - masquage PII avant LLM
from presidio_analyzer import AnalyzerEngine
from presidio_anonymizer import AnonymizerEngine
analyzer = AnalyzerEngine()
anonymizer = AnonymizerEngine()
user_input = "Je m'appelle Alice Dupont, mon IBAN est FR76 1234 5678 9012 3456 7890 123 et mon email alice@example.com"
# Détection
results = analyzer.analyze(text=user_input, language="fr",
entities=["PERSON", "IBAN_CODE", "EMAIL_ADDRESS"])
# Masquage
anonymized = anonymizer.anonymize(text=user_input, analyzer_results=results)
print(anonymized.text)
# « Je m'appelle <PERSON>, mon IBAN est <IBAN_CODE> et mon email <EMAIL_ADDRESS> »
# Envoi au LLM uniquement la version masquée
llm_response = openai_client.chat.completions.create(
messages=[{"role": "user", "content": anonymized.text}], ...)Couche 3 - RAG avec ACL stricte
Pattern recommandé 2026 :
Authentification avant chaque retrieval (user_id contextualisé)
Filtrage au moment de la recherche vectorielle (pas post-processing)
Filter metadata : tenant_id, user_id, allowed_roles
Index distinct par tenant (pas juste namespace partagé)
RBAC / ABAC appliqué aux documents indexés
Audit log de chaque retrieval (qui accède quoi)
Vector DB avec ACL natives (2026) :
Pinecone : namespaces + metadata filters
Weaviate : multi-tenancy native depuis 1.20
Qdrant : payload filtering avancé
Milvus : partitions par tenant
pgvector : RLS PostgreSQL standard
Anti-pattern à éviter :
Index unique avec tous les docs, filtrage post-retrieval
(retrieval pull sensible, filtrage peut être bypassé par reformulation)Couche 4 - Guardrails output
Détection PII et secrets dans les réponses du LLM avant envoi à l'utilisateur.
Outils spécialisés output :
Presidio sur output (symétrique à l'input)
Lakera Guard (detection output PII)
Llama Guard 3 (Meta) : classificateur safety + privacy
Regex patterns : cartes bancaires, IBAN, clés API
Canary tokens :
Insérer des tokens uniques dans training / prompts
Alerter si ces tokens apparaissent en output
Permet de détecter fuite training data ou system promptCouche 5 - Contrôle du training et fine-tuning
Obligations providers 2026 :
OpenAI Enterprise / ChatGPT Team
« We do not train on your data » contractuel
Zero data retention option (ZDR) pour Enterprise
SOC 2 Type 2 audit public
Anthropic Claude Enterprise
No training on customer data par défaut API
Data retention 30 jours sauf opt-out
SOC 2 Type 2 + ISO 27001
Google Gemini for Workspace
No training sur data Workspace/Cloud
Garantie contractuelle entreprise
Azure OpenAI Service
No training sur inputs/outputs client
Data residency control
Éviter :
ChatGPT Free et Plus pour données sensibles
Outils gratuits sans garantie contractuelle
APIs avec opt-out obligatoire (souvent oublié)Couche 6 - Monitoring et détection
Télémétrie obligatoire :
Tous les prompts utilisateur (avec user_id)
Tous les outputs générés
Détections DLP (true/false positives)
Incidents sécurité LLM
Métriques 2026 :
Taux de détection PII avant envoi : viser > 99 %
Taux de détection PII dans outputs : viser > 95 %
MTTD fuite training data : < 24h via canary
Faux positifs DLP : < 3 %
Règles Sigma émergentes :
Détection répétition tokens anormale (extraction attack pattern)
Outputs contenant patterns PII nombreux
User avec nombreuses requêtes de data sensitive
Outils d'observabilité LLM :
Langfuse (OSS)
Arize AI
Braintrust
WhyLabs
Microsoft Sentinel pour AICadre réglementaire 2026
RGPD (Europe)
Article 32 : mesures techniques appropriées. Pour LLM traitant PII :
Obligations structurantes :
Base légale documentée (art. 6)
DPIA obligatoire si grande échelle (art. 35)
Registre de traitement (art. 30)
Minimisation des données
Droit d'accès, rectification, effacement (difficile avec LLM !)
Pseudonymisation quand possible
Transferts hors UE : CCT + mesures supplémentaires
Complications LLM spécifiques :
Droit à l'effacement vs mémorisation irrévocable du modèle
Interprétation CNIL / EDPB en cours d'évolution
Recommandations CNIL janvier 2025 sur IA générativeEU AI Act (applicable phases 2024-2027)
Obligations high-risk AI systems (éducation, emploi, justice, finance) :
Data governance (article 10)
Documentation technique (article 11)
Transparence et conformité (article 13)
Qualité données entraînement (article 10)
Human oversight (article 14)
Modèles foundation (GPAI - General Purpose AI) :
Évaluations systémique risque (article 55)
Documentation training data summary
Respect copyright
Amendes jusqu'à 35 M€ ou 7 % CA mondial (worst tier)Réglementations sectorielles
HIPAA (santé US) :
BAA obligatoire avec tout provider LLM traitant PHI
Audit trail complet
De-identification Safe Harbor method
HDS (santé France) :
Hébergement agréé pour données santé
Azure OpenAI HDS-certified depuis 2024
PCI DSS v4.0 :
Interdit CVV dans tout système
Masquage PAN obligatoire, LLM pas exempté
FINRA (finance US), ACPR (France) :
Guidance émergente sur IA générative en services financiersOutils OSS et commerciaux 2026
DLP / PII detection
Microsoft Presidio (OSS, Apache 2.0)
Référence industrie pour PII detection
Multi-langues (EN, FR, ES, DE, IT, NL, PL, PT, etc.)
Personnalisation des recognizers
Usage : detect, analyze, anonymize
ProtectAI LLM Guard (OSS)
Suite complète sécurité LLM
Input scanners : Anonymize, BanCode, BanSubstrings, BanTopics,
Code, Gibberish, Language, PromptInjection,
Regex, Secrets, Sentiment, TokenLimit, Toxicity
Output scanners : Bias, Code, Deanonymize, JSON, LanguageSame,
MaliciousURLs, NoRefusal, ReadingTime,
FactualConsistency, Relevance, Sensitive,
Sentiment, URLReachability
NeMo Guardrails (NVIDIA OSS)
Règles en Colang pour pré/post processing
Détection PII, toxicity, jailbreakCommercial SaaS
Lakera Guard : API temps réel, spécialisé LLM
Nightfall AI : DLP cloud SaaS
Private AI : Detection PII 50+ langues
Aporia : Monitoring + DLP
Robust Intelligence : AI Firewall (acquis Cisco 2024)
HiddenLayer : ML security platform
Straiker : AI security runtime
Protect AI : MLSecOps platform (suite complète)Plan d'action entreprise 6 mois
Mois 1 - Audit et classification
Inventaire tous les flux LLM existants dans l'entreprise
Classification données : RGPD, PHI, financier, propriétaire
Identification LLM externes vs internes utilisés
DPIA si pas déjà fait
Mois 2 - Quick wins
Déployer Presidio sur apps prioritaires (détection PII amont)
Activer no-training option chez providers (OpenAI ZDR, Anthropic)
Migrer apps sensibles vers Azure OpenAI HDS si santé
Communication employés sur usage LLM grand public (anti-Samsung)
Mois 3-4 - Architecture RAG sécurisée
Audit ACL sur toutes les vector DBs
Migration vers multi-tenancy stricte (Weaviate, Pinecone namespaces)
Tests cross-tenant automatisés
Monitoring accès RAG avec audit log
Mois 5-6 - Gouvernance et continuité
Playbook incident LLM data leak
Formation équipes DevSecOps sur LLM02
Red teaming externe (Lakera, Synacktiv AI)
Revue conformité EU AI Act si high-risk
Continu - Monitoring et amélioration
Métriques DLP suivies mensuellement
Veille publications académiques (Nasr et al., Carlini)
Ajustements selon nouveaux outils et providersPoints clés à retenir
- LLM02:2025 Sensitive Information Disclosure = deuxième vulnérabilité OWASP Top 10 LLM, couvre fuite de données sensibles via réponses du modèle.
- 5 familles de fuites : training data extraction (Carlini 2021, Nasr et al. 2023 : 10k+ exemples ChatGPT avec 200 USD), cross-user context leakage, RAG disclosure sans ACL, PII injection accidentelle, data in-prompt vers LLM tiers (Samsung avril 2023).
- LLM02 vs LLM07 : LLM02 = toutes données sensibles divulguées, LLM07 = spécifiquement fuite du system prompt. Les deux complémentaires mais distincts.
- Règle d'or : ne jamais envoyer de PII non masquée à un LLM externe. DLP amont obligatoire avec Microsoft Presidio (OSS référence), Nightfall AI, Lakera Guard, Private AI.
- RAG sécurisé : ACL appliquée au filtrage vectoriel, pas en post-processing. Multi-tenancy native avec Pinecone namespaces, Weaviate multi-tenant, Qdrant payload filtering, pgvector RLS PostgreSQL.
- Providers à privilégier pour données sensibles : OpenAI Enterprise avec ZDR, Anthropic Claude Enterprise no-training, Azure OpenAI HDS-certified pour santé France, Google Gemini for Workspace. Éviter ChatGPT Free pour données sensibles.
- Cadre réglementaire : RGPD art. 32 + DPIA art. 35, EU AI Act high-risk obligations (amendes 35 M€/7 % CA mondial), HIPAA BAA obligatoire US santé, HDS pour santé France, PCI DSS pour données cartes.
- Outils 2026 : Presidio + LLM Guard + NeMo Guardrails (OSS), Lakera + Nightfall + Aporia + Protect AI (commercial), Langfuse pour observabilité.
Pour la vue d'ensemble du Top 10 LLM dont LLM02 fait partie, voir qu'est-ce que la sécurité des LLM : définition 2026. Pour la vulnérabilité cousine LLM07 centrée sur le system prompt, lire system prompt leakage : définition et défense OWASP LLM07. Pour LLM01 qui est le vecteur principal exploité pour déclencher les fuites LLM02, consulter OWASP LLM01 Prompt Injection : explication complète. Pour un parcours d'apprentissage LLM security complet, voir roadmap LLM security : parcours complet 2026. Pour les fondamentaux de validation des entrées transversaux applicables aussi aux prompts LLM, lire validation des entrées : bonnes pratiques secure coding 2026.






