Le RGPD (Règlement Général sur la Protection des Données, Règlement (UE) 2016/679) s'applique à tout système IA générative qui traite des données personnelles — c'est-à-dire la quasi-totalité des déploiements production en 2026. Mais le RGPD a été pensé en 2016, avant ChatGPT, avant le RAG enterprise, avant les agents IA. L'application au monde IA générative pose des questions inédites : que faire d'un modèle entraîné sur des données personnelles ? D'une hallucination qui ressemble à une vraie personne ? D'un transfert international vers OpenAI ? D'une demande d'effacement sur un modèle déjà déployé ? Cet article documente les 7 pièges principaux, les recommandations CNIL/CEPD, et des mitigations concrètes par cas.
Pour le pendant EU AI Act (règlement IA distinct, complémentaire) : EU AI Act pour entreprises. Pour les recommandations ANSSI françaises : recommandations ANSSI IA.
RGPD vs EU AI Act : coexistence
Avant les pièges, clarifier la coexistence :
| Aspect | RGPD | EU AI Act |
|---|---|---|
| Cible | Protection données personnelles | Réglementation systèmes IA |
| Adoption | 2016, en vigueur 2018 | 2024, en vigueur progressive 2025-2027 |
| Sanctions max | 20M€ ou 4% CA | 35M€ ou 7% CA (Art. 5) |
| Autorité française | CNIL | CNIL coordonne (+ autres) |
| Cumulables ? | Oui (mêmes incidents = doubles sanctions possibles) | |
| DPIA / FRIA | DPIA (Art. 35) | FRIA distincte (Art. 27 AI Act) |
Les deux règlements coexistent et se cumulent. Une violation RGPD via un système IA peut déclencher des sanctions des deux côtés.
Info — La CNIL a publié plusieurs recommandations spécifiques IA depuis 2023-2024 sur cnil.fr. Le CEPD (Comité européen de la protection des données) coordonne les positions au niveau UE.
Sept pièges principaux
Piège 1 — Données personnelles dans le training set
Le piège : entraîner ou fine-tuner un modèle sur des données contenant des informations personnelles (emails, noms, adresses, identifiants) sans base légale claire.
Pourquoi c'est un problème :
- Les données sont encodées dans les poids du modèle.
- La membership inference et le verbatim extraction (Carlini 2021) permettent de reconstituer (cf. membership inference).
- Conséquence : tout entraînement sur des données personnelles est un traitement RGPD au sens Article 4.
- Base légale obligatoire (Article 6) : consentement, intérêt légitime, contrat, etc.
Mitigations :
# Politique training data
data_sources_allowed:
- synthetic_data: "données synthétiques générées sans PII"
- public_consented: "données publiques avec consentement explicite"
- own_users_with_consent: "données utilisateurs avec consentement spécifique IA"
- pseudonymized: "données pseudonymisées (Art. 4.5 RGPD)"
data_sources_forbidden:
- scraping_without_legal_basis
- personal_data_without_consent
- sensitive_data_without_special_basis # Article 9 RGPD
- children_data_without_specific_consent # Article 8 RGPDRecommandation pratique : pour LLMs frontier (GPT-4, Claude, etc.) entraînés par des tiers, vérifier la base légale du provider (CGU, transparency reports). Pour fine-tuning interne, préférer données synthétiques ou pseudonymisées.
Piège 2 — Données personnelles dans les prompts utilisateurs
Le piège : les utilisateurs incluent des données personnelles (les leurs, ou de tiers) dans leurs prompts. Ces prompts sont envoyés à des LLMs, parfois logged, parfois utilisés pour amélioration.
Pourquoi c'est un problème :
- Le prompt est un traitement de données personnelles.
- Si envoyé à un LLM externe (OpenAI, Anthropic) : transfert international + sous-traitance.
- Si logged : politique de rétention RGPD applicable.
- Si utilisé pour ré-entraînement : nouveau traitement nécessitant base légale.
Mitigations :
- Information utilisateur (Articles 13/14) : indiquer clairement que les prompts sont traités, par qui, où, pour quoi.
- Pseudonymisation à l'ingestion (Microsoft Presidio en pré-traitement) :
from presidio_analyzer import AnalyzerEngine
from presidio_anonymizer import AnonymizerEngine
analyzer = AnalyzerEngine()
anonymizer = AnonymizerEngine()
def pseudonymize_prompt(prompt: str) -> tuple[str, dict]:
"""Pseudonymise les PII dans le prompt avant envoi au LLM."""
pii_results = analyzer.analyze(text=prompt, language="fr")
if not pii_results:
return prompt, {}
# Anonymisation avec mapping inverse
anonymized = anonymizer.anonymize(
text=prompt,
analyzer_results=pii_results,
)
# Stocker le mapping inverse côté serveur (pas envoyé au LLM)
mapping = {a.replacement: a.original for a in anonymized.items}
return anonymized.text, mapping
# À la sortie : optionnellement reconstituer les PII pour l'utilisateur
def restore_pii(llm_response: str, mapping: dict) -> str:
for marker, original in mapping.items():
llm_response = llm_response.replace(marker, original)
return llm_response- Politique de rétention claire : durée minimale nécessaire, suppression automatique.
- Choix endpoint UE : Azure OpenAI EU, Anthropic via Vertex EU, Mistral en France.
Piège 3 — Données personnelles dans le RAG corpus
Le piège : pipelines RAG ingèrent des documents qui contiennent des données personnelles (emails, dossiers RH, contrats, comptes-rendus). Ces données :
- Sont indexées en clair (vector + metadata).
- Peuvent être retournées à des utilisateurs n'ayant pas le droit d'y accéder.
- Sont sujettes à embedding inversion (Vec2Text) — voir model inversion.
Mitigations :
- Classification de sensibilité par chunk + ACL strictes au retrieval.
- Pseudonymisation des PII avant indexation pour les corpus à risque.
- Tenant isolation forte + double filtre pre/post retrieval.
- Audit logs des requêtes + chunks retrievés.
Voir architecture RAG sécurisée.
Piège 4 — Hallucinations qui correspondent à des personnes réelles
Le piège : le LLM produit en sortie un nom, une adresse, un numéro qui correspond par hasard (ou par mémorisation) à une personne réelle.
Pourquoi c'est un problème :
- Position dominante CNIL/CEPD : oui, c'est un traitement de données personnelles si la sortie permet d'identifier la personne.
- La personne peut exercer ses droits (rectification, effacement).
- Sanctions possibles si la sortie est diffamatoire ou erronée.
Cas réels : plusieurs procédures CNIL/CEPD contre OpenAI et autres pour hallucinations diffamatoires.
Mitigations :
- Output filter spécifique détectant les références à des personnes réelles :
def filter_personal_references(output: str, allowed_persons: set = None) -> str:
"""Filtre les références à des personnes physiques dans la sortie."""
pii = analyzer.analyze(text=output, language="fr")
persons = [r for r in pii if r.entity_type == "PERSON"]
for p in persons:
person_name = output[p.start:p.end]
if allowed_persons and person_name in allowed_persons:
continue # personne autorisée (ex: contexte spécifique)
# Sinon, masquer ou avertir
output = output[:p.start] + "[PERSONNE]" + output[p.end:]
return output- Disclaimers : indiquer clairement que les sorties peuvent être imprécises.
- Procédure de rectification : permettre aux personnes de signaler les hallucinations les concernant. Plusieurs éditeurs (OpenAI, Anthropic) ont mis en place des formulaires dédiés.
Piège 5 — Droits des personnes sur les modèles entraînés
Le piège : une personne demande l'effacement (Art. 17), la rectification (Art. 16), ou l'accès (Art. 15) à ses données dans un modèle entraîné. Techniquement très difficile.
Pourquoi c'est un problème :
- Les données sont encodées dans les poids, pas isolables.
- Ré-entraîner sans la donnée = coûteux (trillions tokens, semaines GPU, M€).
- Machine unlearning = recherche active mais pas mature pour LLMs frontier.
Mitigations :
| Droit | Mitigation possible |
|---|---|
| Article 15 (accès) | Documenter ce que le modèle peut probabilistiquement contenir + tests d'extraction sur la personne |
| Article 16 (rectification) | Output filter pour rectification au runtime |
| Article 17 (effacement) | RAG : suppression du document. Modèle entraîné : impossibilité technique disproportionnée (Art. 17.3) ou unlearning si applicable |
| Article 18 (limitation) | Désactivation de l'utilisation pour la personne identifiée |
| Article 20 (portabilité) | Format structuré des prompts/réponses associés à la personne |
| Article 21 (opposition) | Désactivation profilage automatisé pour la personne |
Pour les RAG : effacement plus simple (suppression document → ré-indexation).
Pour les modèles entraînés : argumenter l'impossibilité technique disproportionnée (Article 17.3 RGPD). La position CNIL/CEPD évolue en 2025-2026.
Piège 6 — Transferts internationaux
Le piège : utiliser un LLM US (OpenAI, Anthropic, Google) avec données personnelles UE = transfert de données vers les États-Unis.
Cadre juridique :
- Schrems II (CJUE 2020) : invalidation Privacy Shield, exigence de garanties adéquates.
- Data Privacy Framework (DPF) UE-US : adopté juillet 2023, considéré comme adéquat — mais exposition à un nouveau Schrems III possible.
- Clauses contractuelles types (CCT) : restent obligatoires si DPF non utilisable.
- Cloud Act US : permet aux autorités US d'accéder aux données stockées par entreprises US, même hors US.
Mitigations :
# Décision data residency par sensibilité
data_residency_policy:
public_data:
allowed: "any provider"
internal_business:
allowed: ["EU regions of hyperscalers"]
forbidden: ["non-EU regions"]
notes: "DPF + DPA + CCT en place"
personal_data_normal:
allowed: ["EU regions of hyperscalers", "EU sovereign cloud"]
forbidden: ["US regions"]
notes: "DPA obligatoire, Schrems II analysis documented"
sensitive_personal_data:
allowed: ["SecNumCloud only", "EU sovereign cloud"]
forbidden: ["all US providers including EU regions if Cloud Act applies"]
notes: "Avis CNIL si applicable"
oiv_or_state_data:
allowed: ["SecNumCloud certified"]
notes: "Conformité ANSSI obligatoire"Endpoints UE recommandés :
- Azure OpenAI : régions UE explicites (France, Suède, Pays-Bas).
- Anthropic via Google Vertex AI : régions UE.
- Mistral (FR) : hébergement souverain disponible.
- OVHcloud : LLMs hébergés sur infrastructure souveraine.
Piège 7 — DPIA / FRIA absents ou superficiels
Le piège : déployer un système IA générative sans Data Protection Impact Assessment (Art. 35 RGPD) et/ou sans Fundamental Rights Impact Assessment (EU AI Act Art. 27 si haut risque).
Quand DPIA obligatoire : selon Article 35 RGPD :
- Risque élevé pour les droits et libertés.
- Évaluation systématique d'aspects personnels (profilage).
- Traitement à grande échelle de données sensibles.
- Surveillance systématique d'une zone.
- Liste CNIL des traitements obligatoirement soumis à DPIA inclut explicitement plusieurs cas IA.
Contenu obligatoire DPIA (Art. 35.7) :
- Description du traitement.
- Évaluation de la nécessité et proportionnalité.
- Évaluation des risques pour les droits et libertés.
- Mesures envisagées pour traiter les risques.
Combinaison DPIA + FRIA : pour systèmes haut-risque EU AI Act, FRIA distincte mais souvent à faire en parallèle. Templates CNIL et EU Commission disponibles.
Mitigation : faire le DPIA avant déploiement, pas après. Le réviser annuellement ou à chaque changement majeur.
Recommandations CNIL spécifiques IA
La CNIL a publié plusieurs recommandations 2023-2024 :
Constitution de bases de données pour l'IA
- Critères de licéité de la constitution de datasets.
- Conditions d'usage de données publiques (web scraping nuance).
- Encadrement des datasets achetés.
- Anonymisation et pseudonymisation.
Développement de systèmes IA
- Privacy by design dès la conception.
- Analyse d'impact obligatoire pour cas à risque.
- Documentation technique (alignée avec Article 11 EU AI Act).
- Mesures de sécurité.
Déploiement
- Information des utilisateurs.
- Exercice des droits.
- Surveillance humaine pour décisions critiques.
- Audit régulier.
Formulaires CNIL
- Formulaire DPIA en ligne.
- Notification de violation Article 33 (sous 72h).
- Demande de consultation préalable Article 36 si risque résiduel élevé.
Plan de mise en conformité
Étape 1 — Inventaire (mois 1)
# Inventaire systèmes IA + RGPD
ai_systems_rgpd:
- id: AS-001
name: "Chatbot support clients"
personal_data_processed: true
data_categories: ["nom", "email", "historique support"]
data_subjects: "clients"
legal_basis: "intérêt légitime (Art. 6.1.f)"
dpia_required: true # à vérifier
dpia_completed: false # gap
international_transfer: true # OpenAI US
transfer_safeguards: "DPF + DPA + CCT"
- id: AS-002
name: "Outil sélection candidats"
personal_data_processed: true
data_categories: ["CV complet", "candidature"]
data_subjects: "candidats"
legal_basis: "consentement (Art. 6.1.a) + intérêt légitime"
dpia_required: true
dpia_completed: yes
fria_required: true # haut risque EU AI Act
fria_completed: false # gapÉtape 2 — Analyse juridique par système
- Base légale identifiée et documentée.
- Données traitées minimisées (Article 5.1.c).
- Durées de conservation définies (Article 5.1.e).
Étape 3 — DPIA + FRIA
Pour les systèmes à risque élevé :
- DPIA selon template CNIL.
- FRIA si haut risque EU AI Act.
- Validation par DPO + AI Risk Officer.
Étape 4 — Mesures techniques
- Pseudonymisation aux ingestions.
- Output filter sur PII.
- Audit logs RGPD-compliant.
- Endpoints UE pour les systèmes traitant des PII.
Étape 5 — Information et droits
- Mentions d'information à jour (Articles 13/14).
- Procédures pour exercice des droits.
- Procédure de notification incidents (Article 33 sous 72h).
Étape 6 — Audit et amélioration
- Audit interne RGPD annuel minimum.
- Re-DPIA si changement majeur.
- Veille CNIL/CEPD continue.
Mapping pratiques RGPD ↔ EU AI Act
| RGPD | EU AI Act |
|---|---|
| Article 5 (principes) | Article 10 (data governance) |
| Article 6 (base légale) | Implicite (Articles 9, 26) |
| Article 13/14 (information) | Article 13 (transparence) + Article 50 |
| Article 22 (décision automatisée) | Articles 6 + 26 (haut risque) + 86 (droit à explication) |
| Article 25 (privacy by design) | Article 9 (gestion risques) |
| Article 32 (sécurité) | Article 15 (cybersécurité) |
| Article 33 (notification) | Article 73 (notification incidents graves) |
| Article 35 (DPIA) | Article 27 (FRIA) — distinct mais souvent conjoint |
Mise en conformité combinée RGPD + EU AI Act = rationalisable en pratique. DPIA + FRIA souvent en un document unique.
Pièges fréquents en implémentation
| Piège | Symptôme | Fix |
|---|---|---|
| Croire que pseudonymisation = anonymisation | "On a anonymisé donc plus de RGPD" | Pseudonymisation reste RGPD ; vraie anonymisation est très difficile sur LLM |
| Pas de base légale documentée | Politique floue | Documenter par traitement |
| DPIA tardif | Réalisé après déploiement | Avant déploiement, c'est l'esprit de l'Art. 35 |
| Information utilisateur cachée | CGU illisibles | Information claire, accessible, séparée |
| Pas de procédure droits | "On verra quand quelqu'un demande" | Procédure documentée, testée |
| Transferts non encadrés | OpenAI US sans DPA | DPA + CCT + analyse Schrems II + alternatives EU |
| Confondre DPO et AI Risk Officer | Une seule personne pour tout | Rôles complémentaires, peuvent être tenus par même personne mais responsabilités distinctes |
Outils opérationnels
| Besoin | Outils |
|---|---|
| Détection PII | Microsoft Presidio (open source), Google DLP, AWS Macie |
| Pseudonymisation | Presidio Anonymizer, custom |
| GRC RGPD | OneTrust, TrustArc, Drata, Vanta |
| DPIA / FRIA | Templates CNIL + EU Commission |
| Endpoints UE | Azure OpenAI EU, Vertex EU, Mistral, OVHcloud |
| Audit logs RGPD-compliant | OpenTelemetry GenAI + retention policies |
Évolutions attendues 2026-2027
- Position CNIL/CEPD sur unlearning : guidances probables sur droit à l'effacement modèles entraînés.
- Précédents jurisprudentiels IA : décisions CNIL et tribunaux sur cas IA, premiers retours d'expérience.
- Évolution DPF UE-US : potentiel Schrems III (recours déjà déposés).
- Articulation RGPD + EU AI Act : guidances communes attendues, formulaires intégrés.
- Sectoriel : recommandations spécifiques santé, RH, finance attendues.
Points clés à retenir
- Le RGPD s'applique à tout système IA générative traitant des données personnelles. La quasi-totalité des déploiements production en 2026.
- 7 pièges principaux : training data, prompts utilisateurs, RAG corpus, hallucinations, droits des personnes (effacement quasi-impossible sur modèle entraîné), transferts internationaux (Schrems II + DPF), DPIA absent ou superficiel.
- DPIA (RGPD Art. 35) distinct de FRIA (EU AI Act Art. 27) — souvent à faire conjointement.
- Hallucinations identifiables = traitement de données personnelles selon CNIL/CEPD. Output filter PII obligatoire.
- Droits sur modèle entraîné : rectification possible via output filter, effacement complet quasi-impossible techniquement (argumentation Art. 17.3).
- Transferts internationaux : DPF UE-US adopté juillet 2023 mais fragile. Préférer endpoints UE (Azure OpenAI EU, Vertex EU, Mistral, OVHcloud).
- CNIL publie recommandations spécifiques IA depuis 2023-2024 — surveiller cnil.fr.
- Sanctions : 20M€ ou 4% CA RGPD. Cumul possible avec EU AI Act (35M€ / 7%).
- Pseudonymisation ≠ anonymisation. La première reste RGPD, la seconde est très difficile sur LLM.
- Mapping RGPD ↔ EU AI Act : rationalisable en pratique. DPIA + FRIA souvent un document unique.
Le RGPD est une contrainte structurante pour les déploiements IA générative. Pas un obstacle insurmontable, mais nécessite une démarche rigoureuse : inventaire, analyse juridique par système, DPIA + FRIA pour les cas à risque, mesures techniques (pseudonymisation, output filter, endpoints UE), procédures pour exercice des droits. Combiné avec EU AI Act, c'est un programme de conformité à anticiper et à maintenir dans la durée.







