LLM Security

Google Secure AI Framework (SAIF) : application concrète

Google SAIF expliqué : 6 éléments, SAIF Risk Map, mapping NIST/OWASP/MITRE ATLAS, plan d'implémentation, comparaison avec autres frameworks de sécurité IA.

Naim Aouaichia
13 min de lecture
  • SAIF
  • Google
  • framework
  • sécurité IA
  • LLM security

Le Google Secure AI Framework (SAIF), publié en juin 2023, est un cadre conceptuel pour sécuriser les systèmes IA. À la différence des frameworks de gouvernance (NIST AI RMF, ISO 42001), SAIF est orienté ingénieur : il parle de SOC, de CI/CD, de threat detection, d'automation. Pour les équipes ingénieurs ML/AppSec qui cherchent un cadre pragmatique et architectural (sans la lourdeur d'une certification), SAIF est devenu une référence largement adoptée par l'industrie tech depuis 2023-2024. Combiné à OWASP LLM Top 10 (tactique) et NIST AI RMF (gouvernance), il forme un trio cohérent pour structurer un programme sécurité IA.

Cet article documente les 6 éléments SAIF, la SAIF Risk Map (publiée 2024), les mappings vers NIST/OWASP/MITRE ATLAS, un plan d'implémentation, et la position de Google dans CoSAI (Coalition for Secure AI). Pour le pendant gouvernance : NIST AI RMF guide d'implémentation. Pour le pendant tactique dev : OWASP LLM Top 10 développeurs.

Vue d'ensemble : les 6 éléments SAIF

#ÉlémentIdée centrale
1Expand strong security foundations to the AI ecosystemÉtendre les pratiques de sécurité existantes (DevSecOps, IAM, secrets) à l'IA
2Extend detection and response to bring AI into an organization's threat universeIntégrer l'IA au SOC : détection runtime + response
3Automate defenses to keep pace with existing and new threatsAutomatiser : CI/CD security, scanners, monitoring
4Harmonize platform-level controls to ensure consistent security across the organizationHarmoniser les contrôles à travers les plateformes IA (vs silos)
5Adapt controls to adjust mitigations and create faster feedback loops for AI deploymentBoucles de feedback rapides : adversarial testing, drift detection
6Contextualize AI system risks in surrounding business processesContextualiser : risques selon usage métier, pas seulement technique

Info — Site officiel : safety.google/cybersecurity-advancements/saif. Document principal : Google Secure AI Framework — A Practical Guide for Securing Your AI Systems. Mises à jour régulières.

Détail par élément

Élément 1 — Expand strong security foundations

Idée : la sécurité IA n'est pas une discipline indépendante. Étendre les bonnes pratiques DevSecOps existantes (IAM, secrets management, supply chain, code review) à la chaîne IA.

Application concrète :

# Extension DevSecOps → AI
foundations:
  identity_access_management:
    extend_to:
      - service accounts pour pipelines training/inference
      - RBAC sur modèles (download, deploy, fine-tune)
      - ABAC pour multi-tenancy IA
  
  secrets_management:
    extend_to:
      - clés API LLMs (OpenAI, Anthropic, etc.)
      - pas de secrets dans system prompts
      - vault + ephemeral creds pour agents
  
  supply_chain:
    extend_to:
      - AI BOM (CycloneDX 1.6+ AI extension)
      - Sigstore for ML
      - Hash matching modèles téléchargés
      - Mirror interne (Artifactory ML)
  
  code_review:
    extend_to:
      - prompts versionnés et reviewés en MR/PR
      - threat model par feature ML
      - tests adversariaux en PR
  
  network_segmentation:
    extend_to:
      - inference servers isolés
      - egress allowlist pour agents
      - mTLS inter-services IA

Recommandation pragmatique : commencer par auditer ce qui existe déjà côté infra/sécurité — beaucoup s'applique déjà partiellement. Le travail est d'étendre, pas de réinventer.

Élément 2 — Extend detection and response

Idée : l'IA doit faire partie du threat universe de l'organisation, donc du SOC. Détection runtime + response coordonnée avec le reste de la sécurité.

Application concrète :

  • Logs structurés IA vers SIEM (Splunk, Sentinel, Elastic) avec OpenTelemetry GenAI semantic conventions.
  • Règles de corrélation : référencer MITRE ATLAS dans les rules SIEM.
  • Alertes spécifiques : prompt injection détectée, canary token leaké, anomalie volume requêtes, drift comportemental.
  • Runbooks par classe d'incident OWASP/SAIF.
  • Playbooks SOAR : automation de la réponse (rate limit ciblé, suspension session, escalade).
# Exemple : règle de détection envoyée au SIEM
detection_rule = {
    "title": "AI System — Possible Prompt Injection (LLM01 / AML.T0051)",
    "category": "ai_threat",
    "data_source": "llm_app_logs",
    "conditions": [
        "input_classifier_score > 0.7",
        "OR canary_token in output",
        "OR same_user_threshold_reached(detection_count > 5, window='10m')",
    ],
    "mitre_atlas": ["AML.T0051", "AML.T0070"],
    "owasp_llm": ["LLM01"],
    "severity": "medium",
    "action": "alert_soc + rate_limit_user",
    "runbook": "./runbooks/IR-AI-LLM01.md",
}

Élément 3 — Automate defenses

Idée : la vitesse des menaces (nouvelles techniques chaque mois) impose l'automation des défenses. Pas de revue manuelle exhaustive — automatiser ce qui peut l'être.

Application concrète :

  • CI/CD security IA :

    • Scanners ML (picklescan, transformers safety, Trivy sur containers).
    • Tests adversariaux automatisés (Garak, PyRIT).
    • Régression sur corpus connus à chaque PR.
    • Gates de promotion (canary deploy → progressive rollout).
  • Runtime defenses automatisées :

    • Input filter (LLM Guard, Lakera) toujours actif.
    • Output filter (DLP, canary detection) toujours actif.
    • Limits (max_steps, max_cost) auto-appliquées.
    • Auto-rollback sur anomalie.
  • Threat intelligence :

    • Feed automatique CVE / divulgations responsables → mise à jour scanners.
    • Patches dépendances ML automatisés (Dependabot étendu ML).
# .github/workflows/ai-defense-automation.yml
name: AI Defense Automation
 
on:
  pull_request:
  schedule:
    - cron: '0 2 * * *'  # daily
  workflow_dispatch:
 
jobs:
  automated-scans:
    runs-on: ubuntu-latest
    steps:
      - name: ML supply chain scan
        run: |
          picklescan --recursive ./models/
          pip-audit -r requirements.txt
          trivy image ${{ env.INFERENCE_IMAGE }}
      
      - name: Adversarial regression
        run: |
          garak --model_type ${{ env.MODEL_TYPE }} \
                --probes promptinject,dan,encoding,leakage
          pytest tests/test_adversarial_regression.py
      
      - name: Threat feed update
        run: |
          curl -s ${{ env.THREAT_FEED_URL }} | \
            python scripts/update_detection_rules.py

Élément 4 — Harmonize platform-level controls

Idée : éviter les silos par projet IA. Mettre en place des contrôles plateforme-level réutilisables.

Application concrète :

  • Plateforme IA centrale : tous les projets IA passent par une plateforme commune (vs chaque équipe construit en local).

  • Composants partagés :

    • Gateway IA centralisé (LiteLLM, Portkey) avec auth + rate limit + observability.
    • Vector DB partagé (avec isolation tenant native).
    • Inference servers managés.
    • Pipeline d'audit standardisé.
  • Politiques cross-projets :

    • Sources de modèles allowlist commune.
    • Standards d'observabilité homogènes.
    • Tests adversariaux requis.
  • Bénéfices : économie d'échelle, cohérence sécurité, audit simplifié, expertise mutualisée.

              ┌──────────────────────────────────┐
              │   Plateforme IA centrale          │
              │   - AI Gateway (auth, ratelimit) │
              │   - Vector DB (multi-tenant)     │
              │   - Inference servers managés    │
              │   - Observabilité centralisée    │
              │   - Sécurité standardisée        │
              └────────────┬─────────────────────┘

            ┌──────────────┼──────────────┐
            │              │              │
    ┌───────▼─────┐ ┌──────▼─────┐ ┌─────▼──────┐
    │ Projet IA A │ │ Projet IA B│ │ Projet IA C│
    └─────────────┘ └────────────┘ └────────────┘

Élément 5 — Adapt controls

Idée : les défenses IA doivent être adaptatives. Boucles de feedback rapides entre red team / blue team / production.

Application concrète :

  • Red teaming continu : pas un événement annuel, mais des campagnes régulières (mensuelles minimum sur systèmes critiques).

  • Feedback loops :

    • Découverte technique d'attaque → mise à jour scanners + détecteurs.
    • Incident production → enrichissement corpus de tests adversariaux.
    • Drift en production → ré-évaluation modèle.
  • Tests A/B sécurité : déployer des variants avec et sans nouvelle mitigation, mesurer impact sur attaque vs faux positifs.

  • Versioning des défenses : règles de détection, system prompts, classifiers — tout versionné comme du code.

# Exemple : feedback loop attack → defense
def on_new_attack_pattern(attack_signature: str, source: str):
    """Boucle feedback : nouvelle attaque → mise à jour défenses."""
    
    # 1. Ajouter au corpus régression
    add_to_test_corpus(attack_signature, category="adversarial_regression")
    
    # 2. Mettre à jour classifier
    if classifier_supports_online_update():
        classifier.add_training_example(attack_signature, label="injection")
    else:
        schedule_retraining(reason=f"new_pattern from {source}")
    
    # 3. Mettre à jour règles détection
    add_detection_rule(attack_signature)
    
    # 4. Notifier autres équipes (CoSAI, threat intel)
    if is_novel_pattern(attack_signature):
        notify_threat_intel(attack_signature, severity="medium")
    
    # 5. Re-tester corpus complet en CI
    trigger_ci_run("regression-suite")

Élément 6 — Contextualize AI system risks

Idée : les risques techniques s'évaluent dans le contexte business. Un même risque (ex: hallucination) a un impact différent selon l'usage (chatbot FAQ vs outil médical).

Application concrète :

  • Risk register contextualisé : pour chaque système IA, risque technique + impact business + probabilité.
  • Threat modeling avec business : équipes métier impliquées dans le threat model.
  • Métriques business-aware : pas seulement TPR/FPR mais aussi NPS, satisfaction, taux d'erreur métier.
  • Communication avec les parties prenantes : Direction, métiers, juridique impliqués dans les décisions de mitigation.
# Risk register contextualisé
system_id: AS-002-recruitment-ai
technical_risks:
  - LLM01_prompt_injection:
      technical_severity: "high"
      business_context: "Recrutement = haut risque légal + image"
      contextualized_severity: "critical"
      mitigation_priority: 1
 
  - LLM09_hallucination:
      technical_severity: "medium"
      business_context: "Décision sur candidat — droit du travail strict"
      contextualized_severity: "high"
      mitigation_priority: 2
      additional_mitigation: "HITL obligatoire sur tout rejet"
 
  - LLM06_excessive_agency:
      technical_severity: "low"  # tools limités
      business_context: "Acceptable si périmètre bien borné"
      contextualized_severity: "medium"
      mitigation_priority: 3

SAIF Risk Map (2024+)

Google a publié en 2024 une SAIF Risk Map — graphique structuré des risques IA avec attaques et mitigations.

Catégories de la Risk Map

  • Training data risks : data poisoning, contamination, biais.
  • Model risks : model extraction, backdoor, adversarial examples.
  • Application risks : prompt injection, jailbreak, hallucination.
  • Agent risks : tool misuse, memory poisoning, multi-agent collusion.
  • Operational risks : DoS, supply chain, key compromise.

Vue défensive

À chaque attaque, mitigations associées (input/output filtering, sandboxing, monitoring, etc.). Distinct de MITRE ATLAS (qui catalogue les attaques sans focus défensif).

Combinaison recommandée : MITRE ATLAS pour red team + SAIF Risk Map pour blue team architectural.

Mappings vers autres frameworks

SAIF ↔ NIST AI RMF

SAIFNIST AI RMF
Element 1 (Foundations)Govern (politique, structure)
Element 2 (Detect & Response)Manage
Element 3 (Automate)Measure (automatisation)
Element 4 (Harmonize)Govern (cohérence)
Element 5 (Adapt)Manage (amélioration continue)
Element 6 (Contextualize)Map (contexte)

SAIF ↔ OWASP LLM Top 10

SAIF ElementOWASP LLM concerné
Element 1LLM03 Supply Chain
Element 2LLM01 (détection) + LLM02 + LLM06
Element 3Tous (automation)
Element 4Tous (cohérence cross-projets)
Element 5LLM01/04/09 (boucles feedback)
Element 6LLM06 + LLM10 (impact contextuel)

SAIF ↔ ISO 42001

SAIFISO 42001
Element 1Annex A.4 (Ressources)
Element 2Annex A.6 (Cycle de vie) + Clause 9
Element 3Clause 8 (Opération)
Element 4Clause 4-5 (Contexte + Leadership)
Element 5Clause 10 (Amélioration)
Element 6Annex A.5 (Évaluation impact)

SAIF ↔ MITRE ATLAS

SAIF est stratégique, ATLAS est tactique. SAIF Element 5 (Adapt) référence implicitement les techniques ATLAS comme catalogue d'attaques à tester en boucle.

Coalition for Secure AI (CoSAI)

Lancée en juillet 2024 par Google + Anthropic + Microsoft + IBM + autres. Objectif : standardiser les pratiques de sécurité IA sous égide OASIS (Organization for the Advancement of Structured Information Standards).

Workstreams :

  • Software Supply Chain Security for AI Systems.
  • Preparing Defenders for a Changing Cybersecurity Landscape.
  • AI Security Governance.

Implication : SAIF transforme progressivement de framework Google → standard plus large via CoSAI. Les organisations qui adoptent SAIF participent à l'effort de standardisation.

Plan d'implémentation 6 mois

Mois 1 — Lecture critique et mapping

  • Lire SAIF + Risk Map en équipe sécurité IA.
  • Mapper chaque élément à l'existant (DevSecOps, SOC, CI/CD).
  • Identifier les gaps spécifiques IA.

Mois 2-3 — Element 1 (Foundations)

  • Extension IAM, secrets, supply chain à l'IA.
  • AI BOM versionné.
  • Mirror interne pour modèles/datasets.

Mois 3-4 — Elements 2 + 3 (Detection + Automation)

  • Logs IA → SIEM avec OpenTelemetry GenAI.
  • Règles de corrélation référençant ATLAS.
  • CI/CD security IA (scanners, adversarial automatisés).

Mois 4-5 — Element 4 (Harmonize)

  • Plateforme IA centrale (gateway, observabilité partagée).
  • Politiques cross-projets.

Mois 5-6 — Elements 5 + 6 (Adapt + Contextualize)

  • Boucles de feedback red team / blue team.
  • Risk register contextualisé business.
  • Cadence de revue trimestrielle.

Comparaison opérationnelle des frameworks

CritèreNIST AI RMFISO 42001OWASP LLM Top 10SAIF
TypeCadre gouvernanceStandard certifiableListe tactiqueFramework architectural
NiveauStratégiqueStratégique + opérationnelTactiqueArchitectural
CertifiableNonOuiNonNon
Public cibleRSSI, gouvernanceDirection + auditDéveloppeursArchitectes ML/AppSec
MaturitéMature (2023)Récent (2023)Mature (v2 2025)Récent (2023)
OrientationUS-centricInternationalInternationalIndustrie tech

Recommandation : combiner les 4 plutôt que choisir l'un. Chacun couvre un angle différent.

Limites de SAIF

À connaître pour ne pas surinvestir :

  • Vendor-driven : Google a ses propres incentives. CoSAI atténue mais ne neutralise pas.
  • Pas certifiable : pas d'audit externe formel, contrairement à ISO 42001.
  • Conceptuel : le framework est plus une vision architecturale que des prescriptions précises.
  • Maturité : introduit en 2023, encore en évolution (Risk Map en 2024, intégration CoSAI 2024+).

Ces limites se réduisent avec la maturation de CoSAI. SAIF reste utile comme inspiration architecturale même si non utilisé comme référentiel formel.

Outils et ressources

BesoinOutil
Threat intelOpenCTI, MISP
SIEMSplunk, Sentinel, Elastic, Chronicle
Adversarial testingGarak, PyRIT
Supply chain MLpicklescan, Trivy, sigstore
ObservabilitéLangfuse, Phoenix Arize
Documentation SAIFsafety.google/cybersecurity-advancements/saif
CoSAIcoalitionforsecureai.org

Points clés à retenir

  • Google SAIF = framework conceptuel pour sécuriser les systèmes IA, 6 éléments : Foundations, Detect & Response, Automate, Harmonize, Adapt, Contextualize.
  • Niveau architectural/ingénieur — distinct de NIST AI RMF (gouvernance), ISO 42001 (certifiable), OWASP LLM Top 10 (tactique). Complémentaires.
  • SAIF Risk Map (2024+) : visualisation structurée des risques IA avec mitigations. Combinable avec MITRE ATLAS (red team) en blue team architectural.
  • Idée centrale Element 1 : étendre les pratiques DevSecOps existantes (IAM, secrets, supply chain) à l'IA, pas réinventer.
  • Element 2 : intégrer l'IA au SOC (logs, alertes, runbooks). OpenTelemetry GenAI + référencement MITRE ATLAS.
  • Element 4 : plateforme IA centrale vs silos par projet. Gateway, vector DB, observabilité partagés.
  • Element 6 : contextualiser les risques techniques avec le contexte business (impact, probabilité dans l'usage réel).
  • CoSAI (Coalition for Secure AI, juillet 2024) : Google + Anthropic + Microsoft + IBM standardisent via OASIS. SAIF s'inscrit dans cet effort.
  • Mappings : SAIF couvre des angles complémentaires de NIST/ISO/OWASP — ne se substitue à aucun.
  • Limites : vendor-driven, pas certifiable, conceptuel.

SAIF est aujourd'hui une référence opérationnelle largement adoptée dans l'industrie tech. Pas un standard certifiable, mais un cadre architectural précieux pour structurer un programme sécurité IA. Combiné avec NIST + ISO 42001 + OWASP + ATLAS, il complète la palette de référentiels pour une organisation IA-mature.

Questions fréquentes

  • Qu'est-ce que Google SAIF et qui devrait l'adopter ?
    Le **Secure AI Framework (SAIF)** est un cadre conceptuel publié par Google en juin 2023 pour sécuriser les systèmes IA. Il propose **6 éléments** (Expand strong security foundations, Extend detection and response, Automate defenses, Harmonize platform-level controls, Adapt controls, Contextualize AI system risks). Différence avec NIST AI RMF / ISO 42001 : SAIF est plus **opérationnel et orienté ingénieur** (parle de SOC, CI/CD, threat detection), moins formel/auditable. Cible idéale : équipes ingénieurs ML/AppSec qui veulent un framework pragmatique, complémentaire aux frameworks de gouvernance (NIST, ISO). Pas certifiable mais largement adopté par l'industrie tech.
  • Quelle différence entre SAIF, NIST AI RMF et ISO 42001 ?
    Trois angles distincts. **NIST AI RMF** = cadre **gouvernance** (4 fonctions Govern/Map/Measure/Manage), volontaire, US-centric. **ISO 42001** = standard **certifiable** (HLS + Annex A), formel, international. **Google SAIF** = framework **ingénieur/opérationnel** (6 éléments), non certifiable, focus implémentation. Les trois sont **complémentaires** : NIST + ISO pour la gouvernance et la certification ; SAIF pour l'inspiration opérationnelle au niveau ingénieur. Beaucoup d'équipes Google et tech companies utilisent SAIF en interne, puis se mappent à NIST/ISO pour la conformité formelle.
  • Qu'est-ce que la SAIF Risk Map ?
    Google a publié en 2024 une **SAIF Risk Map** — un graphique structuré des risques spécifiques aux systèmes IA, avec attaques (data poisoning, model extraction, prompt injection, etc.) et mitigations associées. Plus opérationnelle que les listes textuelles, elle permet de visualiser le périmètre de risque par classe (training, model, application, agent). Distincte de MITRE ATLAS (qui catalogue les techniques d'attaque) — la Risk Map se concentre sur la **vue défensive**. Combinaison utile : ATLAS pour le red team, SAIF Risk Map pour le blue team architectural.
  • Comment SAIF se compare-t-il à OWASP LLM Top 10 ?
    Niveaux différents. **OWASP LLM Top 10** = liste **tactique** des 10 risques principaux pour développeurs (LLM01-LLM10), avec mitigations concrètes par risque. **SAIF** = framework **stratégique/architectural** plus large (6 éléments couvrant gouvernance, ops, automation). Les deux sont **complémentaires** : OWASP pour la checklist dev, SAIF pour la vision architecturale. La plupart des risques OWASP s'inscrivent dans SAIF Element 5 *Adapt controls* et Element 6 *Contextualize risks*. Pour un projet : combiner OWASP comme checklist + SAIF comme cadre architectural.
  • Google contribue-t-il à des frameworks ouverts ?
    Oui, plusieurs. **Coalition for Secure AI (CoSAI)** lancée en juillet 2024 par Google + Anthropic + Microsoft + IBM + autres pour standardiser les pratiques de sécurité IA via OASIS. Permet de transformer SAIF d'un framework vendor en standard plus large. **OpenSSF Model Signing** (Google partenaire) pour signer modèles ML. **PyTorch security advisories**. **Sec-PaLM / Sec-Gemini** : modèles spécialisés sécurité publiés. SAIF en lui-même reste sous égide Google mais s'inscrit dans un effort plus large de standardisation.
  • Comment commencer à appliquer SAIF dans une entreprise ?
    Plan en 4 phases. (1) **Lecture critique** : SAIF est conceptuel — extraire les éléments applicables à votre contexte. (2) **Mapping** : pour chacun des 6 éléments, identifier vos pratiques existantes (DevSecOps, SOC, CI/CD) et les gaps spécifiques IA. (3) **Plan d'action par élément** : étendre les pratiques existantes (Element 1), ajouter détection IA (Element 2), automatiser (Element 3), harmoniser (Element 4), adapter (Element 5), contextualiser (Element 6). (4) **Mesure** : KPI par élément, revue trimestrielle. SAIF n'est pas un standard à 'cocher' — c'est un guide à adapter pragmatiquement à votre organisation.

Écrit par

Naim Aouaichia

Expert cybersécurité et fondateur de Zeroday Cyber Academy

Expert cybersécurité avec un master spécialisé et un parcours hybride : développement, DevOps, DevSecOps, SOC, GRC. Fondateur de Hash24Security et Zeroday Cyber Academy. Formateur et créateur de contenu technique sur la cybersécurité appliquée, la sécurité des LLM et le DevSecOps.