Confidentialité des données et IA générative :
La vérité sur les promesses courantes en matière de sécurité

Pour de nombreuses personnes et organisations, la protection des données n’est pas seulement une préférence : c’est non négociable. Au-delà de la volonté d’empêcher que leurs informations servent à entraîner de futurs modèles d’IA, elles exigent la certitude absolue que les données sensibles ne seront jamais exposées à qui que ce soit, même pas temporairement. Lorsqu’il s’agit de travailler avec des données textuelles — que ce soit dans la recherche, le milieu des affaires ou des projets à impact social — la confiance dans la façon dont ces données sont traitées est essentielle.

Une première distinction importante concerne la manière dont on accède à un service d’IA générative.

• Interface web (services de type “chat”) :  Lorsque vous vous connectez au site web d’un fournisseur (comme ChatGPT, Claude ou Gemini dans un navigateur), vos conversations ne sont généralement pas privées. Elles sont souvent conservées indéfiniment et, à moins de désactiver explicitement cette option, elles peuvent être utilisées pour l’entraînement et l’amélioration du service. Même lorsque les entreprises vous permettent de « désactiver l’entraînement », les conversations peuvent tout de même rester accessibles pour elles.

• Accès par API (intégration logicielle): À l’inverse, lorsque l’IA générative est utilisée via une API (comme dans notre logiciel), les règles sont différentes. La plupart des fournisseurs de GenAI indiquent que les données envoyées via API ne servent pas à l’entraînement. Toutefois, ils les conservent généralement temporairement — souvent pendant 30 jours — à des fins de surveillance et de débogage.

Lorsque qu’une entreprise logicielle intègre de l’IA générative, cela se fait actuellement via des appels API. Ainsi, même si les données ne sont pas utilisées pour l’entraînement, elles sont en général conservées pendant 30 jours avant d’être supprimées. C’est le cas pour nos propres logiciels QDA Miner et WordStat. Or, ces dernières années, de nombreuses entreprises intégrant l’IA générative ont commencé à mettre en avant une politique de zéro stockage, aucun entraînement sur vos données, ou encore un chiffrement intégral.
À première vue, ces promesses semblent offrir une garantie de confidentialité.
Mais qu’est-ce que cela signifie réellement dans la pratique?

Que signifie « l’absence de conservation des données » ?

Lorsqu’une entreprise fait la promotion de l’absence de conservation des données (ou ZDR pour Zero Data Retention), cela signifie généralement que les données que vous envoyez à leurs serveurs ne sont jamais stockées du tout ou sont supprimées immédiatement après traitement. Si une entreprise conserve temporairement des données à des fins administratives ou de débogage, généralement pendant 30 jours, mais même pour quelques minutes seulement, elle ne peut pas prétendre offrir une véritable politique de non-conservation des données.

Même lorsque les entreprises affirment ne conserver aucune donnée, vos informations peuvent tout de même être stockées ou utilisées pour l’entraînement. Voici le piège : ces politiques s’appliquent souvent uniquement au serveur passerelle de l’entreprise qui reçoit votre requête et la transmet. Le modèle d’IA lui-même, généralement hébergé sur un serveur séparé, peut avoir des pratiques de traitement des données différentes. Le service d’IA générative sous-jacent peut encore traiter, enregistrer ou stocker brièvement les données avant qu’elles ne disparaissent. C’est pourquoi les déclarations de « non-conservation des données » nécessitent un examen attentif. À moins que les fournisseurs ne garantissent explicitement qu’aucune donnée n’est conservée nulle part, y compris par le service d’IA lui-même, ces promesses peuvent ne pas offrir une véritable confidentialité de bout en bout.

Qu’en est-il du « chiffrement intégral des données » ?

Le chiffrement est un autre terme qui est parfois mal compris. Lorsque les fournisseurs affirment que vos données sont « entièrement chiffrées », cela signifie généralement qu’elles sont chiffrées lorsqu’elles sont stockées sur leurs serveurs ou pendant leur transmission. Cependant, à un moment donné, votre texte doit être déchiffré et envoyé au serveur d’IA générative pour que le modèle d’IA puisse le traiter. Cela signifie que le service d’IA lui-même peut toujours « voir » vos données, du moins pendant le traitement de votre requête. Et à moins qu’ils ne revendiquent également une absence totale de conservation des données appliquée non seulement à leur serveur mais aussi au service d’IA générative lui-même.

Pourquoi “Pas d’entraînement” ne raconte pas toute l’histoire

Certains fournisseurs rassurent les utilisateurs en affirmant que leurs données ne seront pas utilisées pour entraîner des modèles d’IA. Bien que cela soit important, cela ne répond pas à la préoccupation de confidentialité : le fait que votre texte peut toujours transiter par des serveurs tiers et rester accessible (sous une forme ou une autre) pendant une durée limitée.

Comment vérifier les déclarations d’« absence de conservation des données »

Si la confidentialité est essentielle, voici quelques étapes à suivre pour vous assurer qu’une déclaration d’absence de conservation des données d’un fournisseur est digne de confiance :

1) Demandez un libellé contractuel explicite: Pour les plans d’entreprise ou payants, demandez la formulation exacte dans les conditions d’utilisation ou le contrat avec le fournisseur de services d’IA générative qu’ils utilisent. Assurez-vous qu’il indique clairement que les données ne sont ni stockées ni utilisées pour l’entraînement par le service d’IA générative lui-même, et pas seulement par le serveur passerelle du fournisseur.

2) Consultez la documentation officielle du fournisseur: Recherchez des déclarations dans la documentation API ou d’entreprise confirmant les politiques de conservation des données.

3) Examinez les certifications de sécurité et de conformité: Les certifications comme SOC 2, ISO 27001, HIPAA ou RGPD démontrent des pratiques rigoureuses de gestion des données. Elles ne garantissent pas à elles seules l’absence de conservation, mais elles indiquent que l’entreprise prend la sécurité des données au sérieux.

4) Demandez une explication technique: Renseignez-vous sur la façon dont vos données circulent dans le système. Confirmez si elles sont chiffrées en transit, stockées temporairement ou traitées dans un environnement mutualisé. Un fournisseur digne de confiance devrait pouvoir l’expliquer clairement.

5) Explorez des alternatives locales: Si une confidentialité absolue est requise, envisagez d’exécuter un modèle local (comme Ollama ou d’autres options open source) sur votre propre matériel. De cette façon, vos données ne quittent jamais votre machine et vous en avez le contrôle total.

L’absence de conservation des données en péril : quand les tribunaux outrepassent les promesses de confidentialité

Même les politiques de conservation des données les plus strictes peuvent s’effondrer sous la pression juridique. Un exemple récent frappant démontre cette vulnérabilité : en mai 2025, un tribunal fédéral a ordonné à OpenAI de conserver indéfiniment toutes les données des utilisateurs, y compris les conversations ChatGPT et les résultats d’API, qui seraient normalement supprimées selon leurs politiques standard (voir l’ordonnance du tribunal). Cette ordonnance affecte de nombreux services OpenAI, qu’ils soient accessibles via des interfaces web ou des appels API, suspendant effectivement leurs pratiques promises de suppression des données. Bien qu’OpenAI déclare qu’il existe certaines conditions dans lesquelles de telles politiques restent en vigueur (voir la réponse d’OpenAI), a portée et la durée de ces exceptions demeurent incertaines.

Cette intervention judiciaire révèle une faille fondamentale dans le fait de se fier à des garanties de confidentialité basées sur le cloud. Bien que ce cas particulier concerne OpenAI, des ordonnances judiciaires similaires pourraient potentiellement affecter n’importe quel fournisseur d’IA générative, indépendamment de leurs politiques de confidentialité déclarées. Pour les organisations ayant des exigences strictes de confidentialité, cela expose un angle mort critique : le sort ultime de vos données dépend non seulement des politiques déclarées d’un fournisseur, mais aussi de leurs batailles juridiques, des batailles sur lesquelles vous n’avez aucun contrôle. Bien que la préservation des données ordonnée par un tribunal ne soit pas un événement quotidien, cela souligne pourquoi les données véritablement sensibles ne peuvent être en sécurité que lorsqu’elles ne quittent jamais vos propres systèmes.

Qu’en est-il de QDA Miner et WordStat

Comme nous l’avons mentionné précédemment, nos applications logicielles utilisent des appels API pour accéder directement à ces services d’IA générative. L’emplacement de vos données dépend du fournisseur que vous choisissez : OpenAI, Claude et Gemini traitent les données sur des serveurs basés aux États-Unis ; Mistral opère depuis la France ; et DeepSeek traite et stocke les données en Chine. Selon toutes ces entreprises, les données ne sont pas utilisées pour l’entraînement, mais devraient généralement être stockées pendant 30 jours à des fins administratives et de maintenance (cependant, comme nous l’avons vu, cela pourrait ne plus être vrai puisque les entreprises d’IA générative peuvent être contraintes de conserver vos données indéfiniment). Pour cette raison, nous ne prétendons pas et ne pouvons pas prétendre à l’absence de conservation des données, et même ceux qui affirment aujourd’hui respecter une telle norme pourraient devoir retirer ces affirmations, maintenant ou dans un avenir proche.

Si votre travail exige une confidentialité stricte, nous vous offrons deux options :

1. Désactiver l’accès à l’IA générative: QDA Miner et WordStat offrent deux moyens de désactiver l’accès à Internet, empêchant l’utilisation des fonctionnalités d’IA générative. L’un d’eux via un paramètre logiciel visible par l’utilisateur (ce qui signifie qu’il peut être modifié), et une autre option qui empêche les utilisateurs de réactiver cette option. Vous aurez toujours accès à d’autres fonctionnalités d’IA locales telles que la modélisation de sujets, l’incorporation de mots (word embedding) dans WordStat, ou les recherches par exemples, le codage par regroupement et les recherches par similarité dans QDA Miner. Ces fonctionnalités d’IA « traditionnelles » s’exécutent entièrement sur votre ordinateur et les données qu’elles traitent ne quittent jamais votre système.

2. Utiliser les modèles OLLAMA: Parmi les divers moteurs d’IA générative que nous prenons en charge, nous avons implémenté une connexion à Ollama, qui est un service d’IA générative qui exécutera des modèles LLM localement. En d’autres termes, le modèle s’exécute directement sur votre machine et aucune donnée n’est transmise vers le cloud. La seule exigence est un ordinateur performant avec une puissance de traitement graphique suffisante, au moins 8 Go de VRAM, bien que 16 Go ou plus soient recommandés pour des performances optimales. Cette configuration garantit que vos données restent entièrement privées et sous votre contrôle.

En conclusion:

Les promesses marketing telles que l’absence de conservation des données et le chiffrement intégral peuvent sembler rassurantes, mais elles ne garantissent pas une confidentialité totale. Lorsque la confidentialité est primordiale, la seule approche véritablement sûre consiste à conserver vos données localement, soit en évitant complètement les services d’IA générative basés sur le cloud, soit en utilisant des modèles locaux qui ne transmettent jamais de données au-delà de votre propre système.

Il est important de noter que ces préoccupations en matière de confidentialité ne devraient pas décourager l’utilisation de l’IA générative basée sur le cloud pour toutes les applications. Lorsque vous travaillez avec des données non confidentielles, ces services peuvent être des outils incroyablement précieux. Par exemple, l’analyse de jeux de données accessibles au public tels que des rapports gouvernementaux, des articles de recherche publiés, des articles de presse ou du contenu de réseaux sociaux open source ne pose aucun risque de confidentialité puisque l’information est déjà dans le domaine public.
De même, les projets éducatifs utilisant des données anonymisées ou synthétiques, la création de contenu marketing, la recherche générale sur des informations accessibles au public, ou le développement de prototypes avec des données factices peuvent tous bénéficier de la puissance et de la commodité des services d’IA basés sur le cloud. L’essentiel est de prendre une décision éclairée en fonction du niveau de sensibilité de vos données : utilisez les capacités robustes des services cloud lorsque la confidentialité n’est pas une préoccupation, mais passez à des solutions locales lorsque la confidentialité est primordiale.