Comprendre le risque de fuite des données dans l’usage de l’intelligence artificielle

La leçon met en lumière les enjeux autour de la fuite de données lors de l’utilisation des intelligences artificielles telles que ChatGPT, en insistant sur la manière dont vos informations peuvent être collectées, stockées et potentiellement diffusées.

Détails de la leçon

Description de la leçon

Cette leçon expose de manière détaillée le risque de fuite des données dans le contexte de l’utilisation des outils d'intelligence artificielle, à travers l’exemple concret de ChatGPT. Elle commence par définir ce qu’est une donnée pour l’IA : il s’agit de toute information textuelle ou non (PDF, image, vidéo, fichier Word) transmise lors d’une interaction avec l’outil. L’analyse se poursuit par l’examen du parcours de la donnée, depuis la soumission du prompt jusqu’à la collecte et le stockage dans les datacenters – principalement situés aux États-Unis – puis à sa réutilisation pour améliorer ou entraîner de nouveaux modèles d’IA.

La leçon attire l’attention sur le risque que représentent le stockage et la conservation des données, la durée de retention étant variable selon la solution d’IA choisie. Un exemple concret illustre comment des données confidentielles d’entreprise, partagées dans un prompt ou une pièce jointe, peuvent être mémorisées puis divulguées à d’autres utilisateurs, notion qui incarne le cœur du problème de la fuite de données. Enfin, la vidéo souligne l’importance de la vigilance et de la sélection responsable des informations partagées avec ce type de solution.

Objectifs de cette leçon

Appréhender la notion de donnée dans le contexte de l’IA.
Comprendre les processus de collecte et de stockage.
Identifier les risques de fuite de données et adopter des pratiques responsables lors de l’utilisation d’outils comme ChatGPT.

Prérequis pour cette leçon

Maîtrise des notions de base en informatique et en sécurité numérique.
Connaissance générale du fonctionnement des outils d’intelligence artificielle.

Métiers concernés

Cette thématique concerne les Data analysts, responsables de la sécurité informatique, juristes spécialisés en protection des données, ainsi que tous les métiers manipulant des informations stratégiques ou sensibles dans le secteur du numérique.

Alternatives et ressources

Des solutions telles que Claude (Anthropic), Microsoft Copilot, Google Gemini ou des outils IA déployés en local, avec hébergement privé, peuvent constituer des alternatives pour améliorer la maîtrise du stockage et la confidentialité des données.

Questions & Réponses

La donnée est collectée puis transmise et stockée dans des datacenters, principalement aux États-Unis. Selon la politique de l’IA utilisée, elle peut être conservée pour une durée variable et potentiellement réutilisée pour entraîner ou réentraîner de nouveaux modèles d’IA.
En cas de fuite, des informations confidentielles partagées avec l’IA pourraient être restituées à d’autres utilisateurs, exposant des secrets stratégiques, des données personnelles ou des documents sensibles à des tiers non autorisés, avec des conséquences juridiques et économiques importantes.
Il convient d’éviter de transmettre des informations confidentielles à une IA hébergée sur l’internet public, de privilégier des solutions offrant un hébergement local ou un contrôle accru sur la conservation des données, et de s’informer précisément sur les politiques de confidentialité de chaque outil.