Explorer la sécurité des modèles d'IA : analyse des attaques par injection de revendications et des protections

Après sa diffusion dans de nombreux domaines, le recours aux modèles d’intelligence artificielle à diverses fins augmente, mais à mesure que ce recours augmente, de nouveaux défis de sécurité apparaissent également. L’un de ces défis est l’attaque par injection de revendications d’IA, qui cible des modèles intelligents avec l’intention de manipuler leurs résultats.

Les attaques selon l'IA empoisonnent la sortie des outils d'IA qui en dépendent, modifiant et manipulant leur sortie en quelque chose de malveillant. Mais comment fonctionne une attaque par injection de revendications d’IA et comment pouvez-vous vous protéger ? Vérifier Les réclamations liées à l'IA premium en valent-elles la peine ?

Explorer la sécurité des modèles d'IA : analyse et protections des attaques par injection de réclamation | 1pbefYWUwH9iW8T1cM4VP-Q-DzTechs | intelligence artificielle

Qu’est-ce qu’une attaque par injection de revendications d’IA ?

Les attaques par injection de revendications d’IA profitent des vulnérabilités des modèles d’IA génératifs pour manipuler leur sortie. Ils peuvent être exécutés par vous ou injectés par un utilisateur externe via une attaque par injection de réclamation indirecte. Les attaques DAN (Do Anything Now) ne présentent aucun risque pour vous, l'utilisateur final, mais d'autres attaques sont théoriquement capables d'empoisonner le résultat que vous recevez de l'IA générative.

Par exemple, quelqu'un pourrait manipuler un modèle d'IA pour vous demander de saisir illégalement votre nom d'utilisateur et votre mot de passe, utilisant ainsi l'autorité et la crédibilité de l'IA pour réussir une attaque de phishing. En théorie, une IA autonome (capable de lire et de répondre aux messages) pourrait également recevoir et agir sur des instructions externes indésirables.

L'attaque dépend de la compréhension du pirate informatique du fonctionnement du modèle d'IA et de sa réaction aux entrées. Dans le cas de l’injection de revendications par l’IA, des données malveillantes sont saisies pour manipuler les résultats du modèle. Par exemple, si un modèle reçoit des informations liées à une taxonomie, un pirate informatique pourrait saisir des données trompeuses pour orienter le modèle vers une taxonomie incorrecte.

Le succès de ce type d’attaque dépend d’une compréhension minutieuse de la conception du modèle et de l’analyse des données utilisées dans la formation. Les techniques de protection telles que la validation des données et la complexité des modèles tentent de réduire les chances de succès des attaques par injection de réclamations IA. Vérifier Que sont les attaques hostiles contre les modèles d'IA et comment pouvez-vous les arrêter ?

Comment fonctionnent les attaques par injection de revendications ?

Les attaques par injection de réclamation fonctionnent en fournissant des instructions supplémentaires à l'IA sans le consentement ou la connaissance de l'utilisateur. Les pirates peuvent y parvenir de plusieurs manières, notamment par des attaques DAN et des attaques par injection de revendications indirectes.

Attaques DAN (Faites n'importe quoi maintenant)

Explorer la sécurité des modèles d'IA : analyse et protections des attaques par injection de réclamation | 19G0Rg0OsJHLKZrRPkknLOw-DzTechs | intelligence artificielle

Les attaques DAN (Do Anything Now) sont un type d’attaque par injection de revendications qui implique le « jailbreak » de modèles d’IA génératifs tels que ChatGPT. Ne façonne pas Ces attaques de jailbreak C’est dangereux pour vous en tant qu’utilisateur final, mais cela étend la puissance de l’IA, lui permettant de devenir un outil d’abus.

Par exemple, utilisez Chercheur en sécurité Alejandro Vidal Il est demandé à DAN de faire en sorte que le modèle GPT-4 d'OpenAI génère du code Python pour l'enregistreur de frappe. Lorsqu’elle est utilisée à des fins malveillantes, une attaque par jailbreak réduit considérablement les barrières liées aux compétences associées à la cybercriminalité et peut permettre à de nouveaux pirates de lancer des attaques plus sophistiquées.

Attaques d’empoisonnement des données de formation

Les attaques d'empoisonnement des données de formation pour les modèles d'IA ne peuvent pas être classées comme des attaques par injection de revendications, mais elles présentent des similitudes notables dans leur fonctionnement et les risques qu'elles présentent pour les utilisateurs. Contrairement aux attaques par injection de revendications, les attaques par empoisonnement des données de formation sont un type d’attaque d’apprentissage automatique contradictoire qui se produit lorsqu’un pirate informatique modifie les données de formation utilisées par un modèle d’IA. Le même résultat se produit : production toxique et modification du comportement.

Les applications potentielles des attaques par empoisonnement des données de formation sont pratiquement illimitées. Par exemple, les données d’entraînement de l’IA utilisées pour filtrer les tentatives de phishing depuis une plateforme de chat ou de messagerie pourraient théoriquement être modifiées. Si le pirate informatique enseigne au modèle d’IA que certains types de tentatives de phishing sont acceptables, il peut envoyer des messages de phishing à plusieurs reprises sans être détecté.

Les attaques d’empoisonnement des données de formation ne peuvent pas vous nuire directement, mais elles peuvent rendre possibles d’autres menaces. Si vous souhaitez vous protéger contre ces attaques, n’oubliez pas que l’IA n’est pas infaillible et que vous devez vérifier tout ce que vous rencontrez en ligne. Vérifier Votre guide complet pour protéger votre vie privée à l'ère de l'intelligence artificielle.

Attaques indirectes par injection de revendications

Les attaques par injection de réclamations sont le type d’attaque qui présente le plus grand risque pour vous, l’utilisateur final. Ces attaques se produisent lorsque des instructions malveillantes sont transmises à l'IA générées par une ressource externe, telle qu'un appel d'interface de programmation d'application (API), avant qu'elle ne reçoive l'entrée requise.

Explorer la sécurité des modèles d'IA : analyse et protections des attaques par injection de réclamation | 1F1DO6dbE3unwy3xDFNhvGA-DzTechs | intelligence artificielle

Un article intitulé « Real-World Compromise of LLM-Integrated Applications Using an Indirect Claim Injection Attack » a montré... arXiv [PDF] Une attaque théorique où une IA pourrait être dirigée pour convaincre un utilisateur de s'inscrire sur un site Web de phishing dans la réponse, en utilisant du texte caché (invisible à l'œil humain mais parfaitement lisible pour le modèle de l'IA) pour saisir subrepticement des informations . Une autre attaque menée par la même équipe de recherche documentée sur GitHub Une attaque dans laquelle Copilote (anciennement Bing Chat) pour convaincre l'utilisateur qu'il s'agit d'un agent d'assistance en direct recherchant des informations sur sa carte de crédit.

Les attaques indirectes par injection de revendications constituent une menace car elles peuvent manipuler les réponses que vous recevez d'un modèle d'IA fiable, mais ce n'est pas la seule menace qu'elles représentent. Comme mentionné précédemment, cela peut également amener tout modèle d’IA autonome que vous utilisez à se comporter de manière inattendue et potentiellement dangereuse.

Les attaques par injection de réclamations par l’IA constituent-elles une menace ?

Certes, l’IA prétend que les attaques par injection constituent une menace, mais on ne sait pas exactement comment ces vulnérabilités peuvent être exploitées. Il n’existe aucune attaque réussie par injection d’IA, et de nombreuses tentatives connues ont été menées par des chercheurs sans réelle intention de nuire. Cependant, de nombreux chercheurs en IA considèrent les attaques par injection de revendications d’IA comme l’un des défis les plus difficiles à relever dans la mise en œuvre de la sécurité de l’IA.

De plus, la menace de telles attaques n’est pas passée inaperçue auprès des autorités. Selon le journal Washington PostEn juillet 2023, la Federal Trade Commission a enquêté sur OpenAI, cherchant plus d'informations sur les incidents connus d'attaques par injection de réclamations. On sait qu’aucune attaque n’a jusqu’à présent réussi après les tests, mais cela est susceptible de changer.

Les pirates sont constamment à la recherche de nouvelles méthodes, et nous ne pouvons que deviner comment un pirate informatique utilisera les attaques par injection de revendications à l'avenir. Vous pouvez vous protéger en appliquant toujours un examen minutieux aux réponses de votre modèle d’IA. En cela, les modèles d’IA sont incroyablement utiles, mais il est important de se rappeler que vous disposez de quelque chose que l’IA n’a pas : le jugement humain. N'oubliez pas que vous devez examiner attentivement les résultats que vous recevez d'outils tels que Copilot et profiter de l'utilisation des outils d'IA à mesure qu'ils évoluent et s'améliorent. Vous pouvez maintenant visualiser Parvenir à l’auto-apprentissage pour les ordinateurs : les systèmes intelligents peuvent-ils acquérir du bon sens ?

Remonter en haut