Apple Intelligenceがハッキングされた?巧妙な「プロンプト注入」手法とAIの脆弱性

Apple Intelligenceがハッキングされた?巧妙な「プロンプト注入」手法とAIの脆弱性

テクノロジーAI倫理AppleIntelligenceセキュリティAI脆弱性プロンプトインジェクションサイバーセキュリティ

私たちの身近なiPhoneやMacに統合されているAI機能「Apple Intelligence」が、実は巧妙な攻撃手法によって意図しない動作をさせられる可能性があることが明らかになりました。セキュリティ研究者がこの脆弱性を実証し、AIモデルの安全性をめぐる新たな懸念が浮上しています。本記事では、この攻撃の内容と、私たちが知っておくべきAIセキュリティの現状について解説します。

Apple Intelligenceの脆弱性を突いた「Neural Exec」攻撃

自動生成された攻撃用プロンプト

セキュリティ企業RSACの研究チームは、「Neural Exec」と呼ばれる手法を用いてApple Intelligenceのガードレールを突破しました。この手法では、人間が手動でプロンプトを考える代わりに、機械学習アルゴリズムを用いて、モデルが不適切な動作をするような文字列を自動的に生成します。これにより、従来のプロンプト攻撃よりも効率的にモデルの脆弱性を突くことが可能となりました。

Unicodeのトリックによるフィルタ回避

研究チームは、Appleが設けている入力・出力フィルタを回避するために、Unicodeの「右から左へ(RTL)記述する」機能を悪用しました。英語のような左から右へ読む言語のブロックの中に、逆向きにエンコードした攻撃用テキストを埋め込むことで、フィルタによる検知をすり抜け、結果として意図した不正な出力を生成させることに成功しました。

実験で証明された脅威の実態

研究チームが100個のランダムなプロンプトを用いてテストしたところ、約76%のケースで攻撃が成功しました。単純にAIに暴言を吐かせるだけでなく、連絡先を勝手に作成したり、連絡先の名前を「ママ」のように偽装してユーザーを騙したりするといった、より悪意のある操作への応用可能性も実証されています。

AIセキュリティの根深い課題と今後の展望

「いたちごっこ」が続くAI防御の最前線

今回の件は、AIモデルのセキュリティ対策が「いたちごっこ」であることを改めて浮き彫りにしました。モデル側の防御能力が向上すれば攻撃手法も洗練されるというサイクルが続いており、開発者は常に一歩先を予測した対策を講じる必要があります。Appleが既にソフトウェアアップデートで修正を完了させている点は評価できますが、AIシステム全体の堅牢性を担保し続けることの難しさを象徴しています。

オンデバイスAIの利便性とセキュリティのトレードオフ

Apple Intelligenceのようなオンデバイスで動作するモデルは、プライバシー保護の観点から推奨されますが、今回の事例では、クラウドベースの巨大なモデルよりも攻撃者がローカルモデルの挙動を調査・悪用しやすいという側面が示唆されました。今後、AI機能を搭載したデバイスが普及するにつれ、AIの利便性とセキュリティのバランスをどう維持していくのかが、業界全体の重要な課題となります。ユーザー側も、AIが絶対的な存在ではなく、攻撃によって不正な出力を生成する可能性があることを認識し、慎重に利用することが求められます。

画像: AIによる生成