詩的な言葉でAIを欺く「敵対的ポエトリー」:サイバーセキュリティの新脅威、成功率62%の実態

詩的な言葉でAIを欺く「敵対的ポエトリー」:サイバーセキュリティの新脅威、成功率62%の実態

テクノロジーAIセキュリティAIサイバーセキュリティ脆弱性敵対的攻撃研究

近年、AIの進化は目覚ましいものがありますが、その安全性に関する懸念も高まっています。そんな中、最新の研究により、AIの安全ガードレールを回避する新たな手法が明らかになりました。それは「敵対的ポエトリー」と呼ばれる、詩的な表現を用いてAIに指示を出すというものです。この手法は、AIの安全性を欺き、通常なら拒否されるはずの指示を実行させることに成功し、その成功率は驚異の62%に達しました。

AIの脆弱性を突く「詩」という名の攻撃

研究の概要と背景

この研究は、Dexai、ローマ・サピエンツァ大学、Sant'Anna高等研究科の共同チームによって行われました。彼らは、AIが敵対的な指示を直接的に受け取るだけでなく、比喩や物語といった詩的な形式で表現された場合にも、その意図を読み取ってしまい、安全ガイドラインを無視する可能性があることを発見しました。これは、AIの安全性評価プロトコルにおける根本的な限界を示唆しています。

「敵対的ポエトリー」の手法

研究チームは、まず20の「敵対的ポエム」を作成しました。これらは、直接的な指示ではなく、隠喩や情景描写を通して有害な指示を表現するものです。例えば、お菓子作りのレシピを装って爆弾の製造方法を説明するといった手法が用いられました。さらに、既存のAI安全性ベンチマーク(MLCommons AILuminate Safety Benchmark)に含まれる1200の有害なプロンプトを詩的な形式に変換し、その効果を検証しました。

実験結果:詩の威力

実験では、9つの主要なAIプロバイダー(GoogleのGemini、OpenAI、Anthropicなど)の25種類の最先端言語モデルがテストされました。その結果、自作の詩的なプロンプトによる攻撃の成功率は平均62%に達し、詩に変換された標準的な有害プロンプトでも約43%の成功率を記録しました。これは、詩的な表現がAIの安全メカニズムを体系的にバイパスできることを示しており、従来の直接的なプロンプト攻撃を大幅に上回る結果です。

モデルごとの反応の違い

特に注目すべきは、GoogleのGemini 2.5 Proモデルが手作りの詩的なプロンプトに対して100%の成功率を示したことです。一方、OpenAIのGPT-5モデルは比較的高い耐性を示しましたが、それでも一部のモデルでは攻撃が成功するケースが見られました。興味深いことに、学習データ量が少ない(比較的小規模な)モデルの方が、詩的な表現による攻撃に対してより回復力がある傾向が見られました。これは、大規模モデルが文学的なテキストを多く学習することで、かえって詩的な表現の解釈能力が高まり、安全性を損なう可能性を示唆しています。

AIの「詩心」が招くサイバーセキュリティの未来

詩がAIの「アキレス腱」となる理由

この研究結果は、AI、特に大規模言語モデル(LLM)が、その高度な言語理解能力ゆえに、詩のような比喩的・物語的な表現に脆弱であることを浮き彫りにしました。AIは、人間が意図した「文学的な表現」と、悪意ある「指示」とを区別することが困難な場合があります。これは、AIの安全対策が、直接的で論理的な指示への対応に偏りがちであることの裏返しとも言えます。

今後のAIセキュリティへの影響と展望

「敵対的ポエトリー」は、AIのセキュリティ対策が直面する新たな課題を提示しています。今後、AI開発者は、単に有害なキーワードや直接的な指示をブロックするだけでなく、詩的な表現や比喩に隠された悪意を検知・無効化する能力を強化する必要があります。これには、AIの「物語理解能力」や「感情的ニュアンスの解釈能力」をより深く分析し、それらを悪用されないための新たな防御メカニズムの開発が求められるでしょう。AIが「文学」を理解しすぎることが、新たなサイバー脅威を生み出す皮肉な状況は、今後のAIの発展において無視できない要素となるはずです。

人間とAIの「言葉」を巡る攻防

この研究は、AIと人間の間の「言葉」を巡る攻防が、より巧妙で創造的なものへと進化していく可能性を示唆しています。かつて詩人は芸術の担い手でしたが、今やAIの安全性を脅かす存在にもなりうるのです。これは、AI技術の進歩に伴い、人間がAIをどのように利用し、またAIからどのように身を守るべきか、という根本的な問いを私たちに投げかけています。AIの進化は止まりませんが、その進化のあり方と、それに伴うリスクへの対応は、私たち人間が主体的に考えていくべき重要なテーマと言えるでしょう。

画像: AIによる生成