AI論文に忍び寄る「偽引用」の脅威：NeurIPSも例外ではない、研究の信頼性を揺るがす現実

近年、人工知能（AI）の進化は目覚ましいものがありますが、その一方で、科学研究の分野にAIによる「幻覚（ハルシネーション）」、特に偽の引用が忍び込んでいるという懸念が高まっています。トップレベルのAI・機械学習会議でさえ、この問題に直面しており、科学的議論の質を低下させるリスクが指摘されています。本記事では、このAIによる誤情報が科学研究にもたらす課題とその背景について掘り下げます。

AIによる偽引用の現状とその影響

トップカンファレンスにおけるAIの幻覚

米国で開催されたAI・機械学習分野の著名な会議であるNeurIPS 2025において、採択された論文のうち51件に、AIによって生成された偽の引用が含まれていたことが明らかになりました。AI検出スタートアップGPTZeroの調査によると、これらの論文には100件以上の「ハルシネーション引用」が確認されました。これは、AIが生成したテキストが、存在しない、あるいは不正確な出典を参照してしまう現象です。NeurIPS 2025では、メインセッショントラックの論文採択率が24.52%であったことを考えると、採択された論文の多くが、このような誤りを含んでいたことになります。

「バイブ引用」という新たな懸念

GPTZeroは、AIが生成したとみられる偽の引用を「バイブ引用（vibe citation）」と定義しています。これは、単なるスペルミスやURLの切れ、参照情報の欠落といった人間が犯しがちなエラーとは異なり、生成AIの使用によって生じた可能性が高い引用を指します。同社は、独自のAIツール「Hallucination Check」を用いて、引用元がオンラインで見つからないものを検出し、手動で確認した結果、これらの偽引用が確認されました。これは、AI研究の最前線にいる専門家でさえ、使用するAIツールの精度を完全に保証することが難しい現状を示唆しています。

学術界全体を悩ます課題

この問題はNeurIPSに限った話ではありません。国際会議であるICLR 2026の審査中の論文からも、50件以上の偽引用が検出されました。さらに、プレプリントリポジトリ（査読前の論文公開サイト）には、AIによって生成された質の低い研究論文が溢れている状況です。ある分析によると、LLM（大規模言語モデル）搭載ツールを使用する科学者は、そうでない科学者よりも約33%多く論文を投稿しているとされています。これは、AIの普及が研究発表の量と質の両方に影響を与えていることを示しています。

AIの誤情報と科学的信頼性の未来

AIツールの検出能力と限界

GPTZeroが開発した「Hallucination Check」ツールは、著者が原稿をチェックしたり、編集者や会議の議長がAI生成テキストや疑わしい引用を検出したりするために役立ちます。このツールは、LLMの関与なしに発生しうる一般的な問題（リンク切れやタイトルの一部不正確など）も検出できます。しかし、AIによる誤情報、特に偽引用の検出は、AI研究の発展とともに進化するAIの能力とのいたちごっこであり、完全な解決には至っていません。AIによる生成テキストの増加は、査読プロセスの負担を増大させ、信頼性の確保をより困難にしています。

科学的健全性を守るための対策

NeurIPSのような主要な会議では、AIによるハルシネーション引用を論文の却下または撤回の理由とするポリシーを設けています。しかし、採択済みの論文から偽引用が見つかるという事実は、既存のレビュープロセスだけでは限界があることを示しています。今後、AIの利用に関するガイドラインの策定、より高度な検出ツールの開発、そして研究者自身のAIリテラシー向上が、科学的議論の健全性を維持するために不可欠となるでしょう。AIを効果的に活用しつつ、そのリスクを管理していくことが、科学の進歩にとって重要な課題です。

AI時代における研究倫理の再定義

AIが研究活動に深く浸透するにつれて、研究倫理のあり方も再定義が求められています。AI生成コンテンツの責任の所在、引用の正確性の担保、そしてオリジナリティの定義など、新たな論点が浮上しています。AIは研究の効率化や新たな発見を促進する強力なツールとなり得ますが、その利用には厳格な注意と倫理観が必要です。科学界全体で、AIとの共存と健全な発展に向けた共通認識を形成していくことが急務と言えます。