UMOT:AIが長期間の隠れや急な動きでもターゲットを見失わない!多物体追跡の精度を飛躍的に向上させる新技術

UMOT:AIが長期間の隠れや急な動きでもターゲットを見失わない!多物体追跡の精度を飛躍的に向上させる新技術

テクノロジー画像認識マルチオブジェクトトラッキングコンピュータビジョン物体追跡アソシエーション深層学習

コンピュータビジョンの分野で重要視される多物体追跡(MOT)。しかし、ターゲットの外観が似ていたり、長時間隠れたりする複雑な状況では、追跡が途切れたり、個々のターゲットのIDが入れ替わってしまったりする問題がつきまといます。最近のTransformerベースの手法は、短期間の動きの追跡精度を向上させてきましたが、長期間にわたるターゲットの動きの関連付けや、一度見失ったターゲットを再び特定する能力には限界がありました。

UMOT:長短の関連付けを統合した革新的フレームワーク

この課題を克服するため、本研究では「UMOT」という、長期間と短期間の関連付けを統一的に扱う新しいフレームワークを提案します。UMOTは、隣接するフレーム間でのターゲットの動きの予測と、フレームをまたいでターゲットを追跡し続けるための長期間の関連付けという、一見相反する要求を両立させることを目指します。

短期間の動きを正確に捉える「短期間関連付けモジュール」

UMOTは、まず、事前学習済みの高性能物体検出器「YOLOX」と「MOTR-ConvNeXt」ネットワークを組み合わせ、短期間の関連付けを行います。これにより、ターゲットの隣接フレーム間での動きや外観の変化を詳細にモデル化し、追跡の精度を高めます。特に、ConvNeXtバックボーンの採用は、ターゲット周辺の文脈情報をより広く捉えることを可能にし、オクルージョン(隠れ)が発生した場合でもターゲットの位置推定を助けます。

見失ったターゲットを復元する「長期間関連付けモジュール」

さらに、UMOTは「Track Query Memory Module(TQMM)」と「Historical backtracking Module(Hb)」という独自のモジュールを導入しました。TQMMは、過去のフレームで追跡していたターゲットの情報を記憶し、最新の状態に保ちます。Hbモジュールは、短期間の追跡で見失われたターゲットの検出情報と、TQMMに記憶された過去の情報を照合し、ターゲットが再び現れた際に以前のIDを復元します。これにより、長期間のオクルージョン後も、ターゲットのIDを正確に維持することが可能になります。

実証された高い追跡精度

UMOTの有効性は、実際の映像データを用いた実験で証明されています。高密度でターゲット同士が頻繁に重なり合う「DanceTrack」や、一般的な街中のシーンを想定した「MOT17」といったデータセットでの評価において、UMOTは既存の最先端技術と比較して、特にターゲットのID維持能力(IDF1)や全体的な追跡精度(HOTA)において顕著な改善を示しました。

UMOTが切り拓く、より賢いAI追跡の未来

UMOTの登場は、多物体追跡の分野に大きな進歩をもたらしました。特に、ターゲットが長時間見えなくなったり、動きが複雑になったりする、これまで追跡が困難とされてきたシナリオでの性能向上が期待されます。

複雑な環境下での追跡能力の飛躍的向上

UMOTの核となるのは、短期間の正確な位置推定と、長期間にわたるターゲットの同一性を維持する能力の統合です。これにより、例えば、多数の観客がいるスポーツイベントや、動きの激しいダンスパフォーマンスのような、ターゲットが密集し、外観が類似し、頻繁に隠れるような複雑な状況でも、AIは個々のターゲットを正確に識別し続けることができます。

効率性と精度のトレードオフ

UMOTは高い追跡精度を達成しましたが、その計算コストは無視できません。Transformerベースのアーキテクチャやメモリ機能の追加により、特にリアルタイム性が求められる用途では、既存のCNNベースの手法に比べて処理速度が遅くなる傾向があります。しかし、その精度向上は目覚ましく、多くの応用において十分実用的なレベルに達しています。将来的には、モデルの軽量化や、より効率的なメモリ管理技術の開発によって、さらなる高速化が期待されます。

今後の展望:よりロバストなAIへ

UMOTは、多物体追跡における長年の難問に新たな解決策を提示しました。今後の研究では、モデルのさらなる最適化や、様々な実環境での応用可能性の探求が進められるでしょう。これにより、自動運転、ロボティクス、監視システムなど、多岐にわたる分野で、より賢く、よりロバストなAI追跡技術の実現が期待されます。

画像: AIによる生成