複数領域に対するキャプション生成を用いた目の不自由なユーザ向けの画像理解支援

sigam発表スライド1201rev-1

Information

論文タイトル:複数領域に対するキャプション生成を用いた目の不自由なユーザ向けの画像理解支援

著者:Xu Yiling,Shan Junjie,安尾萌,西原陽子

概要:本研究は,目の不自由なユーザが複雑な画像を深く理解するための支援システムを提案する.従来の単一の総括的キャプション生成では,複雑な画像における各部分への理解が困難な場合がある.そこで本研究では,入力画像を複数の領域に分割し,領域ごとにキャプションを生成する手法を提案する.「部分領域記述法」と「重ね領域最大法」の二つの手法を実装し,評価実験を行った.評価実験の結果,後者は複雑な構図を持つ画像において,10カテゴリ中8つで高いスコアを獲得し,主観評価でも優位性が示された.一方で,単一被写体の画像では包括的記述が有効な場合もあり,最適な手法が内容に依存することが示された.

書誌情報:第35回インタラクティブアクセスと可視化マイニング研究会,pp.57-64

発表日:2025年12月2日