--.--.-- --:-- | EDIT
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
Category: スポンサー広告
Permanent Link | Comment(-) | Trackback(-) | PageTop↑
2015.12.02 11:54 | EDIT
画像説明文は画像を入力として、その画像を理解して説明する文章を出力するチャレンジです。2014〜2015年に一気に論文数が増えるなど盛り上がってきた技術です。

トップ会議でもセッションが組まれ、Google (Show and Tell: A Neural Image Caption Generator)やStanford大学 (Deep Visual-Semantic Alignments for Generating Image Descriptions)、UC Berkeley (Long-term Recurrent Convolutional Networks for Visual Recognition and Description)などが研究開発を進めていました。

最近では、画像の理解をさらに進めてDense CaptioningやVisual Turing Testに取り組む問題が出てきました。

[Dense Captioning]
画像説明文の生成においては画像や動画を入力するとその画像を説明する文章が出力されましたが、Dense Captioningでは、画像内の領域毎に説明文を出力することが可能になりました。画像の候補領域を抽出する手法(Region Proposal Network@Faster R-CNN)をさらに精度を高めてFCLN (Fully Convolutional Localization Network)としています。

DenseCap: Fully Convolutional Localization Networks for Dense Captioning
Justin Johnson, Andrej Karpathy, Li Fei-Fei


[Visual Turing Test]
一方で、画像に関する質問文を用意し、コンピュータが質問に対する返答を用意するというのがVisual Turing Test (視覚的チューリングテスト)です。会話の自然さから機械か人間であるかどうか判断するチューリングテストの画像認識版です。

Visual Turing test for computer vision systems
Donald Geman, Stuart Geman, Neil Hallonquist, Laurent Younes


Stacked Attention Networks for Image Question Answering
Zichao Yang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Smola


Ask Your Neurons: A Neural-based Approach to Answering Questions about Images
Mateusz Malinowski, Marcus Rohrbach, Mario Fritz

https://www.d2.mpi-inf.mpg.de/sites/default/files/iccv15-neural_qa.pdf

いずれもディープラーニングが発展してきたからこそ出てきた問題ですが、さらなる展開に期待です。
スポンサーサイト
コメント:
コメント:を投稿する

トラックバック:
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。