--.--.-- --:-- | EDIT
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
Category: スポンサー広告
Permanent Link | Comment(-) | Trackback(-) | PageTop↑
2016.01.05 10:27 | EDIT
2015年12月21日に開催されたPRMUにて,DeepSurveyを発表しました.
昨年のcvpaper.challengeで読んだCVPRの論文を入力として論文化まで目指す仕組みです.



特徴は下記の通りです.

入力:読んだ論文を入力(知識)
1st アイディア:各自でアイディアを考案(知識をアイディアへ)
1st 議論:グループで議論(アイディアの集約)
2nd アイディア:集約した内容を基にさらに考案
2nd 議論:さらにアイディアの洗練化
1st 実装:ピックアップとハッカソン
2nd 実装:本格的な実装と実験
出力:論文

一般的なCNN (Convolutional Neural Networks) [1]と比較して,
「アイディア:畳み込み層」 「議論:プーリング」 「実装:全結合層」
と見ていただければわかりやすいです.
プーリング(議論)では,複数のアイディアをまとめたり良いアイディアをそのまま次の層の入力に与えているので,MaxプーリングやAverageプーリングの性質を同時に保有するLpプーリングに近いです.アイディア考案と議論を繰り返し,煮詰まってきたら実装に入るという戦略です.
現在の層の数の数え方は畳み込み層と全結合層なので,アーキテクチャとしては4層構成です.

そして,一番の特徴は「自らがニューロンの一部になる」という手法です.この枠組みにおいては,バーチャルではなくリアルな空間でグループ全体がひとつのニューラルネットのアーキテクチャとして動くことで最終的には論文を書くことができます.グループで考え,手を動かし,論文を書くことで成長してさらにネットワーク自体が成長するという性質も持っています.

今年度は実装や論文化の時間が少なくなってしまいましたが,次はより洗練させた論文の執筆や新規問題設定の提案まで踏み込めたらいいですね.
最近ではアーキテクチャの構造もよりディープになりつつある(VGGNet[2]: 16/19層,ResNet[3]: 50/101/152層)ので,より多くのアイディア考案,より多くの議論を重ねて,さらに洗練されたアイディア・問題設定・論文を出力できたらと思います.

現在,アーキテクチャについても議論を重ねている状況です.
次回作にもご期待ください.

[1] Y. LeCun, L. Bottou, Y. Bengio and P. Haffner: Gradient-Based Learning Applied to Document Recognition, Proceedings of the IEEE, 86(11):2278-2324, November 1998.
http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf

[2] K. Simonyan, A. Zisserman: Very Deep Convolutional Networks for Large-Scale Image Recognition, ICLR, 2015.
http://arxiv.org/pdf/1409.1556.pdf
http://www.robots.ox.ac.uk/~vgg/research/very_deep/

[3] K. He, X. Zhang, S. Ren, J. Sun: Deep Residual Learning for Image Recognition, arXiv technical report, 2015.
http://arxiv.org/pdf/1512.03385v1.pdf
http://research.microsoft.com/en-us/um/people/kahe/ilsvrc15/ilsvrc2015_deep_residual_learning_kaiminghe.pdf
スポンサーサイト
2015.12.02 11:54 | EDIT
画像説明文は画像を入力として、その画像を理解して説明する文章を出力するチャレンジです。2014〜2015年に一気に論文数が増えるなど盛り上がってきた技術です。

トップ会議でもセッションが組まれ、Google (Show and Tell: A Neural Image Caption Generator)やStanford大学 (Deep Visual-Semantic Alignments for Generating Image Descriptions)、UC Berkeley (Long-term Recurrent Convolutional Networks for Visual Recognition and Description)などが研究開発を進めていました。

最近では、画像の理解をさらに進めてDense CaptioningやVisual Turing Testに取り組む問題が出てきました。

[Dense Captioning]
画像説明文の生成においては画像や動画を入力するとその画像を説明する文章が出力されましたが、Dense Captioningでは、画像内の領域毎に説明文を出力することが可能になりました。画像の候補領域を抽出する手法(Region Proposal Network@Faster R-CNN)をさらに精度を高めてFCLN (Fully Convolutional Localization Network)としています。

DenseCap: Fully Convolutional Localization Networks for Dense Captioning
Justin Johnson, Andrej Karpathy, Li Fei-Fei


[Visual Turing Test]
一方で、画像に関する質問文を用意し、コンピュータが質問に対する返答を用意するというのがVisual Turing Test (視覚的チューリングテスト)です。会話の自然さから機械か人間であるかどうか判断するチューリングテストの画像認識版です。

Visual Turing test for computer vision systems
Donald Geman, Stuart Geman, Neil Hallonquist, Laurent Younes


Stacked Attention Networks for Image Question Answering
Zichao Yang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Smola


Ask Your Neurons: A Neural-based Approach to Answering Questions about Images
Mateusz Malinowski, Marcus Rohrbach, Mario Fritz

https://www.d2.mpi-inf.mpg.de/sites/default/files/iccv15-neural_qa.pdf

いずれもディープラーニングが発展してきたからこそ出てきた問題ですが、さらなる展開に期待です。
2015.05.17 13:00 | EDIT
東京電機大学中村明生研究室(*1)と合同でCVPR2015(*2)の論文を「読破」するcvpaper.challenge(Twitter)に取り組んでいます。

一流の会議やジャーナルへコンスタントに論文を通す研究者の中には、トップ会議の論文を全て読み切る人もいるということを耳にして、自分でも挑戦してみることにしました。

しかし、今までのペースとCVPR2015の論文数が602(*3)であることから鑑みるに、読破に一年ほど要してしまい読み終わる頃には次の年の会議まで終わっている計算になります。

そこで、共同研究をしている東京電機大学中村明生研究室の学生さんと合同プロジェクトとしてcvpaper.challengeを立ち上げ、現在CVPR2015の論文を読みすすめております。
広い分野につき、最低でもアブストラクトを読むこととしますので、最低でも602件の概要を読んだ集団になると言えます。

このプロジェクトの最終目標は、体系的にまとめられた資料を残すことですが、段階的に①荒く概要や論文・動画などのリンクを書き出す②研究内容によるクラス分類により分野の動向を把握③ドキュメントにまとめて共有 と行っていきます。

局所的ではなく大域的に分野を把握し、どこにどうやって攻めれば良いかというセンスを磨くことができるため、これからの戦略を決める上でも重要な取り組みになると確信しております。他分野におかれては、ある国際会議の全論文を一日で紹介するという取り組みも存在します(e.g. CHI20xx勉強会)が、自分達で読み切るというところにフォーカスしていきます。

せっかくの取り組みなので、SNSなどを通して調べたリンクやまとめ資料を共有できればと考えております。
現在稼働しているのはTwitterですが、そのうちSlideshareなどでも資料共有をできればと思います。

Twitter@CVPaperChalleng

*1: 東京電機大学中村研究室

*2: CVPR2015

*3: CVPR2015 welcome message
2015.02.11 13:48 | EDIT
表題のチュートリアルを公開しました. => Slideshare: 【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
自分のSlideshareページから閲覧・ダウンロードできるようにしています.

ミュンヘン工科大学(TUM)に訪問研究員として滞在した2013年7月以来,実装・改良している手法です.
考案者である、INRIAのHeng WangのページからIJCV2013とICCV2013のバージョンがダウンロードできるようになっています.

INRIAのコンピュータビジョンを扱うグループでは一連の流れとして特徴点抽出や特徴記述に関する手法を研究していて,その蓄積により結実したせいかと考えられます.
具体的にはHOG[Dalal, 2005],MBH[Dalal, 2006],HOF[Laptev, 2008]の特徴記述は全てINRIAから出てきた手法ですし,Dense TrajectoriesもIvan Laptevが2003年に考案したSTIP (Space-time interest points)をベースにして生み出された方法です.

時系列の重要な部分だけを取得するSTIPに対して,できるだけ密に特徴を取得し身体全体からできる限り多くの特徴量を取得するDense Trajectories.多くの場面においてDense Trajectoriesが精度が高くなるとのことです.しかし,やはりdense optical flowを画像全体から取得することはノイズも多く含んでしまうということで考えられたのがICCV2013のImproved Dense Trajectoriesです.SURF+Homographyによりカメラモーションを推定して余分なフローを除去しています.

資料では,ちゃっかり自分の研究も紹介しています.
H. Kataoka, K. Hashimoto, K. Iwata, Y. Satoh, N. Navab, S. Ilic, Y. Aoki, "Extended Co-occurrence HOG with Dense Trajectories for Fine-grained Activity Recognition", in ACCV, 2014.

Dense Trajectoriesはコードもダウンロードできてすぐに使えるので是非試してみてください!
2014.11.26 12:55 | EDIT
A. Gilbert, et al. "Data Mining for Action Recognition", in ACCV2014.

コンピュータビジョンとデータマイニングの相性が良い,という一例を示します.もともと機械学習手法を共有している場面も多々あり,当然といえば当然なのですが特に特徴空間のマイニングに適用すると有効な特徴を選択可能な上,必要な部分集合だけを抜き出すことができるので高速化にも繋がります.

Andrew Gilbertは数年に渡り特徴空間内のマイニングを研究してきた人で,今回もデータマイニングの頻出アルゴリズムであるAprioriアルゴリズムを適用して特徴空間内からノイズを省き,識別に有効な次元のみを抜き出すことに成功しています.特徴量を評価するときに使用されるのがSupportとLiftという指標で,その特徴が空間内でどれくらいの頻度を持つか,さらにその特徴が本当に信頼できるかといった点で見ています.

マイニングする特徴空間はDense Trajectories [H. Wang et al., CVPR2011/IJCV2013]を適用して,100万の特徴ベクトルの空間内から数百の特徴次元に落とし込んでいます.実験では,同じ行動においてはほぼ類似の位置から特徴を取得していることが判明しました.例として,握手する際には腕の先端や歩いているときの足の部分などといった感じで類似特徴やその共起性が保たれているといえます.

Aprioriアルゴリズムではデータマイニングの分野ではかなりベーシックな手法でありますが,それを応用してコンピュータビジョンの分野で恩恵を受けるところに利点があります.実験で見せている結果は人が見て納得する特徴を示していますが,その裏には言語化することが難しいけれども,識別に有効な特徴というのはあると思います.もちろん場面により有効な特徴は変わりますが,人が選別するだけでなく,データから導き出された特徴を使う方が良い場合も多数あるでしょう.
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。