--.--.-- --:-- | EDIT
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
Category: スポンサー広告
Permanent Link | Comment(-) | Trackback(-) | PageTop↑
2016.01.05 10:27 | EDIT
2015年12月21日に開催されたPRMUにて,DeepSurveyを発表しました.
昨年のcvpaper.challengeで読んだCVPRの論文を入力として論文化まで目指す仕組みです.



特徴は下記の通りです.

入力:読んだ論文を入力(知識)
1st アイディア:各自でアイディアを考案(知識をアイディアへ)
1st 議論:グループで議論(アイディアの集約)
2nd アイディア:集約した内容を基にさらに考案
2nd 議論:さらにアイディアの洗練化
1st 実装:ピックアップとハッカソン
2nd 実装:本格的な実装と実験
出力:論文

一般的なCNN (Convolutional Neural Networks) [1]と比較して,
「アイディア:畳み込み層」 「議論:プーリング」 「実装:全結合層」
と見ていただければわかりやすいです.
プーリング(議論)では,複数のアイディアをまとめたり良いアイディアをそのまま次の層の入力に与えているので,MaxプーリングやAverageプーリングの性質を同時に保有するLpプーリングに近いです.アイディア考案と議論を繰り返し,煮詰まってきたら実装に入るという戦略です.
現在の層の数の数え方は畳み込み層と全結合層なので,アーキテクチャとしては4層構成です.

そして,一番の特徴は「自らがニューロンの一部になる」という手法です.この枠組みにおいては,バーチャルではなくリアルな空間でグループ全体がひとつのニューラルネットのアーキテクチャとして動くことで最終的には論文を書くことができます.グループで考え,手を動かし,論文を書くことで成長してさらにネットワーク自体が成長するという性質も持っています.

今年度は実装や論文化の時間が少なくなってしまいましたが,次はより洗練させた論文の執筆や新規問題設定の提案まで踏み込めたらいいですね.
最近ではアーキテクチャの構造もよりディープになりつつある(VGGNet[2]: 16/19層,ResNet[3]: 50/101/152層)ので,より多くのアイディア考案,より多くの議論を重ねて,さらに洗練されたアイディア・問題設定・論文を出力できたらと思います.

現在,アーキテクチャについても議論を重ねている状況です.
次回作にもご期待ください.

[1] Y. LeCun, L. Bottou, Y. Bengio and P. Haffner: Gradient-Based Learning Applied to Document Recognition, Proceedings of the IEEE, 86(11):2278-2324, November 1998.
http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf

[2] K. Simonyan, A. Zisserman: Very Deep Convolutional Networks for Large-Scale Image Recognition, ICLR, 2015.
http://arxiv.org/pdf/1409.1556.pdf
http://www.robots.ox.ac.uk/~vgg/research/very_deep/

[3] K. He, X. Zhang, S. Ren, J. Sun: Deep Residual Learning for Image Recognition, arXiv technical report, 2015.
http://arxiv.org/pdf/1512.03385v1.pdf
http://research.microsoft.com/en-us/um/people/kahe/ilsvrc15/ilsvrc2015_deep_residual_learning_kaiminghe.pdf
スポンサーサイト
2015.12.14 08:49 | EDIT
2015年12月11日にTensorFlowによる画像認識Deep Learning(特にConvolutional Neural Networks, CNN)アーキテクチャ構築とその簡単なPythonによるサンプルコードを公開しました.

TensorFlowチュートリアルのアルゴリズムを参考にしておりますが,入力やアーキテクチャなど,できる限り簡易的な表現を加えております.

SlideShare資料
「TensorFlowによるCNNアーキテクチャ構築」


Pythonによるサンプルコード
tar.gz版
http://www.hirokatsukataoka.net/temp/TensorFlow/my_cnn.tar.gz
zip版
http://www.hirokatsukataoka.net/temp/TensorFlow/my_cnn.zip

2015.12.02 11:54 | EDIT
画像説明文は画像を入力として、その画像を理解して説明する文章を出力するチャレンジです。2014〜2015年に一気に論文数が増えるなど盛り上がってきた技術です。

トップ会議でもセッションが組まれ、Google (Show and Tell: A Neural Image Caption Generator)やStanford大学 (Deep Visual-Semantic Alignments for Generating Image Descriptions)、UC Berkeley (Long-term Recurrent Convolutional Networks for Visual Recognition and Description)などが研究開発を進めていました。

最近では、画像の理解をさらに進めてDense CaptioningやVisual Turing Testに取り組む問題が出てきました。

[Dense Captioning]
画像説明文の生成においては画像や動画を入力するとその画像を説明する文章が出力されましたが、Dense Captioningでは、画像内の領域毎に説明文を出力することが可能になりました。画像の候補領域を抽出する手法(Region Proposal Network@Faster R-CNN)をさらに精度を高めてFCLN (Fully Convolutional Localization Network)としています。

DenseCap: Fully Convolutional Localization Networks for Dense Captioning
Justin Johnson, Andrej Karpathy, Li Fei-Fei


[Visual Turing Test]
一方で、画像に関する質問文を用意し、コンピュータが質問に対する返答を用意するというのがVisual Turing Test (視覚的チューリングテスト)です。会話の自然さから機械か人間であるかどうか判断するチューリングテストの画像認識版です。

Visual Turing test for computer vision systems
Donald Geman, Stuart Geman, Neil Hallonquist, Laurent Younes


Stacked Attention Networks for Image Question Answering
Zichao Yang, Xiaodong He, Jianfeng Gao, Li Deng, Alex Smola


Ask Your Neurons: A Neural-based Approach to Answering Questions about Images
Mateusz Malinowski, Marcus Rohrbach, Mario Fritz

https://www.d2.mpi-inf.mpg.de/sites/default/files/iccv15-neural_qa.pdf

いずれもディープラーニングが発展してきたからこそ出てきた問題ですが、さらなる展開に期待です。
2015.09.01 15:40 | EDIT
cvpaper.challengeの最初のチャレンジであるCVPR2015の論文602本を完全読破しました。

論文を一気に読んだことでメンバーの知識量や研究への意欲向上のみならず、英語論文を読むことへの抵抗感がなくなったように感じます。最先端の論文を読める集団にしたい、体系的に知識を収集したい、という目標は達成できたのではないでしょうか。共著のメンバーを鍛えるためでもあったのですが、気付けばその頑張りに感化されて自分も必死で論文を読んでいました。

当初は今年終わるくらいまでに読み切れればいいと思っていたのですが、途中メンバーからも提案をもらい締め切りを設定し、一気に読み進めることができました。7月と8月に読んだ論文量は450本を越えていたと記憶しています。2015/5/7-2015/8/25の110日間、5.47本/日のペースで読み続けてきたことになります。

ここまでで「①荒く概要や論文・動画などのリンクを書き出す」が終わったので、「②研究内容によるクラス分類により分野の動向を把握③ドキュメントにまとめて共有」と、次はまとめる作業へと移行します。

CVPRがコンピュータビジョン系のトップ会議であることから、この作業をすることにより「コンピュータビジョンの今」を映しだすことができればいいですね。

下は、SlideShareにアップロードした全論文の要約です。

・cvpaper.challengeについて


・2015年5月分


・2015年6月分


・2015年7月分(1/2)


・2015年7月分(2/2)


・2015年8月分(1/5)


・2015年8月分(2/5)


・2015年8月分(3/5)


・2015年8月分(4/5)


・2015年8月分(5/5)
2015.05.17 13:00 | EDIT
東京電機大学中村明生研究室(*1)と合同でCVPR2015(*2)の論文を「読破」するcvpaper.challenge(Twitter)に取り組んでいます。

一流の会議やジャーナルへコンスタントに論文を通す研究者の中には、トップ会議の論文を全て読み切る人もいるということを耳にして、自分でも挑戦してみることにしました。

しかし、今までのペースとCVPR2015の論文数が602(*3)であることから鑑みるに、読破に一年ほど要してしまい読み終わる頃には次の年の会議まで終わっている計算になります。

そこで、共同研究をしている東京電機大学中村明生研究室の学生さんと合同プロジェクトとしてcvpaper.challengeを立ち上げ、現在CVPR2015の論文を読みすすめております。
広い分野につき、最低でもアブストラクトを読むこととしますので、最低でも602件の概要を読んだ集団になると言えます。

このプロジェクトの最終目標は、体系的にまとめられた資料を残すことですが、段階的に①荒く概要や論文・動画などのリンクを書き出す②研究内容によるクラス分類により分野の動向を把握③ドキュメントにまとめて共有 と行っていきます。

局所的ではなく大域的に分野を把握し、どこにどうやって攻めれば良いかというセンスを磨くことができるため、これからの戦略を決める上でも重要な取り組みになると確信しております。他分野におかれては、ある国際会議の全論文を一日で紹介するという取り組みも存在します(e.g. CHI20xx勉強会)が、自分達で読み切るというところにフォーカスしていきます。

せっかくの取り組みなので、SNSなどを通して調べたリンクやまとめ資料を共有できればと考えております。
現在稼働しているのはTwitterですが、そのうちSlideshareなどでも資料共有をできればと思います。

Twitter@CVPaperChalleng

*1: 東京電機大学中村研究室

*2: CVPR2015

*3: CVPR2015 welcome message
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。