読者です 読者をやめる 読者になる 読者になる

未踏作業日誌――余計なもの作るよ!

未踏の作業日誌的なものを書きましょうということで書くことにしました.余計なことばっかりしています.

180万件のタグ情報を収集できた――量子コンピュータと画像管理

最初に取得した奴はデータ的にあまり数が少なかったのと,自分で書いたライブラリのバグが酷かったので,昨日の夜中にもう一度クローラを作りなおして収集してた.窓を8個ぐらいいっぺんに開いてやってたので,たぶんもう終わってるはず.

一応,戦略的には,(1)最初にDanbooruAPIを叩いてJSONを全部MongoDBに突っ込む.(2)次に,MongoDBに記録されているURLから画像ファイルを片っ端からダウンロードする.(3)最後に,JPG以外の画像ファイルをJPGに変換し,EXIFにタグ付けをする.

 

1番は1回APIのリクエストを送るごとに100件のデータを取得できる.なので,8スレッド同時にやれば3時間もかからずに終わる.3番も大量の窓を開いて処理すればワンチャンあると思う.

一方で,2番がなかなか曲者で,画像ファイルのダウンロードにAPIの制限があるのかどうかわからない.なければ山ほど窓を開いて順次取得していきたいわけだけれども,常識的に考えて制限されていると思う.

今はゴールドアカウントなので,1時間あたり1万件のリクエストを投げられるけれども,このままだと180時間かかる問題がある.プラチナアカウントにアップグレードすれば,APIのリクエストが2倍まで許されるので,実質的に時間は半分になる可能性はある.

また,保存するストレージをAppleのTime Capsuleの2TBを利用する予定.LANケーブルで接続するものの,研究室のLANに繋ぐため,かなりのボトルネックになる心配がある.特に,研究室のLANケーブルはいいものを使っていない気がするので,実質的に1Gbps以上の速さで投げられないと思ったほうがいいかもしれない.特にハブの性能が良くないと思われるので,大量のリクエストを処理しきれるかどうか少し心配でもある.

一応,画像ファイルは平均500KBを想定していて,1秒間に6枚のペースで保存し続けないとAPIの制限ギリギリで運用できない.綺麗に運用し続けられるかどうかが挑戦になるんじゃないかなと思う.

 

画像を取得できてEXIFの埋め込みが終わったら,どうやら後輩がDeep Learningをやりたがってるので,僕もちょっと何かやってみようかなと思う.サジェストぐらいだと簡単にできてしまうので,何か面白いことないかなぁと色々と探してる.

ちなみに,試しに1万件の(涼宮ハルヒ)画像にタグ付けをして,Picasaで読み込んでみたのはいいものの,全く管理にならないことがわかった() まず複数のタグで画像の件数を絞りこまないと,目当ての画像,もしくは真新しい画像等が見つからない.

試しに,2件ほどのタグで検索してみたものの,500件も画像が引っかかってしまい,さらに絞り込む必要があった.そうなると,3件,4件と絞り込みをかける必要があるものの,自分で画像を管理してるわけではないので,どのようなタグがあるのかわからない.

結果的にわかったことは,インターネット上の画像が全て手元にあっても,それらにメタ情報が大量についていたとしても,情報爆発の前には為す術もないってことだった.

 

恐らく,量子テレポーテーションが実用化されれば,サーバのメモリにストアされた内容を,瞬時にクライアントのメモリにロードする,なんてことが可能になる.そうすると,サーバに保存されたデータ=クライアントのデータになる一方で,結果的にそんな大量にデータがあっても個人が管理するには物凄く不便だということになる.

なので,間違いなく量子テレポーテーションが実用化される頃には,レコメンドの精度がもっと良くなっているかもしれないし,画像認識でガーターベルトを正確に検出できるなんてことも可能になるんじゃないかと思う.つまり,大量の情報を前に,ユーザに管理させない,判断させない,という研究の方向性が発達するんじゃないかなと.

レコメンドや画像認識が発達すれば,大量のユーザの情報が蓄積されるため,多くのユーザがどのような絵を欲しがっているのか,どのような構図で描いて欲しいのか,ということを分析してクリエータに提案,うまくヒットすればお金になる,というビジネスが発達するんじゃないかと思う.ユーザは何も判断しなくても,自分の好きな画像を見れるし,クリエータは多くのユーザに喜んでもらいながら生計を立てられる.ハッピー.

全世界から自分の好みの画像が何もしなくても配達されて,その時の気分によって趣向を変えてくれる.地味だけど2020年の未来ってそういう感じのような気がする.コンピュータに何もかも判断してもらう.2030年になると人間の判断がコンピュータの判断になって,コンピュータが人間になってしまうディストピア映画見たい.主演はルトガー・ハウアー.ショットガンを手にコンピュータと戦う.