CNTKをC#で、ふたたび2019年12月02日 18:10

CNTKを用い、機械学習のうち、CNNを学んでみようとして、データを用意しては、学習しない、を繰り返し、途中、サイクリングや読書に逃避しつつ、ずいぶんと時間を費やす。結局、敷かれた道を歩むのが最短だったか、と今さら気づく。

漢字要素ラベリング

最初は、木や土、といった漢字の構成要素を識別できないか、と試みる。ラベリングしたデータは4000ほど。さっぱり学習が進まない。

ガルパンキャララベリング

漢字の構成要素は、画面のあちこちに現れる。これは、場所を特定してから識別しなければいけないか、と、もう少し簡単なデータを探す。手元に、Webで公開されている、もっとらぶらぶ作戦です、のPDFがあったので、顔の部分を切り出して、ラベリング。1500ほど。こちらも、学習が進まない状況は変わらず。

MNISTデータ変換

うまくいかないのは、データの不備か、学習プログラムのせいか、アルゴリズムを追えばよいわけではないので、切り分けが難しい。基本に戻って、MSのTutorialにある手書き数字の識別の例題を実装。ところが、ここでも学習は進まず。

MNIST Pythonサンプル

C#のAPIの方は、巷の情報も少ない。さらに戻って、Pythonの例題を実装。Visual StudioにPythonの環境も実装されたので、あわせて試す。文法解析などはしてくれるが、C#ほど親切ではない。データを変換する処理を動かして、出力ファイルを比較して、問題の所在が判明。自前のデータ生成処理に不具合があった。

C# MLP

処理を修正して、データを出力し直し、C#の例題にあるコンソールアプリを動かす。MLP(Multi Layer Perceptron)の方は、誤識別率5%程度を達成。

C# CNN

CNN(Convolutional Neural Network)の方は、誤識別率2%程度と、もう少し優秀。

画像識別学習アプリ

自前の学習プログラムで改めて確認。同じように学習が進むことを確認。

漢字の構成要素やらぶらぶ作戦の顔データで試してみると、誤識別率は、実用に耐えるほどではないが、改善する傾向を見ることができた(50%を切るくらいまで)。この2例では、MLPの方が、学習の進みが早い。手書き文字の例題の傾向とあわせてみると、MLPでデータの有効性(学習性向)を把握して、CNNに進む方がよさそう。

総括すると、CNTKを学ぶ道筋は、素直にPythonの環境で、既知のデータを用いて、データと処理ロジックを確認した上、C#のアプリ実装に進み、自前のデータに進む、という段取りが確実。そうすれば、学習アルゴリズムの選択や、Neural Networkの試行錯誤に集中できる。今回は、今さら新言語をと、Pythonを迂回しようとしたのが誤り。

新調したGPU。MLPでHidden Layerが200層、CNNで最大フィルタ数が16、画像は64x64ピクセル。これで、GPUのメモリ使用量が1.5GB弱(ブラウザが使う分を含む)。以前の0.5GBのQuadroでは不足だったはず。今度は、4GBあるので、もう少し試せそう。

問題はこの先。十分な学習に必要なデータ数は、かなり多め。個人の関心の向く中で用意するには、どうしたものか。大きな組織に属するもの以外には、お呼びではないのか。

興味の向くようなデータを公開してくれる組織が増えないと、例題のその先に進む学習者は増えない。逆にゲームやコンテストのノリで募れば、面白くもなりそう。くずし字のプロジェクトは、そのいい例かも。

上野東照宮、秋葉原アトレ、神田クリスティ2019年12月06日 13:18

上野から、東京駅に抜ける。

上野東照宮

動物園のそばを北側に抜けると上野東照宮。お膝元を忘れていた。

五重塔

参道から五重塔。紅葉、黄葉を写真に収める人が多数。

金色殿

金色殿。

伊豆栄

来た道を戻ると脇に伊豆栄。雰囲気のある建物。

ツワブキ

動物園脇には咲き誇るつわぶき。

アトレ秋葉原

PCショップで買い物の後、秋葉原のアトレ。まちカドまぞくとコラボ中。2階にグッズショップ。

クリスティ

万世橋を越えて神田。駅前の郵便局を目印に、クリスティ。早川書房の一階。

コート

店内は、ホームズフェアの余韻を残す。許可をいただいて壁の展示を何枚か。

ポートレイト

ポートレートは、ジェレミー・ブレット。

パンケーキ

夕食時間帯の少し前。カレーといきたいところ、この後の予定を考えてパンケーキ。ホームズに囲まれて、ホームズを読む。しばらくすると、関係者らしきお客さんが裏口から入ってきて、打ち合わせのようす。編集者や翻訳者になった気分を少々。

シャミ子

秋葉原アトレで買ったピンバッジは、シャミ子。ポンコツとのご託宣。

東京駅

東京駅。いつもながら見事な夜景。植え込みにはここにもつわぶき。