前回、TensorFlow始めましたということで TensorFlowのドキュメントを読みながら TFの実行環境整備をしました. 今回はその続きで, MNIST For ML Beginnersを 読みながら実際に実行してみたいと思います.
MNISTとは
MNISTとはプログラミングにおけるHello worldとも呼ばれていて、機械学習を学ぶ上で初心者がまず学ぶコードのために使うデータだそうです.
具体的にはMNISTとは0から9の数値の手書き画像データと正解データ(label)がセットになったデータです.
元データはアメリカの標準技術研究所が提供しています.
学習用データ数は60000件あり、その中にテスト用のデータは5000件あります。もちろん学習用データの一部を使って学習、テストを行っても構いません。
ここではこれを使って機械学習のアルゴリズムで手書き文字データから正解を導くような機械学習のアルゴリズムをTensorFlowでどうやって書くのかを学ぶ初めの一歩を踏み出します.
プログラムと学習データ
mnist_softmax.pyというコードがtensorflowのページにあがっていますので、それを
ダウンロードしてセーブします.
学習データ:
- 画像データ (mnist.train.xs):28x28 pixelの各ピクセル8bitデータ
- 正解データ(label data) (mnist.train.ys): 10成分のベクトルで正解の数値の成分が1になっている
ここでTFのドキュメントではsoftmaxについて解説があります.
簡単に言ってしまえばsoftmaxは最終出力を正解の確率に変換すると思っておけばいいと思います.
softmaxへの入力は10種類の正解数値の形が持つべき特徴が抽出された形ですので、それを集めてどれだけ正解に近いかに変換し最終的な確率へと変換するのがsoftmaxです.
学習の仕組み:
いろいろな入力データに対して、ネットワークの重みWとバイアスbをsoftmaxで得た正解の確率と実際の正解との差を最小化するようにWおよびbを少しずつ変化させて差を最小化します.
この過程を学習といいます.
ちなみに予測と正解の差を大きさを表す指標をcross-entropyと呼ばれています.
今回の学習の手法はディープラーニングではなくsoftmaxを使用したロジスティック回帰と呼ばれるものです.
回帰分析の実行
上で簡単に解説したMNISTデータを学習するためのロジスティック回帰を実際にTFを使って書いていきます. といっても、コードはすでにnist_softmax.pyに用意されていますので、これを読んで でいけばいいわけです. 今回は練習のためにipythonで1行ずつ入力しながら確認していきます. まずは、データの読み込みです.
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
one_hot=TrueというのはデータがすでにMNIST_data/にある場合には新たに読み込まないという意味です.
次にtensorflowをimportし入力データ用の配列を用意する. 配列の要素はfloat32で行数は指定せず、列は画像の解像度である28x28=784を指定.
import tensorflow as tf
x = tf.placeholder(tf.float32, [None, 784])
さらに、画像の要素に掛ける重みとバイアスを入れるたもの配列を用意.
W = tf.Variable(tf.zeros([784, 10]))
b = tf.Variable(tf.zeros([10]))
最終的な出力結果を定義します.これは先ほど説明したsoftmax関数を通すことで確率に変換されています.
y = tf.nn.softmax(tf.matmul(x, W) + b)
正解を格納する配列を用意する.
y_ = tf.placeholder(tf.float32, [None, 10])
softmax関数の出力結果と正解データがどれだけずれているかの指標であるcross_entropyを定義します.
cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y), reduction_indices=[1]))
いよいよ学習させるためのコードです.
このチュートリアルではGradientDecentOptimizerという勾配降下法という方法を使ってcross_entropyの極小を求めます.小さなステップで繰り返し計算して徐々に極小に近づけていくのですが、そのステップを決めるのが以下の記述になります.
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
TFの初期化と変数の初期化
sess = tf.InteractiveSession()
tf.global_variables_initializer().run()
入力データ、正解データを指定して学習を実行する.
for i in range(1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
sess.run(train_step, feed_dict={x: batch_xs, y_: batch_ys})
next_batch(100)の意味は、100このデータを使用して学習するという意味で、range(1000)というのは、それを1000回やりますということです.
学習結果の制度の確認
学習結果と正解の結果が一致したかしないかを判定した結果を格納.
correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))
学習結果の予想yと正解y_を比較して正しければ1間違えていれば0を配列にしています.
correct_predictionは結果が正しければ1, 間違いなら0の値が入った配列になっていますが、それを正解の確率に変換すし結果をaccuracyという変数に代入します.
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
テストデータを入力して学習しで決定したw,bを使用して画像の数値を予想し、その結果がどれくらい正しかったかの結果を表示します.
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))
私の環境では、0.9195と表示されました.
約92%なので結構正解率が高いように思いますが, もっといいモデルを使うと99.7%まで行っているそうです.
今のモデルをちょっと変えるだけでも97%程度なら到達できるそうです.
以上で, 初心者向けのMNISTは終了です.