TensorFlowで歴代「クラウン」の画像を判別させてみた
先日、駐車場に止まっている旧車を見かけたんですが、かつて自称旧車マニアだった私がその車の名前を思い出せなかったという屈辱的な出来事がありまして。
後で調べたらその車4代目クラウンだったんですよね。
確かに、クラウン史上最大の失敗作といわれた4代目。あまりクラウンらしくない外観で、仕方のないところかもしれませんが、以前ならさらっと車名が出てきてたはずの車。旧車道を極めていた(つもりの)私としては不覚。
ということで、クラウンの画像データを投げたらそれが何代目なのかを判別するマシーンを作ってみようと考えたわけで。
発想は単純なんですが、やるとなると結構大変な話。なにせ、歴代クラウンの判別用学習データなんてネット上にあるわけないですから、機械学習データは自分で作るしかありません。
最近人工知能ライブラリ”TensorFlow”をRaspberry Pi 3に入れていろいろなものを画像認識させてみましたが、あれはすでにある学習データを使っただけ。
今回のテーマは「Tensorflowを使い独自の学習データを構築し、画像認識をさせる」というところまで取り組みます。
といっても、現在クラウンは14代目。
まだ機械学習そのものをやったことがないので、歴代全部やったらえらいことになりそう。
手始めに私が先日分からなかった4代目と最新の14代目の2種類だけで作ることにしました。うまくいったら、どんどん追加していくことにします。
■ プログラム準備編
機械学習というのはどえらいCPUパワーを食うもののようなので、さすがにRaspberry Piでは荷が重すぎです。
ということで、ここではWindows 10 Anniversary Updateで手に入れたBash on Windows上で実行します。
Bash on WindowsにTensorFlowを入れて動かすやり方は先日の記事を参照。
Windows 10のBash on WindowsでTensorFlow動かしてみた: EeePCの軌跡
OpenCVも使うため、さらに以下の二つをapt-getでインストール。
sudo apt-get install python-opencv libopencv-dev
今回から、コマンドやコードはこんな感じに表示させてみることにしました。
さて、TensorFlowを使った機械学習用、判別用プログラムは以下の記事を参考に作成。
TensorFlowでアニメゆるゆりの制作会社を識別する - kivantium活動日記
いろいろなサイトを見ましたが、ここの記事とコードの構成が非常にわかりやすいです。おかげで独自データセットを用いた機械学習にこぎつけることができました。感謝。
で、作ったのは以下の二つのコード。
・ cnn_train.py ・・・ 機械学習用コード
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import sys
import cv2
import numpy as np
import tensorflow as tf
import tensorflow.python.platform
NUM_CLASSES = 3
IMAGE_SIZE = 28
IMAGE_PIXELS = IMAGE_SIZE*IMAGE_SIZE*3
flags = tf.app.flags
FLAGS = flags.FLAGS
flags.DEFINE_string('train', 'train.txt', 'File name of train data')
flags.DEFINE_string('test', 'test.txt', 'File name of train data')
flags.DEFINE_string('train_dir', '/mnt/c/linux/data', 'Directory to put the training data.')
flags.DEFINE_integer('max_steps', 200, 'Number of steps to run trainer.')
flags.DEFINE_integer('batch_size', 10, 'Batch size'
'Must divide evenly into the dataset sizes.')
flags.DEFINE_float('learning_rate', 1e-4, 'Initial learning rate.')
def inference(images_placeholder, keep_prob):
""" 予測モデルを作成する関数
引数:
images_placeholder: 画像のplaceholder
keep_prob: dropout率のplace_holder
返り値:
y_conv: 各クラスの確率(のようなもの)
"""
# 重みを標準偏差0.1の正規分布で初期化
def weight_variable(shape):
initial = tf.truncated_normal(shape, stddev=0.1)
return tf.Variable(initial)
# バイアスを標準偏差0.1の正規分布で初期化
def bias_variable(shape):
initial = tf.constant(0.1, shape=shape)
return tf.Variable(initial)
# 畳み込み層の作成
def conv2d(x, W):
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')
# プーリング層の作成
def max_pool_2x2(x):
return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
strides=[1, 2, 2, 1], padding='SAME')
# 入力を28x28x3に変形
x_image = tf.reshape(images_placeholder, [-1, 28, 28, 3])
# 畳み込み層1の作成
with tf.name_scope('conv1') as scope:
W_conv1 = weight_variable([5, 5, 3, 32])
b_conv1 = bias_variable([32])
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
# プーリング層1の作成
with tf.name_scope('pool1') as scope:
h_pool1 = max_pool_2x2(h_conv1)
# 畳み込み層2の作成
with tf.name_scope('conv2') as scope:
W_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
# プーリング層2の作成
with tf.name_scope('pool2') as scope:
h_pool2 = max_pool_2x2(h_conv2)
# 全結合層1の作成
with tf.name_scope('fc1') as scope:
W_fc1 = weight_variable([7*7*64, 1024])
b_fc1 = bias_variable([1024])
h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)
# dropoutの設定
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
# 全結合層2の作成
with tf.name_scope('fc2') as scope:
W_fc2 = weight_variable([1024, NUM_CLASSES])
b_fc2 = bias_variable([NUM_CLASSES])
# ソフトマックス関数による正規化
with tf.name_scope('softmax') as scope:
y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)
# 各ラベルの確率のようなものを返す
return y_conv
def loss(logits, labels):
""" lossを計算する関数
引数:
logits: ロジットのtensor, float - [batch_size, NUM_CLASSES]
labels: ラベルのtensor, int32 - [batch_size, NUM_CLASSES]
返り値:
cross_entropy: 交差エントロピーのtensor, float
"""
# 交差エントロピーの計算
cross_entropy = -tf.reduce_sum(labels*tf.log(logits))
# TensorBoardで表示するよう指定
tf.scalar_summary("cross_entropy", cross_entropy)
return cross_entropy
def training(loss, learning_rate):
""" 訓練のOpを定義する関数
引数:
loss: 損失のtensor, loss()の結果
learning_rate: 学習係数
返り値:
train_step: 訓練のOp
"""
train_step = tf.train.AdamOptimizer(learning_rate).minimize(loss)
return train_step
def accuracy(logits, labels):
""" 正解率(accuracy)を計算する関数
引数:
logits: inference()の結果
labels: ラベルのtensor, int32 - [batch_size, NUM_CLASSES]
返り値:
accuracy: 正解率(float)
"""
correct_prediction = tf.equal(tf.argmax(logits, 1), tf.argmax(labels, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
tf.scalar_summary("accuracy", accuracy)
return accuracy
if __name__ == '__main__':
# ファイルを開く
f = open(FLAGS.train, 'r')
# データを入れる配列
train_image = []
train_label = []
for line in f:
# 改行を除いてスペース区切りにする
line = line.rstrip()
l = line.split()
# データを読み込んで28x28に縮小
img = cv2.imread(l[0])
img = cv2.resize(img, (28, 28))
# 一列にした後、0-1のfloat値にする
train_image.append(img.flatten().astype(np.float32)/255.0)
# ラベルを1-of-k方式で用意する
tmp = np.zeros(NUM_CLASSES)
tmp[int(l[1])] = 1
train_label.append(tmp)
# numpy形式に変換
train_image = np.asarray(train_image)
train_label = np.asarray(train_label)
f.close()
f = open(FLAGS.test, 'r')
test_image = []
test_label = []
for line in f:
line = line.rstrip()
l = line.split()
img = cv2.imread(l[0])
img = cv2.resize(img, (28, 28))
test_image.append(img.flatten().astype(np.float32)/255.0)
tmp = np.zeros(NUM_CLASSES)
tmp[int(l[1])] = 1
test_label.append(tmp)
test_image = np.asarray(test_image)
test_label = np.asarray(test_label)
f.close()
with tf.Graph().as_default():
# 画像を入れる仮のTensor
images_placeholder = tf.placeholder("float", shape=(None, IMAGE_PIXELS))
# ラベルを入れる仮のTensor
labels_placeholder = tf.placeholder("float", shape=(None, NUM_CLASSES))
# dropout率を入れる仮のTensor
keep_prob = tf.placeholder("float")
# inference()を呼び出してモデルを作る
logits = inference(images_placeholder, keep_prob)
# loss()を呼び出して損失を計算
loss_value = loss(logits, labels_placeholder)
# training()を呼び出して訓練
train_op = training(loss_value, FLAGS.learning_rate)
# 精度の計算
acc = accuracy(logits, labels_placeholder)
# 保存の準備
saver = tf.train.Saver()
# Sessionの作成
sess = tf.Session()
# 変数の初期化
sess.run(tf.initialize_all_variables())
# TensorBoardで表示する値の設定
summary_op = tf.merge_all_summaries()
summary_writer = tf.train.SummaryWriter(FLAGS.train_dir, sess.graph_def)
# 訓練の実行
for step in range(FLAGS.max_steps):
for i in range(len(train_image)/FLAGS.batch_size):
# batch_size分の画像に対して訓練の実行
batch = FLAGS.batch_size*i
# feed_dictでplaceholderに入れるデータを指定する
sess.run(train_op, feed_dict=
images_placeholder: train_image[batch:batch+FLAGS.batch_size],
labels_placeholder: train_label[batch:batch+FLAGS.batch_size],
keep_prob: 0.5})
# 1 step終わるたびに精度を計算する
train_accuracy = sess.run(acc, feed_dict={
images_placeholder: train_image,
labels_placeholder: train_label,
keep_prob: 1.0})
print "step %d, training accuracy %g"%(step, train_accuracy)
# 1 step終わるたびにTensorBoardに表示する値を追加する
summary_str = sess.run(summary_op, feed_dict={
images_placeholder: train_image,
labels_placeholder: train_label,
keep_prob: 1.0})
summary_writer.add_summary(summary_str, step)
# 訓練が終了したらテストデータに対する精度を表示
print "test accuracy %g"%sess.run(acc, feed_dict={
images_placeholder: test_image,
labels_placeholder: test_label,
keep_prob: 1.0})
# 最終的なモデルを保存
save_path = saver.save(sess, "model.ckpt")
・ cnn_app.py ・・・ 画像判別用コード
import sys
import numpy as np
import tensorflow as tf
import cv2
NUM_CLASSES = 3
IMAGE_SIZE = 28
IMAGE_PIXELS = IMAGE_SIZE*IMAGE_SIZE*3
def inference(images_placeholder, keep_prob):
""" モデルを作成する関数
引数:
images_placeholder: inputs()で作成した画像のplaceholder
keep_prob: dropout率のplace_holder
返り値:
cross_entropy: モデルの計算結果
"""
def weight_variable(shape):
initial = tf.truncated_normal(shape, stddev=0.1)
return tf.Variable(initial)
def bias_variable(shape):
initial = tf.constant(0.1, shape=shape)
return tf.Variable(initial)
def conv2d(x, W):
return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')
def max_pool_2x2(x):
return tf.nn.max_pool(x, ksize=[1, 2, 2, 1],
strides=[1, 2, 2, 1], padding='SAME')
x_image = tf.reshape(images_placeholder, [-1, 28, 28, 3])
with tf.name_scope('conv1') as scope:
W_conv1 = weight_variable([5, 5, 3, 32])
b_conv1 = bias_variable([32])
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
with tf.name_scope('pool1') as scope:
h_pool1 = max_pool_2x2(h_conv1)
with tf.name_scope('conv2') as scope:
W_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])
h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
with tf.name_scope('pool2') as scope:
h_pool2 = max_pool_2x2(h_conv2)
with tf.name_scope('fc1') as scope:
W_fc1 = weight_variable([7*7*64, 1024])
b_fc1 = bias_variable([1024])
h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)
with tf.name_scope('fc2') as scope:
W_fc2 = weight_variable([1024, NUM_CLASSES])
b_fc2 = bias_variable([NUM_CLASSES])
with tf.name_scope('softmax') as scope:
y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)
return y_conv
if __name__ == '__main__':
test_image = []
for i in range(1, len(sys.argv)):
img = cv2.imread(sys.argv[i])
img = cv2.resize(img, (28, 28))
test_image.append(img.flatten().astype(np.float32)/255.0)
test_image = np.asarray(test_image)
images_placeholder = tf.placeholder("float", shape=(None, IMAGE_PIXELS))
labels_placeholder = tf.placeholder("float", shape=(None, NUM_CLASSES))
keep_prob = tf.placeholder("float")
logits = inference(images_placeholder, keep_prob)
sess = tf.InteractiveSession()
saver = tf.train.Saver()
sess.run(tf.initialize_all_variables())
saver.restore(sess, "model.ckpt")
for i in range(len(test_image)):
accr = logits.eval(feed_dict={
images_placeholder: [test_image[i]],
keep_prob: 1.0 })[0]
pred = np.argmax(logits.eval(feed_dict={
images_placeholder: [test_image[i]],
keep_prob: 1.0 })[0])
print pred,accr
どこがどういう働きをしているのか、備忘録も兼ねて元コードのコメントもほぼそのまま残しております。
元コードから変えた部分は3か所。
今回用意するデータは「4代目クラウン」、「14代目クラウン」、「その他の車」の3種類なので、この2つのコードの最初にある「NUM_CLASSES」の値を3としておきます。
また「cnn_train.py」で変えたのは、「flags.DEFINE_string('train_dir'」の中に書き込み作業ディレクトリ名。私は「/mnt/c/linux/data」というフォルダにしてます。
「cnn_app.py」の最後もちょっと変えました。判別結果だけでなく、各ラベルの認識精度を表示するようにしてます。
■ 画像準備編
何気にこれが一番大変でした。
まず、学習に使う画像が大量に必要です。できれば数百枚くらい欲しいところですが、結局70枚程度しか集まりませんでした。
さらにこの画像をあらかじめ必要な部分だけ正方形にトリミングしなくてはいけません。
その他「画像ファイル名 ラベル(0~2)」が並んだリストも必要です。
まずは、画像収集から。
大量の画像入手のため、「ImageSpider」というフリーソフトを使いました。
ImageSpiderの詳細情報 : Vector ソフトを探す!
キーワードを入れれば勝手にググって大量の画像をダウンロードしてくれるという超便利なソフト。
「クラウン 4代目」のキーワードにて取得件数400件で画像をゲット。
が、入手できたのは設定枚数よりちょっと少なめの393枚。
しかもその中には側面、後ろ姿だったり、4代目クラウンでもトミカだったり、なぜか全然関係ない世代のクラウンが混じってたりするんで、これを人の手で分けなければいけません。
結局残ったのは75枚ほど。学習用に60枚、評価用に15枚としました。
同様に「クラウン 14代目」もやりましたが、こちらも71枚。学習用 60枚、評価用 11枚。
「その他の車」については、機械学習用データを入手してたので、それを使いました。
ML(Machine Learning :機会学習)用のサンプルデータベース(人物、車) - cslabの日記
この記事の中ほど「車用」の「MIT CBCL Car Database(Center for Biological and Computational Learning) 車用」から持ってきた画像データ(PPM形式なので、ペイントショップでJPEGに変換)を使いました。
ただし、今つないでみたらつながらなくなってました。残念。
この中から学習用100枚、評価用16枚を選んで持ってきました。
さて、画像ファイルをもってきたのはいいけれど、ネット上のファイルって名前がぐちゃぐちゃです。
私は、以前から使っている「bkrename」というフリーソフトを使い
名前を「0_001.jpg」(1つ目の数字:0・・・4代目クラウン、1・・・14代目クラウン、2・・・その他の車)というファイル名にしておきました。
続いて、これらの画像ファイルを「正方形にトリミング」します。
ってさらっと書きましたけど、どうやってやるんでしょう?
私が使ったのは「JTrim」というソフト。
まずJTrimを起動。ファイルを読み込みます。
続いて、ツールバーの中にある「切り抜き」というボタンをクリック。
「座標指定切り取り」というフォームが開くので、[座標1]をx:0、y:0に、[座標2]をx:100、y:100(x、yが同じなら何でもいいです)とした後「縦横比を維持する」をクリック。
この状態で枠をマウスで動かしても、正方形を維持してくれます。
画像の切り抜き方は、フロントフェイス部分がぎりぎり収まるサイズに統一してカット。
といっても、画像によって角度や解像度、色も違うため、結構大変です。
しかもクラウン画像が150枚近く、その他の車画像も116枚と結構な枚数。
最後には手がつりそうになります。
このままでもいいんですが、ペイントショップ等でこの正方形画像を64×64のサイズにしておきました。
4代目クラウンの画像
14代目(つまり現行)クラウン
そしてその他の車
若干ばらばら感はありますけど、なんとか必要な画像がそろいました。
最後に、画像ファイル名の一覧作成。
「OutFileList」というソフトを使用。
ファイル一覧出力ツールの詳細情報 : Vector ソフトを探す!
上で作った画像ファイルをあらかじめ空のフォルダに入れておき、OutFileList.exeを起動。
そのフォルダを指定して「一覧出力」を押すと、そのフォルダ内のファイル一覧が出力(Excel、csv形式)されます。
これをExcelで読み込み。
1行目と、2列目以降を消去。
ファイル名前のフルパス部分を”置換”して消去し
「4代目クラウン」のファイル名後ろには”0”、「14代目クラウン」のは”1”、「その他の車」のは”2”と入力しておきます。
最後に、上の”A”列の幅を「10」(=ファイル名9文字+1)、B列の幅を1として、スペース区切り(.prn)で保存。
このリストをさらに「訓練用ファイル一覧(train.txt)」、「評価テスト用ファイル一覧(test.txt)」に分けます。ここでは「0_001~0_060.jpg」「1_001~1_060.jpg」「2_001~2_100.jpg」を「train.txt」に、「0_061~0_075.jpg」「1_061~1_071.jpg」「2_101~2_116.jpg」を「test.txt」に入れました。
・・・ようやくこれで準備完了です。
■ 実行編
実際にはここまでコードとにらめっこしたり、画像データを作るためにいろいろなフリーソフトを試したりと試行錯誤はあったんですが・・・ようやく機械学習を実行します。
と、その前に。
実害はないんですが、「libdc1394 error: Failed to initialize libdc1394」という変なエラーが出るので一応以下の”呪文”を唱えておきます。
sudo ln /dev/null /dev/raw1394
これでエラーは出なくなります。
先の画像ファイル一式、訓練用ファイル一覧、評価テスト用ファイル一覧、そして2つのコードをまとめてC:\linux\data (Bash on Windows上では”/mnt/c/linux/data”)に入れておきます。
そして、機械学習を実行。
python cnn_train.py
そして待つこと
8分14秒!
・・・なんか思ったより早かったですね。こんなに短くていいんだろうか?
メインPC(IvyBridge Corei3 3.3GHz 8GBメモリ)でやったらこんなもんでした。
作業ディレクトリ内に「model.ckpt」というファイルができていれば成功です。
ところで、Tensorflowをインストールすると「TensorBoard」というのがついてきます。
これを実行すると、学習状況などが可視化されます。
以下のコマンドを実行。
tensorboard --logdir /mnt/c/linux/data
こんな感じのグラフが出ます。上段が精度、下段が誤差。横軸はサイクル数。
今回200サイクル回しましたが、30サイクルくらいで精度が頭打ちになってますね。
さて、いよいよ文字通り”学習の成果”を確かめます。
用意した画像はこんなところ。
クラウンやらそうでないのやらをかき集めてきました。
ちょっとややこしいんですが、これらの画像も学習用データと同様あらかじめ正方形にカットしておかないと正確に読み込みません。
人の顔だと自動的にトリミングしてくれる仕組みってよくあるんですが、車の顔を自動でトリミングするツールは皆無。自分で作るしかありませんが、ここはとりあえず手動で。
正方形にカットさえすれば、画像サイズはどうでもいいです(28×28以上であれば可)。
実行方法は以下。
python cnn_app.py (ファイル名)
まずはこちらの画像から。
4代目クラウンです。一応、学習・評価用とは別の画像を探しました。
0 [ 9.96442497e-01 3.55723756e-03 2.88794524e-07]
結果は”0”、つまり「4代目クラウン」と認識!
後ろにある数字から、99.6%の確率で”ラベル0”と認識していることがわかります。
今度はこの画像。
結果は
1 [ 2.35736251e-01 7.64263093e-01 7.35037759e-07]
今度は”1”と認識。つまり「14代目クラウン」として認識してます。
ただし”ラベル1”の認識率は76.4%。若干迷いがありますね。ボンネットが黒いからでしょうか?
2~3枚試しましたが、4代目、14代目クラウンの画像ではわりと高精度で認識するようです。
では
この全く無関係な車ではいかがでしょうか?
1 [ 2.23113761e-06 9.99997735e-01 7.85615756e-12]
ありゃりゃ、かなり自信満々に「14代目クラウン」と認識しちゃいました・・・
何枚か試しましたが、ラベル2として認識したのは、学習用に使った画像データのみ。あとはひたすら0か1かに振り分けてしまいますね。
しかも、古い車ほど”4代目”に、新しい車ほど”14代目”として認識しちゃってます。
これが87%の精度で”4代目クラウン”にされてましたが・・・いったいどのあたりを見てそう思ったんでしょうねぇ。
どうやら与えられた画像データを”4代目クラウン”か”14代目クラウン”のどちらかに似ているか振り分けマシーンになってしまったようです。
この調子で、歴代クラウン全部を学習させたらどうなるんでしょう?歴代クラウンくらいは認識してくれるんでしょうかね?
しかし6代目から9代目は似たような角ライト、グリルの配置なので、判別が難しいかもしれません。
精度を上げるためには「その他の車」も海外製の適当なデータではなく、もうちょっとちゃんとした(?)国産車あたりのデータを使った方がいいのかもしれません。
それ以前に、車の写真をそのまま入れたら勝手にトリミングして判別コードに投げてくれるという仕組みも必要です。
さらにそれ以前に、TensorFlowの”畳み込みニューラルネット”の仕組みをちゃんと理解しないといけないようです。
なんとか作りましたけど、使いやすくするには前途多難です。
私はまずプログラムなり機械なりを作って、それを見て理解するタイプなので、これをいじりながら勉強していこうかなぁと思ってます。
ところで、今回は”車の顔”でしたが、画像データを用意すればいろいろな”判別機”に作り替えられそうです。
アイドルの顔を判別するという応用事例は多いですね。
他にも、例えば「おそ松さん」の6人を顔を判別させてみるとか(無理?)、あるいはSMA○のメンバーを判別させる・・・おっとこれは今のご時世、ご法度ですかね。
人ではなく、ねじの種類とか基板の種類とか、機械的なもので比較的決まったパターンのものを仕分けさせるものならこの程度のコードでも使えそうな気がします。
先日書いたTensorFlowを使ったキュウリの仕分け機: EeePCの軌跡の記事で出てきた仕分け機というのは、要するにこの延長上にある仕組みなんでしょうね。もっとちゃんと作ってるんでしょうけど。
« シャープX1/Turbo用キーボード変換器がBEEPより近日発売 | トップページ | 本物のフライドチキンのようなiPhoneケース »
「パソコン系」カテゴリの記事
- ロジクール製小型静音Bluetoothマウスを購入(2024.11.18)
- 例のUSB電力計で会社PCの電力を測ってみた(2024.11.17)
- 我が家の現在のPC・スマホ事情(2024.11.03)
- わりといい感じの椅子を買った(2024.06.15)
- 最大45W出力のUSB-C端子を持つUSB‐A × 2 、USB-C × 2、電源4口タップを購入(2024.05.15)
「科学・技術」カテゴリの記事
- 円形計算尺を購入してみた(2024.05.19)
- 東京ビッグサイトへ行ってきました(2024.04.25)
- 月着陸実証機SLIMが再起動!(2024.01.29)
- JAXAより小型月着陸実証機「SLIM」の写真公開(撮影はSORA-Q)(2024.01.26)
- 大垣の実家に帰省したついでに「ソフトピアジャパン」に行ってきた(2023.08.14)
「Raspberry Pi・Arduino・電子工作」カテゴリの記事
- 名古屋 大須へ行ってきました(2024.04.28)
- Raspberry Pi 5用電源購入(2024.04.19)
- Interface 2024年5月号はRaspberry Pi 5特集(2024.03.26)
- Raspberry Pi 5とPCがつながらなかった理由は「プライバシーセパレーター機能」のせいでした(2024.03.12)
- Raspberry Pi 5に日本語LLM(ELYZA-Japanese-Llama-2-7b-fast-Instruct)を入れてみた(2024.03.10)
「数値解析系」カテゴリの記事
- Googleの生成AI「Gemini Advanced」に入ってみた(2024.12.01)
- Tanuki-8Bの4ビット量子化ggufモデルでRAGをやってみました(2024.09.14)
- 純日本産なローカルLLM「Tanuki-8B」を試してみた(2024.09.02)
- 東京のセールスフォースに行ってきました(2024.07.24)
- ローカルLLM「Llama-3-ELYZA-JP-8B」にいろいろ聞いてみた(2024.07.01)
コメント
« シャープX1/Turbo用キーボード変換器がBEEPより近日発売 | トップページ | 本物のフライドチキンのようなiPhoneケース »
ソースコードも掲載されており,丁寧でわかりやすい記事でした.
ただ生成したモデルの具体的な精度(用意した画像が何枚中何枚認識したか)がわからなかったので教えていただけると幸いです.
投稿: フレデリック | 2017年9月 8日 (金) 19時53分
こんにちは、フレデリックさん。
コメント遅れました。すいません。あまりこの記事ではちゃんとした検証をしてませんが、その後ほかのデータなどで試した限りでは80%程度ですね。
https://arkouji.cocolog-nifty.com/blog/2017/03/tensorflow-ef61.html
この時より高解像度化(28×28 → 56×56)したので精度が変わってると思いますが、この時作ったお城識別器では、21枚中17枚が正解しました。
ラベルによる精度がまちまちで、上の記事では岡崎城に誤認識することが多く、一方で松本城は高精度で当たりました。お陰で、後日こんなものを作ってます。
https://arkouji.cocolog-nifty.com/blog/2017/05/tensorflow-717a.html
OpenCVの物体識別器(LBP特徴)も使って作りました。参考まで。
投稿: arkouji | 2017年9月 9日 (土) 15時41分
コメントしていただきありがとうございました.
URLも貼ってくださり,感謝いたします.
後日拝見させていただきたいと思います
投稿: フレデリック | 2017年9月12日 (火) 19時34分
こんにちは、フレデリックさん。
是非ご覧ください。56×56くらいまで解像度を上げると結構認識率が上がります。そちらがおすすめです。
投稿: arkouji | 2017年9月13日 (水) 05時00分
コメントありがとうございます.
確かに解像度を増やすと精度があがりました.
しかし,1クラス2000枚の5クラス程度で学習(cnn_train_56.py)を行うとtraining accuracyで表示される精度が20%で頭打ちになりました.どのようなことが原因だと考えられますか?
投稿: フレデリック | 2017年9月24日 (日) 02時09分
こんにちは、フレデリックさん。
私もよく起こります。このコードでは表示させてませんが、損失(loss)の値が発散してます。
対処方法は、とにかく何度も実行すること。初期値がランダムなので、何度かやってaccurasyの値が変わるまで根気よく実行すると、うまく行くことがあります。
10回以上実行しても改善が見られない場合には、教師データを見直す必要があります。曖昧そうな画像を減らしてみるとか、ラベルを増やすとか。あるいはバッチの値を増減してもいける場合があります。
こんなところでしょうか?私もまだチューニングノウハウを積み上げ中で、いろいろ試してる段階です。
投稿: arkouji | 2017年9月25日 (月) 12時33分