0. Personal understanding
1. basic use
2. Introduction to MNIST (multiclass classification)
3. deeper into MNIST
4. convolutional neural network: classification of CIFAR-10 dataset
5. Vector Representations of Words (VOR)
6. Recurrent Neural Networks (RNN), LSTM (Long-Short Term Memory, LSTM)
7. building a chatbot with deep learning networks 

<スパン 0.個人的な理解


1. deep learning neural network is essentially in lean what, I think is in learn a set of parameters, or selection mode, which is often said to be a classifier, this classifier may be a high-dimensional classifier, composed of a set of parameters
2. take image captcha recognition, the parameters here means the distribution of weights in the image area (the distribution of weight pixel space is different for number 1 and number 2), if we select the pixel space of the image (e.g. 32 * 32) + RGB color channel (3) as input features (essentially this is feature engineering), these features will be treated as neurons by tensorflow and at each layer these neurons are combined and the results are calculated, while the neurons of the next layer of the neural network, the output of this layer will be combined again, the combination, according to the accuracy of the last prediction, will automatically give each combination a different weight (weight) by back propogation, this process will continue until the adjustment of a best-fit weight, which is often the pixel space weight that is closest to the real image
3. . All things in the world can be abstracted into a high-dimensional matrix, and this process will have different ways of extracting abstraction in different domains, i.e., feature engineering, and it is worth noting that having expertise in the corresponding domain is very helpful for the implementation of feature engineering
4. after we abstract the domain-specific, objects to be classified/recognized as a high-dimensional matrix, into the deep learn algorithm model becomes a neuron (node), the next thing to do in the deep learn model is called "fitting"
5. To complete the classification and recognition, the goal of deep learn is to find a fit matrix (figuratively speaking, "high-dimensional-1 classification cut "), to achieve this purpose, 3 elements are needed
  1) the fit function (activation function): used to generate the fitted cut
  2) error function (Loss Function): used in the process of network computation to calculate the distance of the fitted cut from the optimal value of the current fitted parameters, in order to adjust the parameters at any time
  3) neural network structure: deep learn deep learning and ordinary neural networks is the difference between "layers ", deep neural networks often have more than 3 layers (input layer, hidden layer, output layer), when the number of layers increases, in each layer to choose how the combination of cross structure becomes a difficult thing, there is no sound theoretical support can accurately There is no sound theoretical support to precisely calculate what kind of network structure can output the best results, and the usual practice is to keep trying different network structures according to the business scenario that we do not agree with, until we "try out" a relatively good network structure, and then make parameter adjustments on top of this network structure


http://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=spiral&regDataset=reg-plane&learningRate=0.03&regularizationRate=0&noise=0&networkShape=8,8,8,8,8,8,8&seed=0.33671&showTestData=false&discretize=false&percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false


<スパン <スパン 0x1: ニューラルネットワークが本当に理解していること

One, the neural network understands how to decouple the input space into a hierarchical set of convolutional filters
Second, the neural network understands the probabilistic mapping from a set of filters to a set of specific labels. What the neural network learns is not at all what it means to "see" in the human sense, and it certainly does not mean, in scientific terms, that we have solved the problem of computer vision

畳み込みニューラルネットワークが学習する入力空間の階層的切り離しは、人間の視覚野の振る舞いを模倣していると言う人がいる。この主張は正しいかもしれないし、正しくないかもしれない。しかし、それを認めるか否定するか、比較的強い証拠があることは今のところ不明である。もちろん、人間の視覚野が同じような方法で物事を学習し、何らかの形でこれは我々の視覚世界の自然なデカップリングであると期待する人もいるだろう(ちょうどフーリエ変換が周期的な音信号の自然なデカップリングであるように)[ここで、音信号のフーリエ変換が、異なる周波数の音信号があることを非常に自然かつ物理的に理解していることを示しているように、我々の 視覚情報の認識は層で行われる、丸いのが車輪、4輪あるのが自動車、かっこいいのがスポーツカー、こんな感じだ]。しかし、人間の視覚信号のフィルタリング、レイヤー化、処理の性質は、私たちの弱い鶏の畳み込みネットワークと全く同じものではない可能性が高いのです。視覚野は層状ではあるが畳み込み式ではなく、その層は皮質のカラムの構造を持っており、その構造の真の目的は現時点では不明で、我々の人工神経ネットワークにはまだない構造である(ジョー大王ことジェフ・ヒントンはその研究に取り組んでいるが)。さらに、人間には静止画像を分類する以外にも多くの視覚パーセプトロンがあり、これらのパーセプトロンは静的で受動的ではなく、連続的で能動的であり、これらの受容体も眼球運動などの複数のメカニズムによって複雑に制御されています

<スパン <スパン <スパン <スパン <スパン <スパン <スパン <スパン <スパン <スパン 関連リンク

http://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=spiral®Dataset=reg-plane&learningRate=0.03® ularizationRate=0&noise=0&networkShape=8,8,8,8,8,8,8&seed=0.33671&showTestData=false&discretize=false& percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false& cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false

<スパン 1. 基本的な使用方法

<スパン <スパン 0x1: 概要

1. Use a graph to represent a computational task. 2.
2. Execute the graph in a context called a session. 3.
3. Use tensor to represent data. 4.
4. maintain state through variables. 5.
5. use feed and fetch to assign values to or retrieve data from arbitrary operations.

TensorFlowは、グラフを使って計算タスクを表現するプログラミングシステムである。グラフのノードはop(operationの略)と呼ばれる。opは0個以上のTensorを取得し、計算を実行し、0個以上のTensorを生成する。各Tensorは型付き多次元配列である。例えば、小さな画像の集合を、[batch, height, width, channels]という4次元の浮動小数点数の配列として表現することができる。

0x2: 計算表


<スパン 1. グラフの構築(分類する対象を高次元行列に抽象化する)。


# -*- coding:utf-8 -*-

import tensorflow as tf

if __name__ == "__main__":
    # Create a constant op, producing a 1x2 matrix. This op is treated as a node
    # Add to the default graph.
    # The return value of the constructor represents the return value of the constant op.
    matrix1 = tf.constant([[3., 3.]])

    # Create another constant op, producing a 2x1 matrix.
    matrix2 = tf.constant([[2.], [2.]])

    # Create a matrix multiplication matmul op , taking 'matrix1' and 'matrix2' as input.
    # The return value 'product' represents the result of the matrix multiplication.
    product = tf.matmul(matrix1, matrix2)

デフォルトのグラフは、3つのノード、2つのconstant() op、そしてmatmul() opを持つようになりました。実際に行列を掛け合わせてその結果を得るためには、グラフをセッションで起動する必要があります。 

2. セッションでグラフを開始する

ダイアグラムは、構築段階が完了するまで開始されません。ダイアグラムを開始する最初のステップは、Session オブジェクトを作成することです。作成パラメータがない場合、セッション・コンストラクターは、デフォルトのダイアグラムを開始します。

# -*- coding:utf-8 -*-

import tensorflow as tf

if __name__ == "__main__":
    # Create a constant op, producing a 1x2 matrix. This op is treated as a node
    # Add to the default graph.
    # The return value of the constructor represents the return value of the constant op.
    matrix1 = tf.constant([[3., 3.]])

    # Create another constant op, producing a 2x1 matrix.
    matrix2 = tf.constant([[2.], [2.]])

    # Create a matrix multiplication matmul op , taking 'matrix1' and 'matrix2' as input.
    # The return value 'product' represents the result of the matrix multiplication.
    product = tf.matmul(matrix1, matrix2)

    # The default graph now has three nodes, two constant() op, and one matmul() op. In order to actually multiply the matrices and get the result of the matrix multiplication, you must start the graph in a session.

    # Start the default graph.
    sess = tf.Session()

    # Call the 'run()' method of sess to perform the matrix multiplication op, passing 'product' as an argument to the method.
    # As mentioned above, 'product' represents the output of the matrix multiplication op, and passing it in indicates to the method that we want to retrieve
    # The output of the matrix multiplication op.
    # The entire execution is automated.
    # The entire execution is automated, and the session is responsible for passing all the input needed for the op. The op is usually executed concurrently.
    # The function call 'run(product)' triggers the execution of the three op's in the diagram (two constant op's and a matrix multiplication op).
    # The return value 'result' is a numpy `ndarray` object.
    result = sess.run(product)
    print result
    # ==> [[ 12.]]

    # Task complete, close the session.


<スパン 0x3: テンソル


<スパン 0x4: 変数


# -*- coding:utf-8 -*-

import tensorflow as tf

if __name__ == "__main__":
    # Create a variable, initialize to scalar 0.
    state = tf.Variable(0, name="counter")

    # Create an op, which increments state by 1
    one = tf.constant(1)
    new_value = tf.add(state, one)
    update = tf.assign(state, new_value)

    # After starting the graph, the variables must first be initialized by the `initialize` (init) op,
    # First an `initialize` op must be added to the graph.
    init_op = tf.initialize_all_variables()

    # Start the graph, run the op
    with tf.Session() as sess:
      # run 'init' op
      # Print the initial value of 'state'
      print sess.run(state)
      # Run the op, update 'state', and print 'state'
      for _ in range(3):
        print sess.run(state)


0x5: フェッチ


# -*- coding:utf-8 -*-

import tensorflow as tf

if __name__ == "__main__":
    # Start the default graph.
    sess = tf.Session()

    input1 = tf.constant(3.0)
    input2 = tf.constant(2.0)
    input3 = tf.constant(5.0)
    intermed = tf.add(input2, input3)
    mul = tf.multiply(input1, intermed)

    with tf.Session():
      result = sess.run([mul, intermed])
      print result

<スパン 0x6: フィード

フィードは一時的に操作の出力をテンソル値で置き換える。run() 呼び出しの引数としてフィードデータを提供することができる。フィードはそれを呼び出したメソッドに対してのみ有効であり、メソッドが終了するとフィードは消滅する。最も一般的な使用例は、いくつかの特殊な操作を "フィード" 操作として指定することで、tf.placeholder() を使用してそれらの操作のプレースホルダを作成することでマークされる。

# -*- coding:utf-8 -*-

import tensorflow as tf

if __name__ == "__main__":
    input1 = tf.placeholder(tf.types.float32)
    input2 = tf.placeholder(tf.types.float32)
    output = tf.multiply(input1, input2)

    with tf.Session() as sess:
        print sess.run([output])
        print sess.run([output], feed_dict={input1:[7.], input2:[2.]})

<スパン <スパン <スパン <スパン <スパン <スパン <スパン <スパン <スパン <スパン <スパン <スパン 0x7: バッチ

<スパン ディープラーニングの最適化アルゴリズムは、ざっくり言うと「勾配降下法」です。毎回パラメータを更新する方法は2つあります。

1. the first, traverse the entire data set to calculate the loss function once, and then calculate the gradient of the function for each parameter, update the gradient. This method looks at all the samples in the dataset for each parameter update, which is computationally overhead, slow, and does not support online learning, which is called Batch gradient descent.
This is called stochastic gradient descent, which is faster, but the convergence performance is not so good, and it may wander around the optimal point and not hit the optimal point. The two parameter updates may also cancel each other out, causing the target function to oscillate more violently 

コードでよく目にするオプティマイザ、SGDはstochastic gradient descentの略ですが、1サンプルに1回更新されるということではなく、やはりミニバッチがベースになっています

<スパン <スパン <スパン <スパン <スパン <スパン <スパン <スパン <スパン <スパン 関連リンク


<スパン 2. MNIST(多クラス分類)を使ってみよう

<スパン <スパン 0x1: MNISTデータセット



このように、MNIST学習データセットにおいて、mnist.train.imagesは形状[60000, 784]のテンソルであり、1次元目の数値が画像のインデックスに、2次元目の数値が各画像の画素点のインデックスに使用されています。このテンソルの各要素は、特定の画像の画素の強度値を0から1までの値で表している(白黒画像)。

対応するMNISTデータセットのラベルは0から9までの数字で、与えられた画像に表された数字を表現するために使用される。このチュートリアルで使用するために、ラベル付きデータを"one-hot vectors"とすることにします。ワンホットベクトルとは、1次元を除くすべての次元で0であるため、このチュートリアルでは、数nは、(0から始まる)n次元にのみ数1を持つ10次元ベクトルとして表現されることになります。例えば、ラベル 0 は ([1,0,0,0,0,0,0,0,0,0,0]) のように表現されます。したがって,mnist.train.labels は [60000, 10] の数値行列である.

<スパン 0x2: ソフトマックスリグレッション


<スパン 1. 第 1 段階



どこ   はウェイトを表し  は数を表します。 i  クラスのオフセット j  は、与えられた画像を表す <スパン x  画素のインデックスは画素の総和に使用される。この証拠は,ソフトマックス関数を用いて確率に変換することができます。 y :




ソフトマックス回帰モデルは、以下のグラフで説明することができます。 xs を加重加算し、それぞれにバイアスを加え、最後にソフトマックス関数に入力する。





0x3: 回帰モデルの実装

y = tf.nn.softmax(tf.matmul(x,W) + b)


<スパン 0x4: 学習モデル


y  は予測の確率分布です。 y'  は実際の分布(入力した一発ベクトル)です。もっと単純に理解すると、クロスエントロピーは、真実を記述するための予測の非効率性を測定するために使われます。 . つまり、我々の記述が不正確であればあるほど、不確実性が高くなり、エントロピー値も高くなるのです

TensorFlow has a graph that describes your individual computational units, and it can automatically use the backpropagation algorithm to efficiently determine how your variables affect the value of that cost you want to minimize. TensorFlow then uses the optimization algorithm you choose to continuously modify the variables to reduce the cost.

train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)



<スパン 0x5: モデルの評価


correct_prediction = tf.equal(tf.argmax(y,1), tf.argmax(y_,1))

このコードの行は、ブーリアン値のセットを提供します。正しく予測された項目の割合を求めるには、ブーリアン値を浮動小数点数に変換して、その平均をとればよい。たとえば [True, False, True, True]  は次のようになります。 [1,0,1,1]  とし、平均化すると 0.75 .

accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))


print sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels})

<スパン 0x6: mnist_softmax.py

