【机器学习】DNN训练中的问题与方法

日期：2021-06-11 栏目：程序人生浏览：次

感谢中国人民大学的胡鹤老师，人工智能课程讲的很有深度，与时俱进

由于深度神经网络（DNN）层数很多，每次训练都是逐层由后至前传递。传递项<1，梯度可能变得非常小趋于0，以此来训练网络几乎不会有什么变化，即vanishing gradients problem；或者>1梯度非常大，以此修正网络会不断震荡，无法形成一个收敛网络。因而DNN的训练中可以形成很多tricks。。

1、初始化权重

起初采用正态分布随机化初始权重，会使得原本单位的variance逐渐变得非常大。例如下图的sigmoid函数，靠近0点的梯度近似线性很敏感，但到了，即很强烈的输入产生木讷的输出。

【机器学习】DNN训练中的问题与方法

采用Xavier initialization，根据fan-in（输入神经元个数）和fan-out（输出神经元个数）设置权重。

并设计针对不同激活函数的初始化策略，如下图（左边是均态分布，右边正态分布较为常用）

【机器学习】DNN训练中的问题与方法

2、激活函数

一般使用ReLU，但是不能有小于0的输入（dying ReLUs）

a.Leaky RELU

改进方法Leaky ReLU=max(αx,x)，小于0时保留一点微小特征。

【机器学习】DNN训练中的问题与方法

具体应用

from tensorflow.examples.tutorials.mnist import input_data mnist = input_data.read_data_sets("/tmp/data/") reset_graph() n_inputs = 28 * 28 # MNIST n_hidden1 = 300 n_hidden2 = 100 n_outputs = 10 X = tf.placeholder(tf.float32, shape=(None, n_inputs), name="X") y = tf.placeholder(tf.int64, shape=(None), name="y") with tf.name_scope("dnn"): hidden1 = tf.layers.dense(X, n_hidden1, activation=leaky_relu, name="hidden1") hidden2 = tf.layers.dense(hidden1, n_hidden2, activation=leaky_relu, name="hidden2") logits = tf.layers.dense(hidden2, n_outputs, name="outputs") with tf.name_scope("loss"): xentropy = tf.nn.sparse_softmax_cross_entropy_with_logits(labels=y, logits=logits) loss = tf.reduce_mean(xentropy, name="loss") learning_rate = 0.01 with tf.name_scope("train"): optimizer = tf.train.GradientDescentOptimizer(learning_rate) training_op = optimizer.minimize(loss) with tf.name_scope("eval"): correct = tf.nn.in_top_k(logits, y, 1) accuracy = tf.reduce_mean(tf.cast(correct, tf.float32)) init = tf.global_variables_initializer() saver = tf.train.Saver() n_epochs = 40 batch_size = 50 with tf.Session() as sess: init.run() for epoch in range(n_epochs): for iteration in range(mnist.train.num_examples // batch_size): X_batch, y_batch = mnist.train.next_batch(batch_size) sess.run(training_op, feed_dict={X: X_batch, y: y_batch}) if epoch % 5 == 0: acc_train = accuracy.eval(feed_dict={X: X_batch, y: y_batch}) acc_test = accuracy.eval(feed_dict={X: mnist.validation.images, y: mnist.validation.labels}) print(epoch, "Batch accuracy:", acc_train, "Validation accuracy:", acc_test) save_path = saver.save(sess, "./my_model_final.ckpt")

转载注明出处：https://www.heiqu.com/wppjwj.html

【机器学习】DNN训练中的问题与方法

相关推荐