Tensorflow(GPU)与Numpy

Cal*_*xc1 2 python numpy tensorflow tensorflow-gpu

所以我有两个使用梯度下降的线性回归实现.一个在Tensorflow,一个在Numpy.我发现Numpy中的那个比Tensorflow快3倍.这是我的代码 -

Tensorflow:

class network_cluster(object):
    def __init__(self, data_frame, feature_cols, label_cols):
        self.init_data(data_frame, feature_cols, label_cols)
        self.init_tensors()

    def init_data(self, data_frame, feature_cols, label_cols):
        self.data_frame = data_frame
        self.feature_cols = feature_cols
        self.label_cols = label_cols

    def init_tensors(self):
        self.features = tf.placeholder(tf.float32)
        self.labels = tf.placeholder(tf.float32)

        self.weights = tf.Variable(tf.random_normal((len(self.feature_cols), len(self.label_cols))))
        self.const = tf.Variable(tf.random_normal((len(self.label_cols),)))

    def linear_combiner(self):
        return tf.add(tf.matmul(self.features, self.weights), self.const)

    def predict(self):
        return self.linear_combiner()

    def error(self):
        return tf.reduce_mean(tf.pow(self.labels - self.predict(), 2), axis = 0)

    def learn_model(self, epocs = 100):
        optimizer = tf.train.AdadeltaOptimizer(1).minimize(self.error())

        error_rcd = []
        with tf.Session() as sess:
            sess.run(tf.global_variables_initializer())
            for epoc in range(epocs):
                _, error = sess.run([optimizer, self.error()], feed_dict={
                    self.features: self.data_frame[self.feature_cols],
                    self.labels: self.data_frame[self.label_cols]
                })
                error_rcd.append(error[0])

        return error_rcd

    def get_coefs(self):
        with tf.Session() as sess:
            sess.run(tf.global_variables_initializer())

            coefs = sess.run([self.weights, self.const])

        return coefs

test_cluster = network_cluster(dataset, ['ship_jumps', 'npc_kills', 'ship_kills', 'pod_kills'], ['hour_of_week'])
%timeit test_cluster.learn_model(epocs = 100)
Run Code Online (Sandbox Code Playgroud)

numpy:

def grad_descent(dataset, features, predictor, max_iters = 10000):

    def initialize_model(dataset, features, predictor):
        constant_array = np.ones(shape = (len(dataset), 1))
        features_array = dataset.loc[:, features].values
        features_array = np.append(constant_array, features_array, axis = 1)
        predict_array = dataset.loc[:, predictor].values
        betas = np.zeros(shape = (len(features) + 1, len(predictor)))
        return (features_array, predict_array, betas)

    def calc_gradient(features_array, predict_array, betas):
        prediction = np.dot(features_array, betas)
        predict_error = predict_array - prediction
        gradient = -2 * np.dot(features_array.transpose(), predict_error)
        gradient_two = 2 * np.expand_dims(np.sum(features_array ** 2, axis = 0), axis = 1)
        return (gradient, gradient_two)

    def update_betas(gradient, gradient_two, betas):
        new_betas = betas - ((gradient / gradient_two) / len(betas))
        return new_betas

    def model_error(features_array, predict_array, betas):
        prediction = np.dot(features_array, betas)
        predict_error = predict_array - prediction
        model_error = np.sqrt(np.mean(predict_error ** 2))
        return model_error

    features_array, predict_array, betas = initialize_model(dataset, features, predictor)
    prior_error = np.inf
    for iter_count in range(max_iters):
        gradient, gradient_two = calc_gradient(features_array, predict_array, betas)
        betas = update_betas(gradient, gradient_two, betas)
        curr_error = model_error(features_array, predict_array, betas)
        if curr_error == prior_error:
            break
        prior_error = curr_error
    return (betas, iter_count, curr_error)

%timeit grad_descent(dataset, ['ship_jumps', 'npc_kills', 'ship_kills', 'pod_kills'], ['hour_of_week'], max_iters = 100)
Run Code Online (Sandbox Code Playgroud)

我正在使用Spyder IDE测试,我确实有一个Nvidia GPU(960).Tensorflow代码在约20秒时钟,同一数据集上的Numpy代码约为7秒.数据集大约有100万行.

我本可以期待Tensorflow在这里轻松击败Numpy,但事实并非如此.当然,我是使用Tensorflow的新手,Numpy实现不使用类,但Numpy仍然是3倍?

希望对我在这里做错的一些想法/想法.

sas*_*cha 6

没有详细查看您的代码(没有TF的经验):

这种比较是有缺陷的!

  • 雅罗斯拉夫的评论当然是正确的:GPU计算有一些开销(至少是数据准备;不知道在这里计时是什么类型的编译)
  • 您正在以完全批处理模式比较纯GD和Adadelta:
    • Adadelta当然暗示了一些开销(除了计算梯度和乘以当前迭代之外还有更多的操作),因为它是常见的方差减少方法之一,需要付出代价!
      • 这个想法是:投入一些额外的操作:
        • 在给定学习率的情况下删除所需的迭代次数
        • (这甚至更复杂:对于大多数人来说 - >使用默认学习率实现良好的收敛)
  • 看起来你只是每个运行100个时代并计时
    • 那没意义!
      • 这个目标很可能是非常不同的:
        • 如果迭代大小不够
        • 或者初选学习率很差
      • 或者相同,但不存在的早期停止确保了一个可能更好的算法,证明了收敛性(根据一些标准)浪费了一些额外的时间进行所有迭代,直到达到100!
  • (Adadelta可能是为SGD设置而设计的;不是GD)

比较这些不同的算法非常困难,特别是在仅使用一个任务/数据集时.

即使您要引入早期停止,您也会观察到基于随机种子的不确定性能,这很难解释.

您基本上是在测量迭代时间,但这不是一个好的衡量标准.比较一阶方法(渐变 - > SGD,GD,...)与二阶方法(hessian - > Newton).后者迭代非常慢,但通常会获得二次收敛行为,从而减少所需的迭代次数!在NN应用中,这个例子更多:LBFGS与SGD/......(虽然我不知道LBFGS是否可用于TF; 火炬支持它).已知LBFGS实现局部二次收敛,这在现实世界的任务中难以解释(特别是因为这种有限的存储器近似的逆 - hessian是LBFGS的参数).这种比较也可以在线性规划中进行,其中Simplex方法具有快速迭代,而内点方法(基本上是基于牛顿的;但是在这里处理约束优化需要一些额外的想法)每次迭代要慢得多(尽管在许多情况下更快地实现收敛).

我在这里忽略了几乎所有关于收敛和共同的理论结果.仅限于凸起和平滑功能.NN通常是非凸的,这意味着评估这些性能测量的任务更加困难.但是你的问题当然是凸起的.

我还必须承认,我的答案只是触及了这个复杂问题的表面,即使无约束光滑凸优化是数值优化中比较容易完成的任务之一(与约束非光滑非凸优化相比).

有关数值优化的一般性介绍,其中也讨论了一阶和二阶方法(并且介于两者之间有很多方法),我推荐Nocedal和Wright的数值优化,可以在网上找到.