我正在使用Tensorflow使用我自己的数据集进行神经网络预测.我做的第一个是与我的计算机中的小数据集一起使用的模型.在此之后,我更改了代码,以便使用具有更大数据集的Google Cloud ML-Engine在ML-Engine中实现列车和预测.
我正在规范熊猫数据框中的功能,但这引入了偏差,我的预测结果很差.
我真正想要的是使用库tf-transform来规范化图中的数据.为此,我想创建一个函数preprocessing_fn 并使用' tft.scale_to_0_1'.https://github.com/tensorflow/transform/blob/master/getting_started.md
我发现的主要问题是当我试图做预测时.我正在寻找互联网,但我没有找到任何导出模型的例子,其中数据在训练中被标准化.在我发现的所有示例中,数据未在任何地方进行标准化.
我想知道的是,如果我对训练中的数据进行规范化,并发送一个带有新数据的新实例来进行预测,那么如何对这些数据进行归一化?
¿可能在Tensorflow数据管道中?进行规范化的变量是否保存在某个地方?
总结:我正在寻找一种方法来规范化我的模型的输入,然后新实例也变得标准化.
python google-cloud-platform tensorflow google-cloud-ml tensorflow-transform
我有一张这样的桌子:
home_city away_city
-----------------------
Valencia Madrid
Barcelona Madrid
Madrid Valencia
Alicante Castellon
Madrid Valencia
Castellon Alicante
Valencia Madrid
Run Code Online (Sandbox Code Playgroud)
我想对每种不同组合的行进行计数,但忽略它是home_city还是away_city。 我的意思是,通常我会这样查询
SELECT home_city, away_city, COUNT(*) as count_cities
FROM my_table
GROUP BY home_city, away_city
Run Code Online (Sandbox Code Playgroud)
它将返回以下结果:
home_city away_city count_cities
----------------------------------------
Valencia Madrid 2
Barcelona Madrid 1
Madrid Valencia 2
Alicante Castellon 1
Castellon Alicante 1
Run Code Online (Sandbox Code Playgroud)
但是我真正想要的是查询忽略该列并返回类似以下内容:
home_city away_city count_cities
----------------------------------------
Valencia Madrid 4
Barcelona Madrid 1
Alicante Castellon 2
Run Code Online (Sandbox Code Playgroud)
返回的结果是一列还是两列都没有关系。
提前致谢