我知道这个问题,但这是一个过时的功能。
假设我正在尝试根据某人已经访问过的国家和他们的收入来预测一个人是否会访问“ X”国。
我在pandas DataFrame中有一个训练数据集,格式如下。
因此,从本质上讲,如果我的数据集中有100,000个人,那么我的数据框的尺寸为100,000 x 12。我希望能够使用tensorflow将其正确传递到线性分类器中。但是,即使是如何处理,也不确定。
我正在尝试将数据传递给此功能
estimator = LinearClassifier(
n_classes=n_classes, feature_columns=[sparse_column_a,
sparse_feature_a_x_sparse_feature_b], label_keys=label_keys)
Run Code Online (Sandbox Code Playgroud)
(如果对使用哪种估算器有更好的建议,我愿意尝试。)
我将数据传递为:
df = pd.DataFrame(np.random.randint(0,2,size=(100, 12)), columns=list('ABCDEFGHIJKL'))
tf_val = tf.estimator.inputs.pandas_input_fn(X.iloc[:, 0:9], X.iloc[:, 11], shuffle=True)
Run Code Online (Sandbox Code Playgroud)
但是,我不确定如何获取此输出并将其正确传递到分类器中。我是否可以正确设置问题?我不是来自数据科学领域,因此任何指导都将非常有帮助!
顾虑
(赏金所需的工作代码)
我有类numpy.ndarray和维度的坐标(200,2)。基本上是regionprops的输出。
我想索引一个图像矩阵(也是一个ndarray)的 dim img.shape = (1000,1000)。我希望能够做类似的事情
for prop in region:
img[prop.coords] = 0
Run Code Online (Sandbox Code Playgroud)
但是,发生的情况是,它不会将坐标视为行、列对。而是将每个数字作为行号并将整行设置为 0。
我怎样才能解决这个问题?
我尝试重塑数组,但这似乎也不起作用。我能想到的唯一其他想法是将这些索引转换为矩阵,其中矩阵的大小与图像尺寸相同,这些坐标为 1,所有其他坐标值为 0。然后,使用此矩阵进行索引。然而,这似乎并不比使用 for 循环暴力强制它更有效。
Files =['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']
fout='/PATH/df/{}/{}.F.K.df'.format('train',Files[0])
df1=pd.read_pickle(fout)
df1 = df1[df1.columns[:100]]
fout='/PATH/df/{}/{}.F.K.df'.format('train',Files[1])
df2=pd.read_pickle(fout)
df2 = df2[df2.columns[:100]]
fout='/PATH/df/{}/{}.F.K.df'.format('train',Files[2])
df3=pd.read_pickle(fout)
df3 = df3[df3.columns[:100]]
fout='/PATH/df/{}/{}.F.K.df'.format('train',Files[3])
df4=pd.read_pickle(fout)
df4 = df4[df4.columns[:100]]
fout='/PATH/df/{}/{}.F.K.df'.format('train',Files[4])
df5=pd.read_pickle(fout)
df5 = df5[df5.columns[:100]]
fout='/PATH/df/{}/{}.F.K.df'.format('train',Files[5])
df6=pd.read_pickle(fout)
df6 = df6[df6.columns[:100]]
fout='/PATH/df/{}/{}.F.K.df'.format('train',Files[6])
df7=pd.read_pickle(fout)
df7 = df7[df7.columns[:100]]
fout='/PATH/df/{}/{}.F.K.df'.format('train',Files[7])
df8=pd.read_pickle(fout)
df8 = df8[df8.columns[:100]]
df = pd.concat([df1, df2, df3, df4, df5, df6, df7, df8], axis = 1)
df = df.loc[:,~df.columns.duplicated()]
Run Code Online (Sandbox Code Playgroud)
我有以下命令,前 8 个块都是重复代码,修改很小。有没有办法我可以做到这样的事情:
[pd.read_pickle('/PATH/df/{}/{}.F.K.df'.format('train',Files[i])) for i in Files]
但这只会给我很多将被设置为同一个变量的数据帧,而且我不知道如何将其映射到 8 个不同的数据帧,然后将它们一次性连接起来。