小编Tia*_*Tia的帖子

如何使用MinMaxScaler sklearn规范化训练和测试数据

所以,我怀疑并一直在寻找答案.所以问题是我何时使用,

from sklearn import preprocessing
min_max_scaler = preprocessing.MinMaxScaler()

df = pd.DataFrame({'A':[1,2,3,7,9,15,16,1,5,6,2,4,8,9],'B':[15,12,10,11,8,14,17,20,4,12,4,5,17,19],'C':['Y','Y','Y','Y','N','N','N','Y','N','Y','N','N','Y','Y']})

df[['A','B']] = min_max_scaler.fit_transform(df[['A','B']])
df['C'] = df['C'].apply(lambda x: 0 if x.strip()=='N' else 1)

Run Code Online (Sandbox Code Playgroud)

这之后,我将训练和测试模型(A,B作为特征,C如标签),并得到一些准确度得分.现在我的疑问是,当我必须预测新数据集的标签时会发生什么.说,

df = pd.DataFrame({'A':[25,67,24,76,23],'B':[2,54,22,75,19]})

Run Code Online (Sandbox Code Playgroud)

因为当我对列进行标准化时A,B将根据新数据更改值的值,而不是根据模型将要训练的数据.那么,现在我的数据准备步骤之后的数据如下所示.

data[['A','B']] = min_max_scaler.fit_transform(data[['A','B']])

Run Code Online (Sandbox Code Playgroud)

价值A和B将相对于Max和的Min价值而变化df[['A','B']].的准备数据df[['A','B']]是相对于Min Max的df[['A','B']].

关于不同的数字,数据准备如何有效？我不明白这里的预测是否正确.

python machine-learning normalization scikit-learn sklearn-pandas

Tia*_*Tia

2018 06-27

3
推荐指数

1
解决办法

9007
查看次数

检查字母数字单词并输出相同

尝试将字母数字部分与字符串Eg分开：如果传递的输入为

    BMW X5

Run Code Online (Sandbox Code Playgroud)

我将得到的输出看起来像

X5

Run Code Online (Sandbox Code Playgroud)

使用内置函数.isalnum（）将字母数字与其他单词分开，但输出仍然显示错误。的

    name= 'BMW X5'
    if name.isalnum():
        model = list(filter(lambda x: x.isalnum(), name.strip().split()))
    else:
        model = name

Run Code Online (Sandbox Code Playgroud)

预期输出X5，但是这段代码的输出是'BMW X5'

python

Tia*_*Tia

lucky-day

3
推荐指数

1
解决办法

48
查看次数

Spark-sqlserver连接

我们可以将spark与sql-server连接吗？如果是这样，怎么办？我是Spark的新手，我想将服务器连接到spark并直接从sql-server工作，而不是上传.txt或.csv文件。请帮忙，谢谢。

sql-server data-analysis apache-spark

Tia*_*Tia

2018 01-17

2
推荐指数

2
解决办法

6711
查看次数

标签统计

python ×2

apache-spark ×1

data-analysis ×1

machine-learning ×1

normalization ×1

scikit-learn ×1

sklearn-pandas ×1

sql-server ×1

如何使用MinMaxScaler sklearn规范化训练和测试数据

检查字母数字单词并输出相同

Spark-sqlserver连接

标签 统计

小编Tia_Tia的帖子

标签统计