小编dss*_*dss的帖子

使用sklearn进行一次热编码后,如何给出列名?

这是我的问题,希望有人能帮助我解决。

解释一下,我的数据集中有10多个类别列,每个列都有200-300个类别。我想将它们转换为二进制值。为此,我使用了第一个标签编码器将字符串类别转换为数字。标签编码器代码和输出如下所示。

在此处输入图片说明

在使用标签编码器之后,我再次使用了一个来自scikit-learn的Hot Encoder,它可以正常工作。但是问题是,我需要在一个热编码器之后添加列名。例如,A列在编码前具有分类值。A = [1,2,3,4,..]

编码后应该像这样

A-1,A-2,A-3

任何人都知道一种热编码后如何将列名分配给(旧列名-值名称或数字)。这是我的一种热门编码,它是输出的;

在此处输入图片说明

我需要带有名称的列,因为我训练了ANN,但是每次出现数据时,我都无法一次又一次地转换所有过去的数据。因此,我想每次仅添加新的。还是谢谢你

encoding scikit-learn one-hot-encoding

6
推荐指数
1
解决办法
2038
查看次数

使用 pandas 读取“csv”文件时解析日期时间

我试图在 \xe2\x80\x8b 从 cvs 文件中读取数据时解析日期。我使用的命令是

\n\n
df  = pd.read_csv('/Users/n....', names=names, parse_dates=['date'])\xe2\x80\x8b ) \n
Run Code Online (Sandbox Code Playgroud)\n\n

它一般都在处理我的文件。\n但是我有几个数据集,其日期格式多种多样。我的意思是它的日期格式就像那样(09/20/15 09:59\xe2\x80\x8b ),而其他行中的另一种格式就像( 2015-09-20 10:22:01.013\xe2\x80\x8b )同一文件中的那样。我上面写的命令不适用于这些文件。当我删除 (parse_dates=['date'])\xe2\x80\x8b 时它正在工作,但是当时我不能使用 date 列作为datetime格式,它将该列读取为 integer 。我将不胜感激任何人都可以回答这个问题!

\n

python csv date pandas

3
推荐指数
1
解决办法
1万
查看次数

标签 统计

csv ×1

date ×1

encoding ×1

one-hot-encoding ×1

pandas ×1

python ×1

scikit-learn ×1