这是我的问题,希望有人能帮助我解决。
解释一下,我的数据集中有10多个类别列,每个列都有200-300个类别。我想将它们转换为二进制值。为此,我使用了第一个标签编码器将字符串类别转换为数字。标签编码器代码和输出如下所示。
在使用标签编码器之后,我再次使用了一个来自scikit-learn的Hot Encoder,它可以正常工作。但是问题是,我需要在一个热编码器之后添加列名。例如,A列在编码前具有分类值。A = [1,2,3,4,..]
编码后应该像这样
A-1,A-2,A-3
任何人都知道一种热编码后如何将列名分配给(旧列名-值名称或数字)。这是我的一种热门编码,它是输出的;
我需要带有名称的列,因为我训练了ANN,但是每次出现数据时,我都无法一次又一次地转换所有过去的数据。因此,我想每次仅添加新的。还是谢谢你
我试图在 \xe2\x80\x8b 从 cvs 文件中读取数据时解析日期。我使用的命令是
\n\ndf = pd.read_csv('/Users/n....', names=names, parse_dates=['date'])\xe2\x80\x8b ) \nRun Code Online (Sandbox Code Playgroud)\n\n它一般都在处理我的文件。\n但是我有几个数据集,其日期格式多种多样。我的意思是它的日期格式就像那样(09/20/15 09:59\xe2\x80\x8b ),而其他行中的另一种格式就像( 2015-09-20 10:22:01.013\xe2\x80\x8b )同一文件中的那样。我上面写的命令不适用于这些文件。当我删除 (parse_dates=['date'])\xe2\x80\x8b 时它正在工作,但是当时我不能使用 date 列作为datetime格式,它将该列读取为 integer 。我将不胜感激任何人都可以回答这个问题!