小编Tay*_*lrl的帖子

iloc给出'IndexError:单个位置索引器超出范围'

我正在尝试使用以下内容对某些信息进行编码以读入机器学习模型

import numpy as np
import pandas as pd
import matplotlib.pyplot as py

Dataset = pd.read_csv('filename.csv', sep = ',')

X = Dataset.iloc[:,:-1].values
Y = Dataset.iloc[:,18].values

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])
onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
Run Code Online (Sandbox Code Playgroud)

但是我收到了一个错误

runfile('C:/Users/name/Desktop/Machine Learning/Data preprocessing      template.py', wdir='C:/Users/taylorr2/Desktop/Machine Learning')
Traceback (most recent call last):

  File "<ipython-input-141-a5d1cd02c2df>", line 1, in <module>
    runfile('C:/Users/name/Desktop/Machine Learning/Data preprocessing  template.py', wdir='C:/Users/taylorr2/Desktop/Machine Learning')

  File "C:\Users\name\AppData\Local\Continuum\Anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", line 866, in runfile
    execfile(filename, namespace)

  File "C:\Users\name\AppData\Local\Continuum\Anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", …
Run Code Online (Sandbox Code Playgroud)

python machine-learning

34
推荐指数
3
解决办法
12万
查看次数

如何关联大熊猫中的分类栏?

我有一个df非数字列的DataFrame CatColumn.

   A         B         CatColumn
0  381.1396  7.343921  Medium
1  481.3268  6.786945  Medium
2  263.3766  7.628746  High
3  177.2400  5.225647  Medium-High
Run Code Online (Sandbox Code Playgroud)

我想CatColumn将相关性分析包含在Dataframe中的其他列中.我试过DataFrame.corr但它不包括相关性分析中具有名义值的列.

python correlation pandas scikit-learn categorical-data

16
推荐指数
1
解决办法
1万
查看次数

如何在我的应用中嵌入网站

我目前正在创建一个应用程序,只是现在我已经达到了一个点,我希望能够将一个网站嵌入到实际的应用程序中.问题是我希望能够在不离开应用程序的情况下查看网站,因此它以某种方式嵌入到应用程序中.我意识到这可能不像听起来那么简单,因为它几乎需要一个浏览器,虽然我不需要做任何浏览,我只需要加载网站然后显示它.这甚至可能(不是什么可能吗?)

谢谢!

android

7
推荐指数
1
解决办法
1万
查看次数

用 Python 复制 SAS 的第一个和最后一个功能

我最近迁移到 Python 作为我的主要分析工具,我希望能够复制第一个工具。& 最后的。SAS 中的功能。SAS 代码如下;

data data.out;
   set data.in;
   if first.ID then flag = 1;
   if last.ID then flag = 1;
run;
Run Code Online (Sandbox Code Playgroud)

输出如下;

ID     flag
AAAA   1
AAAA   0
AAAA   0
AAAA   1
BBBB   1
BBBB   0
BBBB   0
BBBB   1
CCCC   1
CCCC   0
CCCC   1
Run Code Online (Sandbox Code Playgroud)

关于如何在 Python 中执行此操作的任何想法?

python dataframe pandas

5
推荐指数
1
解决办法
3626
查看次数

pyspark.sql.utils.AnalysisException:u'无法推断 Parquet 的架构。必须手动指定。;'

这与上面帖子中给出的答案不同

我收到一个错误,内容为

pyspark.sql.utils.AnalysisException: u'Unable to infer schema for Parquet. It must be specified manually.;'
Run Code Online (Sandbox Code Playgroud)

当我尝试使用 Spark 2.1.0 读取这样的镶木地板文件时

data = spark.read.parquet('/myhdfs/location/')
Run Code Online (Sandbox Code Playgroud)

我已经通过 Hue WebPortal 查看 impala 表进行了检查,发现文件/表不为空。此外,我存储在类似目录中的其他文件读取起来也绝对没问题。根据记录,文件名包含连字符,但不包含下划线或句号/句点。

因此,以下帖子中的所有答案均不适用 Unable to infer schema when loading Parquet file

有任何想法吗?

apache-spark parquet pyspark

5
推荐指数
1
解决办法
2万
查看次数

使用 sci-kit learn 仅输入数值

因此,我有一个 DataFrame,其中包含当前12345按行排列的分类值和数值值171

我在分类变量和数值变量中都缺少值,我想在其中估算值。对于数字列,我正在执行以下操作;

import pandas as pd
import numpy as np

data = pd.read_csv('filepath')

from sklearn.preprocessing import Imputer
imp = Imputer(missing_values=np.nan, strategy='mean', axis=0)
data = imp.fit_transform(data)
Run Code Online (Sandbox Code Playgroud)

然后我收到以下错误

ValueError:无法将字符串转换为浮点数:'USD'

我理解这是因为我使用的 sci-kit learns imputer 与strategy='mean'分类变量不兼容。我宁愿不必遍历每一列并手动提取数值,因此我正在寻找一种只能在数值列上执行此插补的方法。

python preprocessor scikit-learn

5
推荐指数
1
解决办法
4293
查看次数

将字段分隔符作为 ctrl A 并将行分隔符作为 \n 的 ASCII 读取到 python 中

我有一个 ASCII 数据集,其中 ctrl A 字段分隔符和 \n 作为行分隔符。我希望将其读入 Python,并想知道如何处理它。我特别希望能够将这些信息读入 pandas 数据帧。

我目前有;

import pandas as pd
input = pd.read_csv('000000_0', sep='^A')
Run Code Online (Sandbox Code Playgroud)

然后我得到的错误是

_main__:1: ParserWarning: Falling back to the 'python' engine because the 'c' engine does 
not support regex separators; you can avoid this warning by specifying engine='python'.
Run Code Online (Sandbox Code Playgroud)

然后我也不知道如何指定行分隔符。

有任何想法吗?

提前致谢!

python ascii pandas

3
推荐指数
1
解决办法
5497
查看次数

为什么当我扩展列表时,它的类型是“NoneType”?

我正在寻找扩展列表并具有以下内容

ListA = list(x)
ListB = list(y)
ListC = ListA.extend(ListB)
Run Code Online (Sandbox Code Playgroud)

这给ListC具有<type 'NoneType'>和我很奇怪,为什么这不只是一个名单。

谢谢!

python list extend

3
推荐指数
1
解决办法
3607
查看次数

如何通过索引更改基于另一列的一列值

我有一个包含两列的数据框:

A    B

0    0
0    1
0    0
0    0 
0    0
0    1
Run Code Online (Sandbox Code Playgroud)

我想要一些代码来检查 B 列,当找到 1 时,该 INDEX 中的 A 列的值会像这样更改为 1;

A    B
0    0
1    1
1    0
1    0
1    0
1    1
Run Code Online (Sandbox Code Playgroud)

我的代码是这样的,但这不是我想要的:

df['A']= np.where(df['B'] == 1,df['A'], '1')
Run Code Online (Sandbox Code Playgroud)

python pandas

3
推荐指数
1
解决办法
36
查看次数

仅基于条件加入 python

我想加入,但仅在某些其他条件成立的情况下 True

我有一个df1看起来像这样的 DataFrame

ID    Bool   Val
1111  True   AAA
2222  False  BBB
3333  True   CCC
4444  False  DDD
Run Code Online (Sandbox Code Playgroud)

然后我有另一个df2像这样的DataFrame

ID    Val
1111  EEE
3333  FFF
5555  GGG
Run Code Online (Sandbox Code Playgroud)

我想覆盖Valdf1ID比赛和BoolTrue。这看起来像这样

ID    Bool   Val
1111  True   EEE 
2222  False  BBB
3333  True   FFF
4444  False  DDD
Run Code Online (Sandbox Code Playgroud)

如您所见,AAACCC已被覆盖。

我正在考虑用一个if声明来做这件事

python dataframe pandas

2
推荐指数
1
解决办法
136
查看次数

使用python中的公共ID将数据收集到一行

我有一个看起来像这样的 DataFrame

ID   Location1 Location2
AAA  Here      Null
AAA  Null      There
BBB  Here      Null
BBB  Null      There
Run Code Online (Sandbox Code Playgroud)

我想要做的是将每个 ID 的所有内容都拉到一行上以提供以下内容

ID   Location1 Location2
AAA  Here      There
BBB  Here      There
Run Code Online (Sandbox Code Playgroud)

我在想也许我可能想要使用groupbytransform?

python pandas

2
推荐指数
1
解决办法
32
查看次数

使用data.table根据使用r的条件对事件进行分组

我想基于某些标准使用R对数据进行分组.基本上我有一个事件列表,我希望根据相邻行中看到的特定活动模式进行划分.

No.      ID        DATE_EVENT   TIME_EVENT    EVENT   CODE
102995   018159871 07/08/2014   09:01:57      9008    1111
20398    018159871 07/08/2014   09:01:58      1000    1402
105541   018159871 07/08/2014   09:01:58      9210    1111
63492    018253609 07/08/2014   09:54:26      9008    905
37552    018253609 07/08/2014   09:54:45      9008    1111
9627     018253609 07/08/2014   09:54:48      9210    1111
112700   018253609 07/08/2014   09:54:48      1000    1402
50555    018253609 07/08/2014   09:55:56      1000    1401
63634    018253609 07/08/2014   09:55:56      9210    1111 
34551    018330948 07/08/2014   09:21:51      9008    905
47252    018330948 07/08/2014   09:22:15      9008    1111
3975     018330948 07/08/2014   09:22:17      1000    1402
24196 …
Run Code Online (Sandbox Code Playgroud)

grouping if-statement r data.table

1
推荐指数
1
解决办法
192
查看次数

为什么我不允许在MySQL的主键列中重复ID

我正在使用MySQL Workbench 6.0并导入一个相当大(~55MB)的.csv文件.第一列包含引用ID,第二列是日期.引用ID在第一天正常读取,但到第二天(当引用ID应该开始重复时),信息开始变得乱码,尽管日期仍然正确.

还值得注意的是,当我制作桌子时,我没有勾选联合国框.

我想知道这里发生了什么,是否有人可以帮助我.

谢谢!

mysql csv primary-key

-1
推荐指数
1
解决办法
295
查看次数