我正在尝试使用以下内容对某些信息进行编码以读入机器学习模型
import numpy as np
import pandas as pd
import matplotlib.pyplot as py
Dataset = pd.read_csv('filename.csv', sep = ',')
X = Dataset.iloc[:,:-1].values
Y = Dataset.iloc[:,18].values
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X = LabelEncoder()
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])
onehotencoder = OneHotEncoder(categorical_features = [0])
X = onehotencoder.fit_transform(X).toarray()
Run Code Online (Sandbox Code Playgroud)
但是我收到了一个错误
runfile('C:/Users/name/Desktop/Machine Learning/Data preprocessing template.py', wdir='C:/Users/taylorr2/Desktop/Machine Learning')
Traceback (most recent call last):
File "<ipython-input-141-a5d1cd02c2df>", line 1, in <module>
runfile('C:/Users/name/Desktop/Machine Learning/Data preprocessing template.py', wdir='C:/Users/taylorr2/Desktop/Machine Learning')
File "C:\Users\name\AppData\Local\Continuum\Anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", line 866, in runfile
execfile(filename, namespace)
File "C:\Users\name\AppData\Local\Continuum\Anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", …Run Code Online (Sandbox Code Playgroud) 我有一个df非数字列的DataFrame CatColumn.
A B CatColumn
0 381.1396 7.343921 Medium
1 481.3268 6.786945 Medium
2 263.3766 7.628746 High
3 177.2400 5.225647 Medium-High
Run Code Online (Sandbox Code Playgroud)
我想CatColumn将相关性分析包含在Dataframe中的其他列中.我试过DataFrame.corr但它不包括相关性分析中具有名义值的列.
我目前正在创建一个应用程序,只是现在我已经达到了一个点,我希望能够将一个网站嵌入到实际的应用程序中.问题是我希望能够在不离开应用程序的情况下查看网站,因此它以某种方式嵌入到应用程序中.我意识到这可能不像听起来那么简单,因为它几乎需要一个浏览器,虽然我不需要做任何浏览,我只需要加载网站然后显示它.这甚至可能(不是什么可能吗?)
谢谢!
我最近迁移到 Python 作为我的主要分析工具,我希望能够复制第一个工具。& 最后的。SAS 中的功能。SAS 代码如下;
data data.out;
set data.in;
if first.ID then flag = 1;
if last.ID then flag = 1;
run;
Run Code Online (Sandbox Code Playgroud)
输出如下;
ID flag
AAAA 1
AAAA 0
AAAA 0
AAAA 1
BBBB 1
BBBB 0
BBBB 0
BBBB 1
CCCC 1
CCCC 0
CCCC 1
Run Code Online (Sandbox Code Playgroud)
关于如何在 Python 中执行此操作的任何想法?
这与上面帖子中给出的答案不同
我收到一个错误,内容为
pyspark.sql.utils.AnalysisException: u'Unable to infer schema for Parquet. It must be specified manually.;'
Run Code Online (Sandbox Code Playgroud)
当我尝试使用 Spark 2.1.0 读取这样的镶木地板文件时
data = spark.read.parquet('/myhdfs/location/')
Run Code Online (Sandbox Code Playgroud)
我已经通过 Hue WebPortal 查看 impala 表进行了检查,发现文件/表不为空。此外,我存储在类似目录中的其他文件读取起来也绝对没问题。根据记录,文件名包含连字符,但不包含下划线或句号/句点。
因此,以下帖子中的所有答案均不适用 Unable to infer schema when loading Parquet file
有任何想法吗?
因此,我有一个 DataFrame,其中包含当前12345按行排列的分类值和数值值171。
我在分类变量和数值变量中都缺少值,我想在其中估算值。对于数字列,我正在执行以下操作;
import pandas as pd
import numpy as np
data = pd.read_csv('filepath')
from sklearn.preprocessing import Imputer
imp = Imputer(missing_values=np.nan, strategy='mean', axis=0)
data = imp.fit_transform(data)
Run Code Online (Sandbox Code Playgroud)
然后我收到以下错误
ValueError:无法将字符串转换为浮点数:'USD'
我理解这是因为我使用的 sci-kit learns imputer 与strategy='mean'分类变量不兼容。我宁愿不必遍历每一列并手动提取数值,因此我正在寻找一种只能在数值列上执行此插补的方法。
我有一个 ASCII 数据集,其中 ctrl A 字段分隔符和 \n 作为行分隔符。我希望将其读入 Python,并想知道如何处理它。我特别希望能够将这些信息读入 pandas 数据帧。
我目前有;
import pandas as pd
input = pd.read_csv('000000_0', sep='^A')
Run Code Online (Sandbox Code Playgroud)
然后我得到的错误是
_main__:1: ParserWarning: Falling back to the 'python' engine because the 'c' engine does
not support regex separators; you can avoid this warning by specifying engine='python'.
Run Code Online (Sandbox Code Playgroud)
然后我也不知道如何指定行分隔符。
有任何想法吗?
提前致谢!
我正在寻找扩展列表并具有以下内容
ListA = list(x)
ListB = list(y)
ListC = ListA.extend(ListB)
Run Code Online (Sandbox Code Playgroud)
这给ListC具有<type 'NoneType'>和我很奇怪,为什么这不只是一个名单。
谢谢!
我有一个包含两列的数据框:
A B
0 0
0 1
0 0
0 0
0 0
0 1
Run Code Online (Sandbox Code Playgroud)
我想要一些代码来检查 B 列,当找到 1 时,该 INDEX 中的 A 列的值会像这样更改为 1;
A B
0 0
1 1
1 0
1 0
1 0
1 1
Run Code Online (Sandbox Code Playgroud)
我的代码是这样的,但这不是我想要的:
df['A']= np.where(df['B'] == 1,df['A'], '1')
Run Code Online (Sandbox Code Playgroud) 我想加入,但仅在某些其他条件成立的情况下 True
我有一个df1看起来像这样的 DataFrame
ID Bool Val
1111 True AAA
2222 False BBB
3333 True CCC
4444 False DDD
Run Code Online (Sandbox Code Playgroud)
然后我有另一个df2像这样的DataFrame
ID Val
1111 EEE
3333 FFF
5555 GGG
Run Code Online (Sandbox Code Playgroud)
我想覆盖Val列df1在ID比赛和Bool为True。这看起来像这样
ID Bool Val
1111 True EEE
2222 False BBB
3333 True FFF
4444 False DDD
Run Code Online (Sandbox Code Playgroud)
如您所见,AAA和CCC已被覆盖。
我正在考虑用一个if声明来做这件事
我有一个看起来像这样的 DataFrame
ID Location1 Location2
AAA Here Null
AAA Null There
BBB Here Null
BBB Null There
Run Code Online (Sandbox Code Playgroud)
我想要做的是将每个 ID 的所有内容都拉到一行上以提供以下内容
ID Location1 Location2
AAA Here There
BBB Here There
Run Code Online (Sandbox Code Playgroud)
我在想也许我可能想要使用groupby或transform?
我想基于某些标准使用R对数据进行分组.基本上我有一个事件列表,我希望根据相邻行中看到的特定活动模式进行划分.
No. ID DATE_EVENT TIME_EVENT EVENT CODE
102995 018159871 07/08/2014 09:01:57 9008 1111
20398 018159871 07/08/2014 09:01:58 1000 1402
105541 018159871 07/08/2014 09:01:58 9210 1111
63492 018253609 07/08/2014 09:54:26 9008 905
37552 018253609 07/08/2014 09:54:45 9008 1111
9627 018253609 07/08/2014 09:54:48 9210 1111
112700 018253609 07/08/2014 09:54:48 1000 1402
50555 018253609 07/08/2014 09:55:56 1000 1401
63634 018253609 07/08/2014 09:55:56 9210 1111
34551 018330948 07/08/2014 09:21:51 9008 905
47252 018330948 07/08/2014 09:22:15 9008 1111
3975 018330948 07/08/2014 09:22:17 1000 1402
24196 …Run Code Online (Sandbox Code Playgroud) 我正在使用MySQL Workbench 6.0并导入一个相当大(~55MB)的.csv文件.第一列包含引用ID,第二列是日期.引用ID在第一天正常读取,但到第二天(当引用ID应该开始重复时),信息开始变得乱码,尽管日期仍然正确.
还值得注意的是,当我制作桌子时,我没有勾选联合国框.
我想知道这里发生了什么,是否有人可以帮助我.
谢谢!
python ×9
pandas ×6
dataframe ×2
scikit-learn ×2
android ×1
apache-spark ×1
ascii ×1
correlation ×1
csv ×1
data.table ×1
extend ×1
grouping ×1
if-statement ×1
list ×1
mysql ×1
parquet ×1
preprocessor ×1
primary-key ×1
pyspark ×1
r ×1