标签: sklearn-pandas

sklearn Pipeline和DataFrameMapper有什么区别?

Sklearn Pipeline:http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html

DataFrameMapper:https://github.com/paulgb/sklearn-pandas

他们之间有什么区别?

在我看来,sklearn管道具有更多功能,但DataFrameMapper对我来说更加干净.

pipeline scikit-learn sklearn-pandas

6
推荐指数
1
解决办法
4898
查看次数

如果定义的掩码为true,如何更改特定的列值?

我有一个数据框,我有这些列名称

  • 'TEAM1',
  • 'TEAM2',
  • '市',
  • '日期'.

我想要做的是在特定条件满足时(我使用掩码定义)将'city'的值指定为'dubai'.

这就是我正在做的事情:

 matches[((matches['team1']=='mi') & (matches['team2']=='rcb') & (matches['date']=='2014-04-19')),'city']='Dubai'
Run Code Online (Sandbox Code Playgroud)

当所有上述条件满足时,我想将'city'(现在为null)中的值更改为'Dubai'

出现的问题:

'系列'对象是可变的,因此它们不能被散列

我怎样才能做到这一点?

dataframe pandas sklearn-pandas

6
推荐指数
1
解决办法
995
查看次数

按标签Pandas按整数和列访问行

我的数据是这样的:

[第一行是标题]

Name,Email,Age
Sachith,ko@gmail.com,23
Sim,sm@gmail.com,234
Yoshi,yosi@hotmail.com,2345
sarla,sarla@gmail.com,234
Run Code Online (Sandbox Code Playgroud)

我想访问元素,使行按标签指定为整数和列.即对SIM卡,我想访问它[1,"名称"]等上

我的问题是我应该使用loc还是ix

看看文档,我对什么是熊猫索引感到困惑?是用于访问行还是列或两者?当我尝试打印这些数据的索引时,我得到一个(4,)dtype = int64数组[0,1,2,3].那么,列不是索引的一部分吗?

python pandas sklearn-pandas

6
推荐指数
1
解决办法
5435
查看次数

LabelBinarizer用于数据框中的多个列

我有一个csv文件有25列,有些是数字的,有些是绝对的,有些像演员,导演的名字.我想在这些数据上使用回归模型.为此,我必须使用scikit包中的LabelBinarizer将分类列字符串类型转换为数值.如何在具有多个分类数据的数据框上使用LabelBinarize?

样本数据

基本上我想要将标签二值化并将它们添加到数据帧中.

在下面的代码中,我检索了我想要binarize的列的列表,但是无法弄清楚如何将新列添加回df?

categorylist = ['color', 'language', 'country', 'content_rating']
for col in categorylist:
    tempdf = label_binarizer.fit_transform(df[col])
Run Code Online (Sandbox Code Playgroud)

在接下来的步骤,我想加入tempdfdf并删除原始列DF [COL].

python scipy scikit-learn sklearn-pandas

5
推荐指数
1
解决办法
4265
查看次数

尝试导入sklearn模块时出错:ImportError:DLL加载失败:找不到指定的模块

我尝试为机器学习项目进行以下导入:

from sklearn import preprocessing, cross_validation, svm
from sklearn.linear_model import LinearRegression
Run Code Online (Sandbox Code Playgroud)

我收到此错误消息:

Traceback (most recent call last):
  File "C:/Users/Abdelhalim/PycharmProjects/ML/stock pricing.py", line 4, in <module>
    from sklearn import preprocessing, cross_validation, svm
  File "C:\Python27\lib\site-packages\sklearn\__init__.py", line 57, in <module>
    from .base import clone
  File "C:\Python27\lib\site-packages\sklearn\base.py", line 12, in <module>
    from .utils.fixes import signature
  File "C:\Python27\lib\site-packages\sklearn\utils\__init__.py", line 11, in <module>
    from .validation import (as_float_array,
  File "C:\Python27\lib\site-packages\sklearn\utils\validation.py", line 18, in <module>
    from ..utils.fixes import signature
  File "C:\Python27\lib\site-packages\sklearn\utils\fixes.py", line 291, in <module>
    from scipy.sparse.linalg import lsqr …
Run Code Online (Sandbox Code Playgroud)

python dll machine-learning sklearn-pandas

5
推荐指数
2
解决办法
9347
查看次数

python3 + Pandas 样式 + 更改备用行颜色

嗨,我正在使用 Pandas 并显示一张表格。我有一个功能可以应用交替行颜色以使其清晰易读。使用下面的代码我在邮件中发送表格并且它有效。

我的代码:

count = 1000
df = pandas.DataFrame.from_dict(result)
df["Total"] = df.T.sum()

html = """<!DOCTYPE html>
<html>
    <body>
    <h3> %i</h3>
    {table_content}
    </body>
</html>
""" % count


# Create message container - the correct MIME type is
# multipart/alternative.
msg = MIMEMultipart('alternative')
msg['Subject'] = " Report"
msg['From'] = sender
msg['To'] = recipients


part2 = MIMEText(html.df(
    table_content=df.to_html(na_rep="0")), 'html')

msg.attach(part2)
Run Code Online (Sandbox Code Playgroud)

python python-2.7 python-3.x pandas sklearn-pandas

5
推荐指数
2
解决办法
6746
查看次数

如何遍历 Pandas DataFrameGroupBy 并为特定列选择每个分组变量的所有条目?

让我们假设,有一个这样的表:

Id | Type | Guid
Run Code Online (Sandbox Code Playgroud)

我在这样的表上执行以下操作:

df = df.groupby('Id')
Run Code Online (Sandbox Code Playgroud)

现在,我将通过首先要迭代n行对于每一个特定Idlist打印全部来自列相应的条目Guid。请帮我解决一个问题。

python sqlite pandas sklearn-pandas

5
推荐指数
1
解决办法
1万
查看次数

如何在pandas数据框中的特定列中搜索字符串值,如果存在,则给出数据框中存在的该行的输出?

我希望搜索一个.pkl文件中的数据库。

我已经加载了.pkl文件,并将其存储在名为load_data的变量中。

现在,我需要使用原始输入来接受字符串输入,并在SMILES数据集的一个特定列' '中搜索该字符串。

如果字符串匹配,我需要显示整行,即与该行相对应的所有列值。

那有可能吗,如果可以,我应该怎么做?

search loops pandas sklearn-pandas

5
推荐指数
1
解决办法
1万
查看次数

大熊猫DataFrame中文本的Jaccard相似度

我想测量熊猫DataFrame中文本之间的jaccard相似度。更确切地说,我有一些实体组,并且一段时间内每个实体都有一些文本。我想针对每个实体分别分析一段时间内的文本相似度(此处为Jaccard相似度)。

一个最小的例子来说明我的观点:


import pandas as pd

entries = [
    {'Entity_Id':'Firm1', 'date':'2001-02-05', 'text': 'This is a text'},
    {'Entity_Id':'Firm1', 'date':'2001-03-07', 'text': 'This is a text'},
    {'Entity_Id':'Firm1', 'date':'2003-01-04', 'text': 'No similarity'},
    {'Entity_Id':'Firm1', 'date':'2007-10-12', 'text': 'Some similarity'},
    {'Entity_Id':'Firm2', 'date':'2001-10-10', 'text': 'Another firm'},
    {'Entity_Id':'Firm2', 'date':'2005-12-03', 'text': 'Another year'},
    {'Entity_Id':'Firm3', 'date':'2002-05-05', 'text': 'Something different'}
    ]

df = pd.DataFrame(entries)
Run Code Online (Sandbox Code Playgroud)

Entity_Id日期文字

Firm1   2001-02-05   'This is a text' 
Firm1   2001-03-07   'This is a text'
Firm1   2003-01-04   'No similarity'
Firm1   2007-10-12   'Some similarity'
Firm2   2001-10-10   'Another firm'
Firm2   2005-12-03   'Another …
Run Code Online (Sandbox Code Playgroud)

python similarity pandas scikit-learn sklearn-pandas

5
推荐指数
1
解决办法
1417
查看次数

pandas:在MultiIndex DataFrame上复制/广播单个索引的DataFrame:HowTo和Memory Efficiency

问题

股票交易的ML数据准备.我在大型DataFrame(可能n=800000 x f=20)上有3-Dim MultiIndex .一个指数维度date具有大约dt=1000水平,其他指数标识m=800不同的股票(每个具有20个特征,每个股票个体).因此,对于每个日期,有800 x 20个不同的值.

现在我有dt=1000 x g=30 全球时间序列(如道琼斯工业平均指数,货币汇率等),因此每个日期的30个值对于每个股票都是相同的.这是一个单独的索引DataFrame,只有日期作为索引.

问题1

如何合并这两个数据集,以便将30系列广播到每个库存上以形成最终(800000 x 50)

问题2

有没有办法实现这一点,不是通过复制后30列的数据,而是通过查看原始数据来节省内存?根据我提到的数字,我仍然可以达到~300 MB的float64精度,这仍然可以.但我很好奇.

下面是一个小例子f=2,g=1,m=4dt=3我已经得到了什么:

import pandas as pd

data = {
    'x': [5,6,7,3,4,5,1,1,0,12,15,14],
    'y': [4,6,5,5,4,3,2,0,1,13,14,13]
}

dates = [pd.to_datetime('2018-01-01'), pd.to_datetime('2018-01-02'), pd.to_datetime('2018-01-03')]

index = pd.MultiIndex.from_arrays([
    ['alpha'] * 6 + ['beta'] * 6,
    ['A'] * 3 + ['B'] * 3 + ['C'] * …
Run Code Online (Sandbox Code Playgroud)

python pandas sklearn-pandas

5
推荐指数
1
解决办法
327
查看次数