Sklearn Pipeline:http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html
DataFrameMapper:https://github.com/paulgb/sklearn-pandas
他们之间有什么区别?
在我看来,sklearn管道具有更多功能,但DataFrameMapper对我来说更加干净.
我有一个数据框,我有这些列名称
我想要做的是在特定条件满足时(我使用掩码定义)将'city'的值指定为'dubai'.
这就是我正在做的事情:
matches[((matches['team1']=='mi') & (matches['team2']=='rcb') & (matches['date']=='2014-04-19')),'city']='Dubai'
Run Code Online (Sandbox Code Playgroud)
当所有上述条件满足时,我想将'city'(现在为null)中的值更改为'Dubai'
出现的问题:
'系列'对象是可变的,因此它们不能被散列
我怎样才能做到这一点?
我的数据是这样的:
[第一行是标题]
Name,Email,Age
Sachith,ko@gmail.com,23
Sim,sm@gmail.com,234
Yoshi,yosi@hotmail.com,2345
sarla,sarla@gmail.com,234
Run Code Online (Sandbox Code Playgroud)
我想访问元素,使行按标签指定为整数和列.即对SIM卡,我想访问它[1,"名称"]等上
我的问题是我应该使用loc还是ix?
看看文档,我对什么是熊猫索引感到困惑?是用于访问行还是列或两者?当我尝试打印这些数据的索引时,我得到一个(4,)dtype = int64数组[0,1,2,3].那么,列不是索引的一部分吗?
我有一个csv文件有25列,有些是数字的,有些是绝对的,有些像演员,导演的名字.我想在这些数据上使用回归模型.为此,我必须使用scikit包中的LabelBinarizer将分类列字符串类型转换为数值.如何在具有多个分类数据的数据框上使用LabelBinarize?
基本上我想要将标签二值化并将它们添加到数据帧中.
在下面的代码中,我检索了我想要binarize的列的列表,但是无法弄清楚如何将新列添加回df?
categorylist = ['color', 'language', 'country', 'content_rating']
for col in categorylist:
tempdf = label_binarizer.fit_transform(df[col])
Run Code Online (Sandbox Code Playgroud)
在接下来的步骤,我想加入tempdf到df并删除原始列DF [COL].
我尝试为机器学习项目进行以下导入:
from sklearn import preprocessing, cross_validation, svm
from sklearn.linear_model import LinearRegression
Run Code Online (Sandbox Code Playgroud)
我收到此错误消息:
Traceback (most recent call last):
File "C:/Users/Abdelhalim/PycharmProjects/ML/stock pricing.py", line 4, in <module>
from sklearn import preprocessing, cross_validation, svm
File "C:\Python27\lib\site-packages\sklearn\__init__.py", line 57, in <module>
from .base import clone
File "C:\Python27\lib\site-packages\sklearn\base.py", line 12, in <module>
from .utils.fixes import signature
File "C:\Python27\lib\site-packages\sklearn\utils\__init__.py", line 11, in <module>
from .validation import (as_float_array,
File "C:\Python27\lib\site-packages\sklearn\utils\validation.py", line 18, in <module>
from ..utils.fixes import signature
File "C:\Python27\lib\site-packages\sklearn\utils\fixes.py", line 291, in <module>
from scipy.sparse.linalg import lsqr …Run Code Online (Sandbox Code Playgroud) 嗨,我正在使用 Pandas 并显示一张表格。我有一个功能可以应用交替行颜色以使其清晰易读。使用下面的代码我在邮件中发送表格并且它有效。
我的代码:
count = 1000
df = pandas.DataFrame.from_dict(result)
df["Total"] = df.T.sum()
html = """<!DOCTYPE html>
<html>
<body>
<h3> %i</h3>
{table_content}
</body>
</html>
""" % count
# Create message container - the correct MIME type is
# multipart/alternative.
msg = MIMEMultipart('alternative')
msg['Subject'] = " Report"
msg['From'] = sender
msg['To'] = recipients
part2 = MIMEText(html.df(
table_content=df.to_html(na_rep="0")), 'html')
msg.attach(part2)
Run Code Online (Sandbox Code Playgroud) 让我们假设,有一个这样的表:
Id | Type | Guid
Run Code Online (Sandbox Code Playgroud)
我在这样的表上执行以下操作:
df = df.groupby('Id')
Run Code Online (Sandbox Code Playgroud)
现在,我将通过首先要迭代n行对于每一个特定Id的list打印全部来自列相应的条目Guid。请帮我解决一个问题。
我希望搜索一个.pkl文件中的数据库。
我已经加载了.pkl文件,并将其存储在名为load_data的变量中。
现在,我需要使用原始输入来接受字符串输入,并在SMILES数据集的一个特定列' '中搜索该字符串。
如果字符串匹配,我需要显示整行,即与该行相对应的所有列值。
那有可能吗,如果可以,我应该怎么做?
我想测量熊猫DataFrame中文本之间的jaccard相似度。更确切地说,我有一些实体组,并且一段时间内每个实体都有一些文本。我想针对每个实体分别分析一段时间内的文本相似度(此处为Jaccard相似度)。
一个最小的例子来说明我的观点:
import pandas as pd
entries = [
{'Entity_Id':'Firm1', 'date':'2001-02-05', 'text': 'This is a text'},
{'Entity_Id':'Firm1', 'date':'2001-03-07', 'text': 'This is a text'},
{'Entity_Id':'Firm1', 'date':'2003-01-04', 'text': 'No similarity'},
{'Entity_Id':'Firm1', 'date':'2007-10-12', 'text': 'Some similarity'},
{'Entity_Id':'Firm2', 'date':'2001-10-10', 'text': 'Another firm'},
{'Entity_Id':'Firm2', 'date':'2005-12-03', 'text': 'Another year'},
{'Entity_Id':'Firm3', 'date':'2002-05-05', 'text': 'Something different'}
]
df = pd.DataFrame(entries)
Run Code Online (Sandbox Code Playgroud)
Entity_Id日期文字
Firm1 2001-02-05 'This is a text'
Firm1 2001-03-07 'This is a text'
Firm1 2003-01-04 'No similarity'
Firm1 2007-10-12 'Some similarity'
Firm2 2001-10-10 'Another firm'
Firm2 2005-12-03 'Another …Run Code Online (Sandbox Code Playgroud) 问题
股票交易的ML数据准备.我在大型DataFrame(可能n=800000 x f=20)上有3-Dim MultiIndex .一个指数维度date具有大约dt=1000水平,其他指数标识m=800不同的股票(每个具有20个特征,每个股票个体).因此,对于每个日期,有800 x 20个不同的值.
现在我有dt=1000 x g=30 全球时间序列(如道琼斯工业平均指数,货币汇率等),因此每个日期的30个值对于每个股票都是相同的.这是一个单独的索引DataFrame,只有日期作为索引.
问题1
如何合并这两个数据集,以便将30系列广播到每个库存上以形成最终(800000 x 50)?
问题2
有没有办法实现这一点,不是通过复制后30列的数据,而是通过查看原始数据来节省内存?根据我提到的数字,我仍然可以达到~300 MB的float64精度,这仍然可以.但我很好奇.
例
下面是一个小例子f=2,g=1,m=4和dt=3我已经得到了什么:
import pandas as pd
data = {
'x': [5,6,7,3,4,5,1,1,0,12,15,14],
'y': [4,6,5,5,4,3,2,0,1,13,14,13]
}
dates = [pd.to_datetime('2018-01-01'), pd.to_datetime('2018-01-02'), pd.to_datetime('2018-01-03')]
index = pd.MultiIndex.from_arrays([
['alpha'] * 6 + ['beta'] * 6,
['A'] * 3 + ['B'] * 3 + ['C'] * …Run Code Online (Sandbox Code Playgroud) sklearn-pandas ×10
pandas ×7
python ×7
scikit-learn ×3
dataframe ×1
dll ×1
loops ×1
pipeline ×1
python-2.7 ×1
python-3.x ×1
scipy ×1
search ×1
similarity ×1
sqlite ×1