我必须处理的数据有点乱.它的数据中包含头名.如何从现有的pandas数据框中选择一行并将其(重命名为)列标题?
我想做的事情如下:
header = df[df['old_header_name1'] == 'new_header_name1']
df.columns = header
Run Code Online (Sandbox Code Playgroud) 使用spacy添加/删除停用词的最佳方法是什么?我正在使用token.is_stop函数,并希望对集合进行一些自定义更改.我正在查看文档,但找不到关于停用词的任何内容.谢谢!
如何在两个具有不同名称的列上合并两个pandas DataFrame并保留其中一列?
df1 = pd.DataFrame({'UserName': [1,2,3], 'Col1':['a','b','c']})
df2 = pd.DataFrame({'UserID': [1,2,3], 'Col2':['d','e','f']})
pd.merge(df1, df2, left_on='UserName', right_on='UserID')
Run Code Online (Sandbox Code Playgroud)
这提供了这样的DataFrame
但显然我正在合并UserName,UserID所以他们是一样的.我希望它看起来像这样.有没有干净的方法来做到这一点?
只有我能想到的方法是在合并之前将列重新命名为相同,或者在合并之后删除其中一列.如果熊猫自动掉落其中一个或者我可以做类似的话,我会很高兴
pd.merge(df1, df2, left_on='UserName', right_on='UserID', keep_column='left')
Run Code Online (Sandbox Code Playgroud) 我有一个不规则日期的熊猫数据帧.有没有办法使用7天作为移动窗口来计算中位数绝对偏差,中位数等.?我觉得我可以以某种方式使用,pandas.rolling_apply但它不会占用窗口参数的不规则间隔日期.我发现了一个类似的帖子/sf/answers/2117081361/,我正在尝试创建我的自定义功能,但仍然无法弄清楚..任何人都可以帮忙吗?
import pandas as pd
from datetime import datetime
person = ['A','B','C','B','A','C','A','B','C','A',]
ts = [
datetime(2000, 1, 1),
datetime(2000, 1, 1),
datetime(2000, 1, 10),
datetime(2000, 1, 20),
datetime(2000, 1, 25),
datetime(2000, 1, 30),
datetime(2000, 2, 8),
datetime(2000, 2, 12),
datetime(2000, 2, 17),
datetime(2000, 2, 20),
]
score = [9,2,1,3,8,4,2,3,1,9]
df = pd.DataFrame({'ts': ts, 'person': person, 'score': score})
Run Code Online (Sandbox Code Playgroud)
df看起来像这样
person score ts
0 A 9 2000-01-01
1 B 2 2000-01-01
2 C 1 2000-01-10
3 …Run Code Online (Sandbox Code Playgroud) 你能帮忙附上两个多索引的熊猫数据帧吗?试图将df_future附加到df_current.COMPANY和DATE是索引.
df_current
VALUE
COMPANY DATE
7/27/2015 1
A 7/28/2015 2
7/29/2015 3
7/30/2015 4
7/27/2015 11
B 7/28/2015 12
7/29/2015 13
7/30/2015 14
Run Code Online (Sandbox Code Playgroud)
df_future
VALUE
COMPANY DATE
A 8/1/2015 5
8/2/2015 6
B 8/1/2015 15
8/2/2015 16
Run Code Online (Sandbox Code Playgroud)
基于这些dfs,想看看..
df_current_and_future
VALUE
COMPANY DATE
7/27/2015 1
7/28/2015 2
A 7/29/2015 3
7/30/2015 4
8/1/2015 5
8/2/2015 6
7/27/2015 11
7/28/2015 12
B 7/29/2015 13
7/30/2015 14
8/1/2015 15
8/2/2015 16
Run Code Online (Sandbox Code Playgroud) 这是我的Python的Pandas数据帧.如何访问左上角的单元格"gender"并更改文本?"gender"不在names.columns.所以我认为这可能是,names.index.name但那不是它.
import pandas as pd
names = pd.DataFrame({'births': {0: 7065, 1: 2604, 2: 2003, 3: 1939, 4: 1746},
'gender': {0: 'F', 1: 'M', 2: 'F', 3: 'M', 4: 'F'},
'name': {0: 'mary', 1: 'anna', 2: 'emma', 3: 'elizabeth', 4: 'minnie'},
'year': {0: 1880, 1: 1880, 2: 1880, 3: 1880, 4: 1880}})
names = names.pivot_table(index=['name', 'year'], columns='gender', values='births').reset_index()
Run Code Online (Sandbox Code Playgroud)
当我添加c到熊猫图时,x刻度标签消失了。有人知道如何将它们重新添加吗?
import pandas as pd
df = pd.DataFrame(
{'mean': {0: 10,
1: 16,
2: 18,
3: 22,
4: 30},
'size': {0: 103, 1: 2509, 2: 41939, 3: 145997, 4: 143530},
'value': {0: 1.5, 1: 4.5, 2: 7.5, 3: 10.5, 4: 13.5}}
)
ax = df.plot(kind='scatter', x='value', y='mean', s=60, c='size', cmap='RdYlGn')
Run Code Online (Sandbox Code Playgroud)
试图手动添加x刻度标签,但仍然无法正常工作。
ax.set_xticks(df['value'])
ax.set_xticklabels(df['value'])
Run Code Online (Sandbox Code Playgroud) 我想通过比较 A 列和 B 列中的值来比较两个 Pandas 数据帧并找出仅在 df1 中的行。我觉得我可以通过使用合并以某种方式执行此操作,但无法弄清楚..
import pandas as pd
df1 = pd.DataFrame([[1,11, 111], [2,22, 222], [3, 33, 333]], columns=['A', 'B', 'C'])
df2 = pd.DataFrame([[1, 11]], columns=['A', 'B'])
Run Code Online (Sandbox Code Playgroud)
df1
A B C
0 1 11 111
1 2 22 222
2 3 33 333
Run Code Online (Sandbox Code Playgroud)
df2
A B
0 1 11
Run Code Online (Sandbox Code Playgroud)
我想看的数据框
A B C
1 2 22 222
2 3 33 333
Run Code Online (Sandbox Code Playgroud) 我想使用引导程序将一长段字符串显示到表格单元格中。它包含一些换行符\r\n。style="white-space:pre"我尝试按照stackoverflow 帖子的建议使用,但这会破坏引导程序文本换行。我也尝试过更改,\r\n但<br>没有成功。<br>显示为文本。
这就是我的桌子的样子..
<table id="table1" class="table table-bordered">
<tbody>
<tr>
<th class="col-md-2" scope="row">Description</th>
<td id="description">Very long test with \r\n so I want to show this in multiline and also want to wrap the text using bootstrap.</td>
</tr>
</tbody>
</table>
Run Code Online (Sandbox Code Playgroud) 我正在使用 R notebook 预览文件。即使所有代码都在一个块中,一行也被分成了两部分。你能告诉我如何解决这个问题吗?
但是,当我运行这个块时,它被分成两部分。
我不确定这是否重要,但这是我正在运行的代码。
library(MASS)
par(mfrow=c(3,1))
hist(galaxies, breaks=500)
hist(galaxies, breaks=100)
hist(galaxies, breaks=50)
Run Code Online (Sandbox Code Playgroud)
这里还有 R 和 RStudio 的版本。我是 R 的新手,所以我不确定是什么原因造成的。如果您需要任何其他信息,请告诉我。谢谢
R 版本 3.3.2 (2016-10-31)
Rstudio 版本 1.0.136
python ×8
pandas ×7
dataframe ×2
merge ×2
html ×1
html-table ×1
join ×1
knitr ×1
matplotlib ×1
multi-index ×1
nlp ×1
plot ×1
r ×1
r-markdown ×1
rename ×1
rnotebook ×1
rstudio ×1
spacy ×1
stop-words ×1
text ×1
time-series ×1
word-wrap ×1