我有一个pandas DataFrame,它在一个系列中具有以下值
x = [2, 1, 76, 140, 286, 267, 60, 271, 5, 13, 9, 76, 77, 6, 2, 27, 22, 1, 12, 7, 19, 81, 11, 173, 13, 7, 16, 19, 23, 197, 167, 1]
Run Code Online (Sandbox Code Playgroud)
我被指示用Python 3.6在Jupyter笔记本中绘制两个直方图.没汗水吧?
x.plot.hist(bins=8)
plt.show()
Run Code Online (Sandbox Code Playgroud)
我选择了8箱,因为这对我来说最好.我还被指示使用x的日志绘制另一个直方图.
x.plot.hist(bins=8)
plt.xscale('log')
plt.show()
Run Code Online (Sandbox Code Playgroud)
这个直方图看起来很可怕.我没有做对吗?我试图摆弄情节,但我尝试的一切似乎都让直方图看起来更糟.例:
x.plot(kind='hist', logx=True)
Run Code Online (Sandbox Code Playgroud)
除了将X的对数绘制为直方图之外,我没有得到任何指示.
我非常感谢任何帮助!
为了记录,我导入了pandas,numpy和matplotlib,并指定绘图应该是内联的.
我已经使用pd.read_excel使用熊猫将xls文件读入Python
我正在尝试清理数据,但我走出了困境。
每个记录之间都有一个空白行。在示例图片中,它是excel第4、9和11行。
有一个注释列,在示例中(请参阅链接)指定为“ col_F”。每个记录都有至少一个包含文本的单元格。创建此xls文件的人将较长的注释拆分为多个单元格。
我想将col_F中用于特定记录的所有数据连接到一个单元格中。
一旦弄清楚如何正确连接col_F,我还将修剪空白记录。
我正在使用Python 3.5.0,numpy 1.12.0和pandas 0.19.2
这是我到目前为止的内容:
import numpy as np
import pandas as pd
data = pd.read_excel("C:/blah/blahblah/file.xls", header=0, nrows=10000)
df = pd.DataFrame(data)
Run Code Online (Sandbox Code Playgroud)
我感谢任何建议或见解!
谢谢!
我试图解决以下问题:找到Pop_Size_Group的每个值的每个数字列的平均值.我需要找出一种有效的方法来排除任何非数字变量.
这是我到目前为止:
library(dplyr)
df <- tbl_df(Demographics)
df %>%
group_by(Pop_Size_Group) %>%
summarise_each(funs(mean(., na.rm = TRUE)))
Run Code Online (Sandbox Code Playgroud)
代码产生了这个:
> df <- tbl_df(Demographics)
> df %>%
+ group_by(Pop_Size_Group) %>%
+ summarise_each(funs(mean(., na.rm = TRUE)))
# A tibble: 3 × 18
Pop_Size_Group County_name State Region_num Location Square_miles Population Pct_Age18_to_34 Pct_65_or_over
<chr> <lgl> <lgl> <dbl> <lgl> <dbl> <dbl> <dbl> <dbl>
1 Large NA NA 2.492958 NA 1239.3099 847193.0 28.96338 12.06197
2 Medium NA NA 2.465409 NA 861.3711 224348.6 28.30252 12.31572
3 Small NA NA …Run Code Online (Sandbox Code Playgroud)