小编Tom*_*mmy的帖子

使用Matplotlib在对数刻度上绘制直方图

我有一个pandas DataFrame,它在一个系列中具有以下值

x = [2, 1, 76, 140, 286, 267, 60, 271, 5, 13, 9, 76, 77, 6, 2, 27, 22, 1, 12, 7, 19, 81, 11, 173, 13, 7, 16, 19, 23, 197, 167, 1]
Run Code Online (Sandbox Code Playgroud)

我被指示用Python 3.6在Jupyter笔记本中绘制两个直方图.没汗水吧?

x.plot.hist(bins=8)
plt.show()
Run Code Online (Sandbox Code Playgroud)

我选择了8箱,因为这对我来说最好.我还被指示使用x的日志绘制另一个直方图.

x.plot.hist(bins=8)
plt.xscale('log')
plt.show()
Run Code Online (Sandbox Code Playgroud)

这个直方图看起来很可怕.我没有做对吗?我试图摆弄情节,但我尝试的一切似乎都让直方图看起来更糟.例:

x.plot(kind='hist', logx=True)
Run Code Online (Sandbox Code Playgroud)

除了将X的对数绘制为直方图之外,我没有得到任何指示.

我非常感谢任何帮助!

为了记录,我导入了pandas,numpy和matplotlib,并指定绘图应该是内联的.

python statistics numpy matplotlib pandas

14
推荐指数
3
解决办法
2万
查看次数

使用pandas包使用python清理Excel数据

我已经使用pd.read_excel使用熊猫将xls文件读入Python

我正在尝试清理数据,但我走出了困境。

每个记录之间都有一个空白行。在示例图片中,它是excel第4、9和11行。

有一个注释列,在示例中(请参阅链接)指定为“ col_F”。每个记录都有至少一个包含文本的单元格。创建此xls文件的人将较长的注释拆分为多个单元格。

我想将col_F中用于特定记录的所有数据连接到一个单元格中。

一旦弄清楚如何正确连接col_F,我还将修剪空白记录。

我正在使用Python 3.5.0,numpy 1.12.0和pandas 0.19.2

这是我到目前为止的内容:

import numpy as np
import pandas as pd

data = pd.read_excel("C:/blah/blahblah/file.xls", header=0, nrows=10000)
df = pd.DataFrame(data)
Run Code Online (Sandbox Code Playgroud)

我感谢任何建议或见解!

谢谢!

原始数据的外观: 在此处输入图片说明

更新:这是我加载到Python中时数据的外观 原始数据读入python

这就是我期望的结果: 我希望数据框在完成后的样子

python numpy python-3.x pandas

5
推荐指数
1
解决办法
5027
查看次数

如何在dplyr语句中排除非数字列

我试图解决以下问题:找到Pop_Size_Group的每个值的每个数字列的平均值.我需要找出一种有效的方法来排除任何非数字变量.

这是我到目前为止:

library(dplyr)
    df <- tbl_df(Demographics)

df %>%
  group_by(Pop_Size_Group) %>%
  summarise_each(funs(mean(., na.rm = TRUE)))
Run Code Online (Sandbox Code Playgroud)

代码产生了这个:

> df <- tbl_df(Demographics)
> df %>%
+   group_by(Pop_Size_Group) %>%
+   summarise_each(funs(mean(., na.rm = TRUE)))

# A tibble: 3 × 18
  Pop_Size_Group County_name State Region_num Location Square_miles Population Pct_Age18_to_34 Pct_65_or_over
           <chr>       <lgl> <lgl>      <dbl>    <lgl>        <dbl>      <dbl>           <dbl>          <dbl>
1          Large          NA    NA   2.492958       NA    1239.3099   847193.0        28.96338       12.06197
2         Medium          NA    NA   2.465409       NA     861.3711   224348.6        28.30252       12.31572
3          Small          NA    NA …
Run Code Online (Sandbox Code Playgroud)

r dplyr tidyr

0
推荐指数
1
解决办法
1811
查看次数

标签 统计

numpy ×2

pandas ×2

python ×2

dplyr ×1

matplotlib ×1

python-3.x ×1

r ×1

statistics ×1

tidyr ×1