小编doo*_*ooz的帖子

将dict中的列表转换为Series

我正在尝试从HTML输入文件中读取行并准备Series/DataFrames,以便最终创建图形.我正在使用lxml的objectify来获取HTML数据并将它们转换为列表.每当我尝试获取列表数据并创建一个Series或DataFrame时,我得到一个Series(或DataFrame),其中包含的元素数量等于列表中的项目数,但元素的数据是我的列表本身.

我能说明问题的最简单方法是:

from lxml import etree
from lxml import objectify
from pandas import Series
line='<tr class="alt"><td>192.168.1.0</td><td>XXDHCP</td><td>Y</td><td>255</td><td>0</td><td>YYDHCP</td><td>Y</td><td>250</td><td>0</td><td>0%</td><td>505</td><td>505</td><td>0</td><td></td></tr>'
htmldata=(objectify.fromstring(line)).getchildren()
htmlseries=Series(htmldata)
Run Code Online (Sandbox Code Playgroud)

htmlseries最终看起来像:

0     [[[192.168.1.0, XXDHCP, Y, 255, 0, YYDHCP, Y, ...
1     [[[192.168.1.0, XXDHCP, Y, 255, 0, YYDHCP, Y, ...
2     [[[192.168.1.0, XXDHCP, Y, 255, 0, YYDHCP, Y, ...
3     [[[192.168.1.0, XXDHCP, Y, 255, 0, YYDHCP, Y, ...
4     [[[192.168.1.0, XXDHCP, Y, 255, 0, YYDHCP, Y, ...
5     [[[192.168.1.0, XXDHCP, Y, 255, 0, YYDHCP, Y, ...
6     [[[192.168.1.0, XXDHCP, Y, 255, 0, YYDHCP, …
Run Code Online (Sandbox Code Playgroud)

python python-3.x pandas

7
推荐指数
1
解决办法
3628
查看次数

使用pandas read_csv和nrows读取~13000行CSV文件的部分内容

我正在尝试将CS​​V文件的片段读入pandas DataFrame,当我将nrows设置为超过某个点时,我遇到了麻烦.我的CSV文件被拆分为具有不同标题/数据类型的不同段,因此我浏览了该文件并找到了不同段的行号,并保存了行号.当我尝试做的时候:

pd.io.parsers.read_csv('filename',skiprows=40, nrows=12646)
Run Code Online (Sandbox Code Playgroud)

它工作正常.更多行,它会抛出一个错误:

CParserError: Error tokenizing data. C error: Expected 56 fields in line 13897, saw 71
Run Code Online (Sandbox Code Playgroud)

确实,13897行有那么多行,这就是我试图使用nrows和skiprows的原因.我可以找到pandas将读取的最后一行,它与其余部分看起来没什么不同.在十六进制编辑器中查看文件,我仍然没有看到任何区别.

我也尝试过另一个CSV文件,我得到了类似的结果:

pd.io.parsers.read_csv('file2',skiprows=112, nrows=18524)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 18188 entries, 0 to 18187
Run Code Online (Sandbox Code Playgroud)

但:

pd.io.parsers.read_csv('file2',skiprows=112, nrows=18525)
Run Code Online (Sandbox Code Playgroud)

得到:

CParserError: Error tokenizing data. C error: Expected 56 fields in line 19190, saw 71
Run Code Online (Sandbox Code Playgroud)

有什么我想念的吗?还有另一种方法吗?

我使用的是:pandas-0.10.1.win-amd64-py3.3,numpy-MKL-1.7.1rc1.win-amd64-py3.3,和python-3.3.0.amd64在Windows上.我得到同样的问题numpy-unoptimized-1.7.1rc1.win-amd64-py3.3.

python csv python-3.x pandas

5
推荐指数
1
解决办法
4573
查看次数

标签 统计

pandas ×2

python ×2

python-3.x ×2

csv ×1