从PDF python中提取/识别表

是否有支持表格识别和提取的开源库？

我的意思是:

识别存在的表结构
从表中对表进行分类
以有用的输出格式从表中提取数据,例如JSON/CSV等.

我在这个主题上看了类似的问题,发现了以下内容:

PDFMiner解决问题3,但似乎用户需要指定PDFMiner,其中每个表都存在表结构(如果我错了,请纠正我)
pdf-table-extract尝试解决问题1但是根据待办事项列表,当前无法识别由空格分隔的表.这是一个问题,因为我的PDF中的所有表都是用空格分隔的!

目前,我认为我将不得不花费大量时间开发机器学习解决方案来识别PDF中的表格结构.因此,任何替代方法都非常受欢迎!

python pdf pdf-scraping scrape

Ale*_*ane

lucky-day

43
推荐指数

3
解决办法

8万
查看次数

空列表的安全max()函数

评估,

max_val = max(a)

Run Code Online (Sandbox Code Playgroud)

会导致错误,

ValueError: max() arg is an empty sequence

Run Code Online (Sandbox Code Playgroud)

除了a try,exceptcatch 之外,还有更好的方法可以防止此错误吗？

a = []
try:
    max_val = max(a)
except ValueError:
    max_val = default

Run Code Online (Sandbox Code Playgroud)

python error-handling exception list max

Ale*_*ane

2016 03-23

35
推荐指数

2
解决办法

2万
查看次数

获取PySpark中可见节点的数量

我在PySpark中运行一些操作,最近增加了配置中的节点数(在Amazon EMR上).然而,即使我将节点数量增加了两倍(从4到12),性能似乎也没有改变.因此,我想看看Spark是否可以看到新节点.

我正在调用以下函数:

sc.defaultParallelism
>>>> 2

Run Code Online (Sandbox Code Playgroud)

但我认为这告诉我分配给每个节点的任务总数,而不是Spark可以看到的代码总数.

如何查看PySpark在群集中使用的节点数量？

python-2.7 apache-spark pyspark

Bry*_*yan

2017 07-05

20
推荐指数

3
解决办法

1万
查看次数

numpy.isnan(value)与value == numpy.nan不一样？

为什么我会得到以下内容:

>>> v
nan
>>> type(v)
<type 'numpy.float64'>
>>> v == np.nan
False
>>> np.isnan(v)
True

Run Code Online (Sandbox Code Playgroud)

我原以为这两个应该是等价的？

python types boolean numpy nan

Ale*_*ane

lucky-day

11
推荐指数

1
解决办法

8385
查看次数

如何在Tableau中显示轴

如何在以下折线图上重新启用y轴？

我试过点击各个地方没有成功.

没有y轴

visualization tableau-api axis-labels

Ale*_*ane

2015 02-12

9
推荐指数

1
解决办法

4万
查看次数

matplotlib窗口冻结/挂在关闭ipython与OS X.

此问题影响了我使用的每个人,更新到下面的当前最新版本.这只会影响ipython情节.常规python终端不受此问题的影响.

再生产

import matplotlib.pyplot as plt
plt.plot()
# manually close the window with `x`

Run Code Online (Sandbox Code Playgroud)

尝试plt.close()还会禁用三个本机OS X窗口按钮

解决方法

我们关闭的快捷方式ipython然后取消退出

^+d
Do you really want to exit ([y]/n)? n

Run Code Online (Sandbox Code Playgroud)

版本

ipython 5.0.0
matplotlib 1.5.1 
OS X El Capitan Version 10.11.6

Run Code Online (Sandbox Code Playgroud)

有关

plot matplotlib hang ipython

Ale*_*ane

2017 05-23

8
推荐指数

0
解决办法

719
查看次数

对分组的pandas数据帧中的行求和并返回NaN

例

import pandas as pd
import numpy as np
d = {'l':  ['left', 'right', 'left', 'right', 'left', 'right'],
     'r': ['right', 'left', 'right', 'left', 'right', 'left'],
     'v': [-1, 1, -1, 1, -1, np.nan]}
df = pd.DataFrame(d)

Run Code Online (Sandbox Code Playgroud)

问题

当分组的数据帧包含值np.NaNI时,希望分组的总和NaN是由skipna=False标志给出的,但是pd.Series.sum也是pd.DataFrame.sum如此

In [235]: df.v.sum(skipna=False)
Out[235]: nan

Run Code Online (Sandbox Code Playgroud)

但是,此行为未反映在pandas.DataFrame.groupby对象中

In [237]: df.groupby('l')['v'].sum()['right']
Out[237]: 2.0

Run Code Online (Sandbox Code Playgroud)

并且不能通过np.sum直接应用该方法强制使用

In [238]: df.groupby('l')['v'].apply(np.sum)['right']
Out[238]: 2.0

Run Code Online (Sandbox Code Playgroud)

解决方法

我可以通过这样做来解决这个问题

check_cols = ['v']
df['flag'] = df[check_cols].isnull().any(axis=1)
df.groupby('l')['v', 'flag'].apply(np.sum).apply(
    lambda x: …

Run Code Online (Sandbox Code Playgroud)

python numpy nan dataframe pandas

Ale*_*ane

lucky-day

7
推荐指数

1
解决办法

1040
查看次数

我怎样才能在theano中获得一维卷积

我能找到的唯一功能是这里描述的 2D卷积...

有没有优化的1D功能？

python convolution theano

Ale*_*ane

lucky-day

6
推荐指数

1
解决办法

3595
查看次数

什么是Python中使用的"docformat"？

我已经用Python编写了大约一年的代码,我刚刚在Theano教程中遇到了一些代码中它在文件的顶部声明了一个变量:

__docformat__ = 'restructedtext en'

Run Code Online (Sandbox Code Playgroud)

搜索互联网产生了这个 PEP文档.虽然它仍然没有清楚地解释何时/为什么要指定此变量.

我应该在所有Python代码的顶部声明它吗？

python documentation coding-style pep

Ale*_*ane

2018 02-08

6
推荐指数

1
解决办法

1518
查看次数

脱机安装python＆pip

我需要在服务器上安装python才能运行脚本，但是服务器无法访问互联网。

服务器可以访问可以访问Internet *的本地网络。我想使用pip通过此处指定的本地网络目录来管理软件包。

如何在离线状态的Windows机器上安装pip，python及其依赖项，以便可以使用上述链接中指定的pip来管理所需的软件包？

*对于清晰度：我无权镜像，修改或以其他方式获取信息，直接从Internet通过本地网络传递信息。

python installation offline pip setuptools

Ale*_*ane

2015 05-12

5
推荐指数

1
解决办法

1万
查看次数

标签统计

python ×7

nan ×2

numpy ×2

apache-spark ×1

axis-labels ×1

boolean ×1

coding-style ×1

convolution ×1

dataframe ×1

documentation ×1

error-handling ×1

exception ×1

hang ×1

installation ×1

ipython ×1

list ×1

matplotlib ×1

max ×1

offline ×1

pandas ×1

pdf ×1

pdf-scraping ×1

pep ×1

pip ×1

plot ×1

pyspark ×1

python-2.7 ×1

scrape ×1

setuptools ×1

tableau-api ×1

theano ×1

types ×1

visualization ×1

小编Ale*_*ane的帖子

再生产

解决方法

版本

有关

例

问题

解决方法

标签 统计

小编Ale_ane的帖子

标签统计