小编Ale*_*ane的帖子

从PDF python中提取/识别表

是否有支持表格识别和提取的开源库?

我的意思是:

  1. 识别存在的表结构
  2. 从表中对表进行分类
  3. 以有用的输出格式从表中提取数据,例如JSON/CSV等.

我在这个主题上看了类似的问题,发现了以下内容:

  • PDFMiner解决问题3,但似乎用户需要指定PDFMiner,其中每个表都存在表结构(如果我错了,请纠正我)
  • pdf-table-extract尝试解决问题1但是根据待办事项列表,当前无法识别由空格分隔的表.这是一个问题,因为我的PDF中的所有表都是用空格分隔的!

目前,我认为我将不得不花费大量时间开发机器学习解决方案来识别PDF中的表格结构.因此,任何替代方法都非常受欢迎!

python pdf pdf-scraping scrape

43
推荐指数
3
解决办法
8万
查看次数

空列表的安全max()函数

评估,

max_val = max(a)
Run Code Online (Sandbox Code Playgroud)

会导致错误,

ValueError: max() arg is an empty sequence
Run Code Online (Sandbox Code Playgroud)

除了a try,exceptcatch 之外,还有更好的方法可以防止此错误吗?

a = []
try:
    max_val = max(a)
except ValueError:
    max_val = default 
Run Code Online (Sandbox Code Playgroud)

python error-handling exception list max

35
推荐指数
2
解决办法
2万
查看次数

获取PySpark中可见节点的数量

我在PySpark中运行一些操作,最近增加了配置中的节点数(在Amazon EMR上).然而,即使我将节点数量增加了两倍(从4到12),性能似乎也没有改变.因此,我想看看Spark是否可以看到新节点.

我正在调用以下函数:

sc.defaultParallelism
>>>> 2
Run Code Online (Sandbox Code Playgroud)

但我认为这告诉我分配给每个节点的任务总数,而不是Spark可以看到的代码总数.

如何查看PySpark在群集中使用的节点数量?

python-2.7 apache-spark pyspark

20
推荐指数
3
解决办法
1万
查看次数

numpy.isnan(value)与value == numpy.nan不一样?

为什么我会得到以下内容:

>>> v
nan
>>> type(v)
<type 'numpy.float64'>
>>> v == np.nan
False
>>> np.isnan(v)
True
Run Code Online (Sandbox Code Playgroud)

我原以为这两个应该是等价的?

python types boolean numpy nan

11
推荐指数
1
解决办法
8385
查看次数

如何在Tableau中显示轴

如何在以下折线图上重新启用y轴?

我试过点击各个地方没有成功.

没有y轴

visualization tableau-api axis-labels

9
推荐指数
1
解决办法
4万
查看次数

matplotlib窗口冻结/挂在关闭ipython与OS X.

此问题影响了我使用的每个人,更新到下面的当前最新版本.这只会影响ipython情节.常规python终端不受此问题的影响.

再生产

import matplotlib.pyplot as plt
plt.plot()
# manually close the window with `x`
Run Code Online (Sandbox Code Playgroud)

尝试plt.close()还会禁用三个本机OS X窗口按钮

解决方法

我们关闭的快捷方式ipython然后取消退出

^+d
Do you really want to exit ([y]/n)? n
Run Code Online (Sandbox Code Playgroud)

版本

ipython 5.0.0
matplotlib 1.5.1 
OS X El Capitan Version 10.11.6
Run Code Online (Sandbox Code Playgroud)

有关

plot matplotlib hang ipython

8
推荐指数
0
解决办法
719
查看次数

对分组的pandas数据帧中的行求和并返回NaN

import pandas as pd
import numpy as np
d = {'l':  ['left', 'right', 'left', 'right', 'left', 'right'],
     'r': ['right', 'left', 'right', 'left', 'right', 'left'],
     'v': [-1, 1, -1, 1, -1, np.nan]}
df = pd.DataFrame(d)
Run Code Online (Sandbox Code Playgroud)

问题

当分组的数据帧包含值np.NaNI时,希望分组的总和NaN是由skipna=False标志给出的,但是pd.Series.sum也是pd.DataFrame.sum如此

In [235]: df.v.sum(skipna=False)
Out[235]: nan
Run Code Online (Sandbox Code Playgroud)

但是,此行为未反映在pandas.DataFrame.groupby对象中

In [237]: df.groupby('l')['v'].sum()['right']
Out[237]: 2.0
Run Code Online (Sandbox Code Playgroud)

并且不能通过np.sum直接应用该方法强制使用

In [238]: df.groupby('l')['v'].apply(np.sum)['right']
Out[238]: 2.0
Run Code Online (Sandbox Code Playgroud)

解决方法

我可以通过这样做来解决这个问题

check_cols = ['v']
df['flag'] = df[check_cols].isnull().any(axis=1)
df.groupby('l')['v', 'flag'].apply(np.sum).apply(
    lambda x: …
Run Code Online (Sandbox Code Playgroud)

python numpy nan dataframe pandas

7
推荐指数
1
解决办法
1040
查看次数

我怎样才能在theano中获得一维卷积

我能找到的唯一功能是这里描述的 2D卷积...

有没有优化的1D功能?

python convolution theano

6
推荐指数
1
解决办法
3595
查看次数

什么是Python中使用的"__docformat__"?

我已经用Python编写了大约一年的代码,我刚刚在Theano教程中遇到了一些代码中它在文件的顶部声明了一个变量:

__docformat__ = 'restructedtext en'
Run Code Online (Sandbox Code Playgroud)

搜索互联网产生了这个 PEP文档.虽然它仍然没有清楚地解释何时/为什么要指定此变量.

我应该在所有Python代码的顶部声明它吗?

python documentation coding-style pep

6
推荐指数
1
解决办法
1518
查看次数

脱机安装python&pip

我需要在服务器上安装python才能运行脚本,但是服务器无法访问互联网。

服务器可以访问可以访问Internet *的本地网络。我想使用pip通过此处指定的本地网络目录来管理软件包。

如何在离线状态的Windows机器上安装pip,python及其依赖项,以便可以使用上述链接中指定的pip来管理所需的软件包?

*对于清晰度:我无权镜像,修改或以其他方式获取信息,直接从Internet通过本地网络传递信息。

python installation offline pip setuptools

5
推荐指数
1
解决办法
1万
查看次数