我在Windows(64位)上使用Python 3.5和最新版本的Anaconda.我想使用安装Basemap conda install basemap.显然Python 3和底图之间存在冲突.经过一些谷歌搜索后,我发现Python 3 for Windows用户不支持底图(例如:https://groups.google.com/a/continuum.io/forum/#!topic / anaconda/TjAwi3ilQaU).
出于显而易见的原因,我不想降级到Python 2.那么最简单的替代解决方案是什么?
在此先感谢您的帮助和建议.
我正在使用 tesseract(通过 python 包装器)来从文档中提取文本。这些文档不包含任何图像或表格,仅包含文本。
是否有任何选项可以将标题/标题与文本区分开来?理想情况下,我希望能够拥有类似于 xml 树的东西,而不是完整的字符串链(我不需要查看文档布局)。
我找到了一些似乎能够提供帮助的第三方工具,但我想知道是否可以直接从 tesseract 中完成。
我不确定我是否理解min_periodsPandasrolling函数中的参数:为什么它必须小于window参数?我想用十个值的窗口计算(例如)滚动最大值减去滚动最小值,但我想在开始计算之前等待 20 个值:
In[1]: import pandas as pd
In[2]: import numpy as np
In[3]: df = pd.DataFrame(columns=['A','B'], data=np.random.randint(low=0,high=100,size=(100,2)))
In[4]: roll = df['A'].rolling(window=10, min_periods=20)
In[5]: df['C'] = roll.max() - roll.min()
In[6]: roll
Out[6]: Rolling [window=10,min_periods=20,center=False,axis=0]
In[7]: df['C'] = roll.max()-roll.min()
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
ValueError: Invalid min_periods size 20 greater than window 10
Run Code Online (Sandbox Code Playgroud)
我认为这min_periods是为了告诉函数在开始计算之前必须等待多少个值。文档说:
min_periods : int, 默认无
具有值所需的窗口中最小观察数(否则结果为 NA)
我没有注意这里的“窗口内”细节......那么实现我想要实现的目标的最有效方法是什么?我应该做这样的事情:
roll = df.loc[20:,'A'].rolling(window=10)
df['C'] = roll.max() - roll.min()
Run Code Online (Sandbox Code Playgroud)
有没有更有效的方法?