小编Rah*_*wal的帖子

使用pandas/dataframe计算加权平均值

我有下表.我想根据下面的公式计算按每个日期分组的加权平均值.我可以使用一些标准的传统代码来做到这一点,但假设这些数据是在pandas数据帧中,有没有更简单的方法来实现这一点,而不是通过迭代?

Date        ID      wt      value   w_avg
01/01/2012  100     0.50    60      0.791666667
01/01/2012  101     0.75    80
01/01/2012  102     1.00    100
01/02/2012  201     0.50    100     0.722222222
01/02/2012  202     1.00    80
Run Code Online (Sandbox Code Playgroud)

01/01/2012 w_avg = 0.5*(60/sum(60,80,100))+ .75*(80/sum(60,80,100))+ 1.0*(100/sum(60,80,100))

01/02/2012 w_avg = 0.5*(100/sum(100,80))+ 1.0*(80/sum(100,80))

python numpy pandas

30
推荐指数
5
解决办法
5万
查看次数

在Windows Python中将不可搜索的Pdf转换为可搜索的Pdf

需要一个解决方案来转换PDF文件,其中每个页面都是图像,页面可以包含文本,表格或两者的组合到可搜索的pdf.

我使用过ABBY FineReader Online,它完美地完成了这项工作,但我正在寻找一种可以通过Windows Python实现的解决方案

我已经做了详细的分析,下面的链接接近我想要的但不完全是:

扫描图像/ PDF到可搜索图像/ PDF

它告诉我使用Ghost脚本将它转换为第一个图像然后它直接转换为文本.我不相信tesseract将不可搜索的内容转换为可搜索的PDF文件.

将可搜索的PDF转换为不可搜索的PDF

上述解决方案有助于反向转换,即将可搜索转换为不可搜索的.另外我认为这些在Ubuntu/Linux/MacOS中是有效的.

可有人请在讲述什么应该是在实现非搜索的可搜索的Python代码帮助的Windows的Python


更新1

我在Asprise Web Ocr上获得了理想的结果.以下是链接和代码:

https://asprise.com/royalty-free-library/python-ocr-api-overview.html

我正在寻找一种解决方案,只能通过Windows Python库来完成

  1. 将来无需支付订阅费用
  2. 我需要每天转换成千上万的文档,将一个文件上传到API然后下载等等都很麻烦.

更新2

我知道将不可搜索的pdf直接转换为文本的解决方案.但我正在寻找他们的任何方式将不可搜索的转换为可搜索的PDF.我有使用PyPDF2将PDF转换为文本的代码.

python pdf ocr python-3.x

15
推荐指数
2
解决办法
3730
查看次数

Python:从Office/Excel文档访问嵌入式OLE而不使用剪贴板

我想使用Python从Office/Excel文档中添加和提取文件.到目前为止添加东西很容易但是为了提取我还没有找到一个干净的解决方案.

为了清楚我已经得到了什么,我没有写下下面的小例子test.py并进一步解释.

test.py

import win32com.client as win32
import os 
from tkinter import messagebox
import win32clipboard

# (0) Setup
dir_path = os.path.dirname(os.path.realpath(__file__))
print(dir_path)
excel = win32.gencache.EnsureDispatch('Excel.Application')
wb = excel.Workbooks.Open(dir_path + "\\" + "test_excel.xlsx")
ws = wb.Worksheets.Item(1)
objs = ws.OLEObjects()

# (1) Embed file
f = dir_path + "\\" + "test_txt.txt"
name = "test_txt_ole.txt"
objs.Add( Filename=f, IconLabel=name )

# (2) Access embedded file
obj = objs.Item(1) # Get single OLE from OLE list
obj.Copy()
win32clipboard.OpenClipboard()
data = win32clipboard.GetClipboardData(0xC004) # Binary …
Run Code Online (Sandbox Code Playgroud)

python com excel ole ms-office

10
推荐指数
2
解决办法
3470
查看次数

导入错误:/lib/arm-linux-gnueabihf/libc.so.6:找不到版本“GLIBC_2.28”

我正在使用谷歌的这个教程

https://codelabs.developers.google.com/codelabs/cloud-iot-core-overview/index.html?index=..%2F..index#2

python cloudiot_pubsub_example_server.py直到遇到这个“ ”步骤,我才能够正确执行。

执行上述步骤后,我收到以下错误:

ImportError:/lib/arm-linux-gnueabihf/libc.so.6:找不到版本“GLIBC_2.28”(/home/pi/Desktop/python-docs-samples/iot/api-client/end_to_end_example/venv 需要/lib/python3.7/site-packages/grpc/_cython/cygrpc.cpython-37m-arm-linux-gnueabihf.so

我还附上了错误截图以供参考

python google-cloud-platform raspberry-pi3 raspbian-stretch

8
推荐指数
1
解决办法
2万
查看次数

如何在pandas数据框中的特定列中搜索字符串值,如果存在,则给出数据框中存在的该行的输出?

我希望搜索一个.pkl文件中的数据库。

我已经加载了.pkl文件,并将其存储在名为load_data的变量中。

现在,我需要使用原始输入来接受字符串输入,并在SMILES数据集的一个特定列' '中搜索该字符串。

如果字符串匹配,我需要显示整行,即与该行相对应的所有列值。

那有可能吗,如果可以,我应该怎么做?

search loops pandas sklearn-pandas

5
推荐指数
1
解决办法
1万
查看次数

将行转换为pandas dataframe中的列

我想转换到低于Df1到Df2.
空值将用Nan填充.
Dfs下面是例子.
我的数据有几周,从1到8.
ID是100,000.只有第8周有所有ID,所以总行数为100,000.
+)我的解释非常糟糕.这里有更多解释.
我有Df3,其中有100,000个id,我想将Df3上的df1合并为df2格式.
ex)pd.merge(df3,df1,on ="id",how ="left") - >但格式化为df2

 Df1>
 wk, id, col1, col2  ...
 1    1   0.5  15  
 2    2   0.5  15  
 3    3   0.5  15  
 1    2   0.5  15  
 3    2   0.5  15  

 ------
 Df2>
 wk1, id, col1, col2, wk2, id, col1, col2, wk3,  id, col1, col2,...
 1    1   0.5  15      2    1   Nan   Nan   3    1   Nan   Nan
 1    2   0.5  15      2    2   0.5  15     3    2   0.5    15
 1    3   Nan  Nan …
Run Code Online (Sandbox Code Playgroud)

python dataframe pandas pandas-groupby

5
推荐指数
1
解决办法
2235
查看次数

不同数据框的模糊匹配列

背景

我有 2 个数据框,没有可以将它们合并的公共密钥。两个 df 都有一个包含“实体名称”的列。一个 df 包含 8000 多个实体,另一个 df 包含接近 2000 个实体。

样本数据

vendor_df=
     Name of Vendor                             City         State  ZIP
     FREDDIE LEES AMERICAN GOURMET SAUCE       St. Louis    MO     63101
     CITYARCHRIVER 2015 FOUNDATION             St. Louis    MO     63102
     GLAXOSMITHKLINE CONSUMER HEALTHCARE       St. Louis    MO     63102
     LACKEY SHEET METAL                        St. Louis    MO     63102

regulator_df = 
     Name of Entity                    Committies
     LACKEY SHEET METAL                 Private
     PRIMUS STERILIZER COMPANY LLC      Private  
     HELGET GAS PRODUCTS INC            Autonomous
     ORTHOQUEST LLC                     Governmant  
Run Code Online (Sandbox Code Playgroud)

问题说明:

我必须模糊匹配这两个 ( Name …

python fuzzy-logic fuzzy-comparison pandas fuzzywuzzy

5
推荐指数
1
解决办法
8504
查看次数

将 Python 模块导入 AWS Lambda

我已遵循文档中的所有步骤: https://docs.aws.amazon.com/lambda/latest/dg/lambda-python-how-to-create-deployment-package.html

  1. 创建一个目录。

  2. 将所有 Python 源文件(.py 文件)保存在此目录的根级别。

  3. 使用 pip 在目录的根级别安装任何库。

  4. 压缩project-dir目录的内容)

但是将 zip 文件上传到lambda函数后,在测试脚本时收到错误消息

我的代码:

    import psycopg2
    #my code...
Run Code Online (Sandbox Code Playgroud)

错误:

    Unable to import module 'myfilemane': No module named 'psycopg2._psycopg'
Run Code Online (Sandbox Code Playgroud)

不知道这个后缀是哪里来'_psycopg'

对此有什么帮助吗?

python postgresql amazon-web-services aws-lambda

5
推荐指数
2
解决办法
3万
查看次数

在 Java 中调用 Python 3.x 函数

我想在Java中调用Python函数。我知道有 Jython,它附带了 Java 的 PythonInterpreter,但遗憾的是它只支持 Python 2.7。

为了更好地解释我想做的事情。假设给定文件中有以下 Python 代码:

@staticmethod
def my_first_function():
   print("Hi!")

@staticmethod
def my_second_function():
   print("Hi again!")
Run Code Online (Sandbox Code Playgroud)

我现在希望能够在 Java 中显式调用这样的函数:

PythonToJava pythonToJava = new PythonToJava("my/python/script/path");
pythonToJava.my_second_function(); 
pythonToJava.my_first_function();
Run Code Online (Sandbox Code Playgroud)

我如何使用/调用Python模块/脚本/类/等。在Java中?

python java module python-3.x

5
推荐指数
1
解决办法
3428
查看次数

重新启动cumsum,如果cumsum大于值,则获取索引

说我有一段距离x=[1,2,1,3,3,2,1,5,1,1]

我想从x到达总和达到10的索引,在这种情况下,idx = [4,9]。

因此,满足条件后,cumsum重新启动。

我可以使用循环来完成此操作,但是对于大型阵列而言,循环速度很慢,我想知道是否可以以某种vectorized方式进行。

python numpy pandas

5
推荐指数
3
解决办法
172
查看次数