我有下表.我想根据下面的公式计算按每个日期分组的加权平均值.我可以使用一些标准的传统代码来做到这一点,但假设这些数据是在pandas数据帧中,有没有更简单的方法来实现这一点,而不是通过迭代?
Date ID wt value w_avg
01/01/2012 100 0.50 60 0.791666667
01/01/2012 101 0.75 80
01/01/2012 102 1.00 100
01/02/2012 201 0.50 100 0.722222222
01/02/2012 202 1.00 80
Run Code Online (Sandbox Code Playgroud)
01/01/2012 w_avg = 0.5*(60/sum(60,80,100))+ .75*(80/sum(60,80,100))+ 1.0*(100/sum(60,80,100))
01/02/2012 w_avg = 0.5*(100/sum(100,80))+ 1.0*(80/sum(100,80))
需要一个解决方案来转换PDF文件,其中每个页面都是图像,页面可以包含文本,表格或两者的组合到可搜索的pdf.
我使用过ABBY FineReader Online,它完美地完成了这项工作,但我正在寻找一种可以通过Windows Python实现的解决方案
我已经做了详细的分析,下面的链接接近我想要的但不完全是:
它告诉我使用Ghost脚本将它转换为第一个图像然后它直接转换为文本.我不相信tesseract将不可搜索的内容转换为可搜索的PDF文件.
上述解决方案有助于反向转换,即将可搜索转换为不可搜索的.另外我认为这些在Ubuntu/Linux/MacOS中是有效的.
可有人请在讲述什么应该是在实现非搜索的可搜索的Python代码帮助的Windows的Python?
更新1
我在Asprise Web Ocr上获得了理想的结果.以下是链接和代码:
https://asprise.com/royalty-free-library/python-ocr-api-overview.html
我正在寻找一种解决方案,只能通过Windows Python库来完成
更新2
我知道将不可搜索的pdf直接转换为文本的解决方案.但我正在寻找他们的任何方式将不可搜索的转换为可搜索的PDF.我有使用PyPDF2将PDF转换为文本的代码.
我想使用Python从Office/Excel文档中添加和提取文件.到目前为止添加东西很容易但是为了提取我还没有找到一个干净的解决方案.
为了清楚我已经得到了什么,我没有写下下面的小例子test.py并进一步解释.
test.py
import win32com.client as win32
import os
from tkinter import messagebox
import win32clipboard
# (0) Setup
dir_path = os.path.dirname(os.path.realpath(__file__))
print(dir_path)
excel = win32.gencache.EnsureDispatch('Excel.Application')
wb = excel.Workbooks.Open(dir_path + "\\" + "test_excel.xlsx")
ws = wb.Worksheets.Item(1)
objs = ws.OLEObjects()
# (1) Embed file
f = dir_path + "\\" + "test_txt.txt"
name = "test_txt_ole.txt"
objs.Add( Filename=f, IconLabel=name )
# (2) Access embedded file
obj = objs.Item(1) # Get single OLE from OLE list
obj.Copy()
win32clipboard.OpenClipboard()
data = win32clipboard.GetClipboardData(0xC004) # Binary …Run Code Online (Sandbox Code Playgroud) 我正在使用谷歌的这个教程
python cloudiot_pubsub_example_server.py直到遇到这个“ ”步骤,我才能够正确执行。
执行上述步骤后,我收到以下错误:
ImportError:/lib/arm-linux-gnueabihf/libc.so.6:找不到版本“GLIBC_2.28”(/home/pi/Desktop/python-docs-samples/iot/api-client/end_to_end_example/venv 需要/lib/python3.7/site-packages/grpc/_cython/cygrpc.cpython-37m-arm-linux-gnueabihf.so
我还附上了错误截图以供参考
我希望搜索一个.pkl文件中的数据库。
我已经加载了.pkl文件,并将其存储在名为load_data的变量中。
现在,我需要使用原始输入来接受字符串输入,并在SMILES数据集的一个特定列' '中搜索该字符串。
如果字符串匹配,我需要显示整行,即与该行相对应的所有列值。
那有可能吗,如果可以,我应该怎么做?
我想转换到低于Df1到Df2.
空值将用Nan填充.
Dfs下面是例子.
我的数据有几周,从1到8.
ID是100,000.只有第8周有所有ID,所以总行数为100,000.
+)我的解释非常糟糕.这里有更多解释.
我有Df3,其中有100,000个id,我想将Df3上的df1合并为df2格式.
ex)pd.merge(df3,df1,on ="id",how ="left") - >但格式化为df2
Df1>
wk, id, col1, col2 ...
1 1 0.5 15
2 2 0.5 15
3 3 0.5 15
1 2 0.5 15
3 2 0.5 15
------
Df2>
wk1, id, col1, col2, wk2, id, col1, col2, wk3, id, col1, col2,...
1 1 0.5 15 2 1 Nan Nan 3 1 Nan Nan
1 2 0.5 15 2 2 0.5 15 3 2 0.5 15
1 3 Nan Nan …Run Code Online (Sandbox Code Playgroud) 背景
我有 2 个数据框,没有可以将它们合并的公共密钥。两个 df 都有一个包含“实体名称”的列。一个 df 包含 8000 多个实体,另一个 df 包含接近 2000 个实体。
样本数据:
vendor_df=
Name of Vendor City State ZIP
FREDDIE LEES AMERICAN GOURMET SAUCE St. Louis MO 63101
CITYARCHRIVER 2015 FOUNDATION St. Louis MO 63102
GLAXOSMITHKLINE CONSUMER HEALTHCARE St. Louis MO 63102
LACKEY SHEET METAL St. Louis MO 63102
regulator_df =
Name of Entity Committies
LACKEY SHEET METAL Private
PRIMUS STERILIZER COMPANY LLC Private
HELGET GAS PRODUCTS INC Autonomous
ORTHOQUEST LLC Governmant
Run Code Online (Sandbox Code Playgroud)
问题说明:
我必须模糊匹配这两个 ( Name …
我已遵循文档中的所有步骤: https://docs.aws.amazon.com/lambda/latest/dg/lambda-python-how-to-create-deployment-package.html
创建一个目录。
将所有 Python 源文件(.py 文件)保存在此目录的根级别。
使用 pip 在目录的根级别安装任何库。
压缩project-dir目录的内容)
但是将 zip 文件上传到lambda函数后,在测试脚本时收到错误消息
我的代码:
import psycopg2
#my code...
Run Code Online (Sandbox Code Playgroud)
错误:
Unable to import module 'myfilemane': No module named 'psycopg2._psycopg'
Run Code Online (Sandbox Code Playgroud)
不知道这个后缀是哪里来'_psycopg'的
对此有什么帮助吗?
我想在Java中调用Python函数。我知道有 Jython,它附带了 Java 的 PythonInterpreter,但遗憾的是它只支持 Python 2.7。
为了更好地解释我想做的事情。假设给定文件中有以下 Python 代码:
@staticmethod
def my_first_function():
print("Hi!")
@staticmethod
def my_second_function():
print("Hi again!")
Run Code Online (Sandbox Code Playgroud)
我现在希望能够在 Java 中显式调用这样的函数:
PythonToJava pythonToJava = new PythonToJava("my/python/script/path");
pythonToJava.my_second_function();
pythonToJava.my_first_function();
Run Code Online (Sandbox Code Playgroud)
我如何使用/调用Python模块/脚本/类/等。在Java中?
说我有一段距离x=[1,2,1,3,3,2,1,5,1,1]。
我想从x到达总和达到10的索引,在这种情况下,idx = [4,9]。
因此,满足条件后,cumsum重新启动。
我可以使用循环来完成此操作,但是对于大型阵列而言,循环速度很慢,我想知道是否可以以某种vectorized方式进行。
python ×9
pandas ×5
numpy ×2
python-3.x ×2
aws-lambda ×1
com ×1
dataframe ×1
excel ×1
fuzzy-logic ×1
fuzzywuzzy ×1
java ×1
loops ×1
module ×1
ms-office ×1
ocr ×1
ole ×1
pdf ×1
postgresql ×1
search ×1