相关疑难解决方法(0)

如何在Mac上安装Java 8

我想用最新的JavaFX进行一些编程,这需要Java 8.我使用的是IntelliJ 13 CE和Mac OS X 9 Mavericks.我运行了Oracle的Java 8安装程序,文件看起来就像是他们最终的结果

/Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk

Run Code Online (Sandbox Code Playgroud)

但以前的版本是

/System/Library/Java/JavaFrameworks/jdk1.6....

Run Code Online (Sandbox Code Playgroud)

不知道为什么最新的安装程序将其放入/Library而不是/System/Library(也没有区别).但是/usr/libexec/java_home找不到1.8,所以我发现的关于如何设置当前java版本的所有帖子都不起作用.我已经尝试添加一个符号链接,使其看起来像1.8在/System/Library...路径中,但它没有帮助./usr/libexec/java_home -V仍然只列出旧的Java 1.6.

具有讽刺意味的是,"系统偏好设置"下的"Java"控制面板仅显示Java 1.8!

为什么Oracle的安装程序没有把它放到真正的位置？我该如何解决这个问题？

java macos java-8

use*_*100

2019 02-18

847
推荐指数

27
解决办法

65万
查看次数

用于将PDF转换为文本的Python模块

哪些是将PDF文件转换为文本的最佳Python模块？

python pdf text-extraction pdf-scraping

cnu*_*cnu

2017 07-10

378
推荐指数

9
解决办法

32万
查看次数

在Python 3.4中从PDF文本提取的最佳工具

我使用的是Python 3.4,需要从PDF中提取所有文本,然后将其用于文本处理.

我见过的所有答案都提出了Python 2.7的选项.

我需要Python 3.4中的东西.

Bonson

pdf python-3.x

Bon*_*son

lucky-day

40
推荐指数

2
解决办法

4万
查看次数

使用Python搜索PDF中的文本？

问题
我试图通过搜索文本来确定文档的类型(例如恳求,通信,传票等),最好使用python.所有的PDF都是可搜索的,但是我还没有找到解决方案,用python解析它并应用脚本来搜索它(首先不是将它转换为文本文件,但对于n个文档来说这可能是资源密集型的).

到目前为止
我做了什么我已经研究过 pypdf,pdfminer,adobe pdf文档,以及我能找到的任何问题(虽然似乎没有一个直接解决这个问题).PDFminer似乎最具潜力,但在阅读完文档之后我甚至不确定从哪里开始.

是否有一种简单有效的方法可以通过页面,行或整个文档来阅读PDF文本？或任何其他解决方法？

python pdf parsing text

Ins*_*rov

lucky-day

26
推荐指数

6
解决办法

6万
查看次数

如何从Python中提取PDF文件中的文本？

我尝试了以下方法:

import sys
import pyPdf

def convertPdf2String(path):
      content = ""
      pdf = pyPdf.PdfFileReader(file(path, "rb"))
      for i in range(0, pdf.getNumPages()):
          content += pdf.getPage(i).extractText() + " \n"
          content = " ".join(content.replace(u"\xa0", u" ").strip().split())
      return content

f = open('a.txt','w+')

f.write(convertPdf2String(sys.argv[1]).encode("ascii","xmlcharrefreplace"))
f.close()

Run Code Online (Sandbox Code Playgroud)

但结果如下,而不是可读文本:

728;~˚!""˘˙˝˛˛˛˛〜˘˛˙"˘"〜#$˙˚%&˘˛〜'˙% ˝˛˙~~'#$%&('%$&))$ $ +%#, - .+ &&˝())˝) ˝+ ,, - ./ 012)(˝)*˝+, - 3˙/ 0245)6#57 + 82,55)6#57 +,+ 2,+ /!#!!&˘˘1"%˘20˛˛307%4!˘"6˛ ˝˝&/&4"9%6%4%4&5˘2)˘˘˛%:6(

python pypdf

los*_*ost

2013 03-23

19
推荐指数

1
解决办法

3万
查看次数

我如何在python中阅读pdf？

我如何在python中阅读pdf？ 我知道将其转换为文本的一种方法,但我想直接从pdf中阅读内容.

任何人都可以解释python中哪个模块最适合pdf提取

python pdf text-extraction python-2.7

sg1*_*994

lucky-day

13
推荐指数

3
解决办法

10万
查看次数

将Tika与python一起使用，runtimeError：无法启动tika服务器

我正在尝试使用tika包来解析文件。Tika已成功安装，tika-server-1.18.jar并在cmd中使用Code运行Java -jar tika-server-1.18.jar

我在Jupyter中的代码是：

Import tika 
from tika Import parser
parsed = parser.from_file('')

Run Code Online (Sandbox Code Playgroud)

但是，我收到以下错误：

2018-07-25 10：20：13,325 [MainThread] [WARNI]无法查看启动日志消息；正在重试... 2018-07-25 10：20：18,329 [MainThread] [WARNI]无法查看启动日志消息；正在重试... 2018-07-25 10：20：23,332 [MainThread] [WARNI]无法查看启动日志消息；正在重试... 2018-07-25 10：20：28,340 [MainThread] [错误] 3次尝试后未收到Tika启动日志消息。2018-07-25 10：20：28,340 [MainThread] [ERROR]无法从startServer接收启动确认。

RuntimeError：无法启动Tika Server。

python parsing apache-tika

Sha*_* Li

2019 01-07

13
推荐指数

3
解决办法

6930
查看次数

Python阅读pdf文件

我发现了许多帖子,其中提出了阅读pdf的解决方案.我想逐字阅读pdf文件并对其进行一些处理.人们建议pdfMiner将整个pdf文件转换为文本文件.但我想要的是逐字逐句阅读pdfs.谁能建议一个这样做的图书馆？

python pdf

nik*_*hil

2011 10-27

12
推荐指数

2
解决办法

1万
查看次数

使用 python 和 pdfkit 将 PDF 转换为 HTML

Adobe在此网站上写了有关使用 pdfkit 将 pdf 转换为 html 的内容

他们使用pdfkit.from_pdf(...)方法。

\n
此脚本使用 \xe2\x80\x98pdfkit\xe2\x80\x99 库将 PDF 文件转换为 HTML。要使用此脚本，您需要安装 \xe2\x80\x98pdfkit\xe2\x80\x99 库...
\n

当我想使用这个方法时出现错误

Traceback (most recent call last):\n  File "C:\\TestPdfToHtml\\script.py", line 7, in <module>\n    html_file = pdfkit.from_pdf(pdf_file, "my_html_file.html")\n                ^^^^^^^^^^^^^^^\nAttributeError: module \'pdfkit\' has no attribute \'from_pdf\'. Did you mean: \'from_url\'?\n

Run Code Online (Sandbox Code Playgroud)\n

我该如何解决这个问题？

下面是完整的脚本

import pdfkit\n# Read the PDF file\npdf_file = open(\'test2.pdf\', \'rb\')\n# Convert the PDF to HTML\nhtml_file = pdfkit.from_pdf(pdf_file, "my_html_file.html")\n# Close the PDF file\npdf_file.close()\n

Run Code Online (Sandbox Code Playgroud)\n

python pdf-to-html pdfkit

Duz*_*uzy

2023 04-19

8
推荐指数

1
解决办法

2万
查看次数

pyPdf无法从我的PDF中的某些页面中提取文本

我正在尝试使用pyPdf从多页PDF中提取和打印页面.问题是,文本不是从某些页面中提取的.我在这里放了一个示例文件:

http://www.4shared.com/document/kmJF67E4/forms.html

如果运行以下命令,则前81页不返回任何文本,而最后11页正确提取.有人可以帮忙吗？

from pyPdf import PdfFileReader  
input = PdfFileReader(file("forms.pdf", "rb"))  
for page in input1.pages:  
    print page.extractText()

Run Code Online (Sandbox Code Playgroud)

python pdf

DrJ*_*ing

2010 11-17

6
推荐指数

1
解决办法

1万
查看次数

标签统计

python ×8

pdf ×6

parsing ×2

text-extraction ×2

apache-tika ×1

java ×1

java-8 ×1

macos ×1

pdf-scraping ×1

pdf-to-html ×1

pdfkit ×1

pypdf ×1

python-2.7 ×1

python-3.x ×1

text ×1

728;~˚!""˘˙˝˛˛˛˛〜˘˛˙"˘"〜#$˙˚%&˘˛〜'˙% ˝˛˙~~'#$%&('%$&))$ $ +%#, - .+ &&˝())˝) ˝+ ,, - ./ 012)(˝)*˝+, - 3˙/ 0245)6#57 + 82,55)6#57 +,+ 2,+ /!#!!&˘˘1"%˘20˛˛307%4!˘"6˛ ˝˝&/&4"9%6%4%4&5˘2)˘˘˛%:6(

标签 统计

标签统计