相关疑难解决方法(0)

如何在Mac上安装Java 8

我想用最新的JavaFX进行一些编程,这需要Java 8.我使用的是IntelliJ 13 CE和Mac OS X 9 Mavericks.我运行了Oracle的Java 8安装程序,文件看起来就像是他们最终的结果

/Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk
Run Code Online (Sandbox Code Playgroud)

但以前的版本是

/System/Library/Java/JavaFrameworks/jdk1.6....
Run Code Online (Sandbox Code Playgroud)

不知道为什么最新的安装程序将其放入/Library而不是/System/Library(也没有区别).但是/usr/libexec/java_home找不到1.8,所以我发现的关于如何设置当前java版本的所有帖子都不起作用.我已经尝试添加一个符号链接,使其看起来像1.8在/System/Library...路径中,但它没有帮助./usr/libexec/java_home -V仍然只列出旧的Java 1.6.

具有讽刺意味的是,"系统偏好设置"下的"Java"控制面板仅显示Java 1.8!

为什么Oracle的安装程序没有把它放到真正的位置?我该如何解决这个问题?

java macos java-8

847
推荐指数
27
解决办法
65万
查看次数

378
推荐指数
9
解决办法
32万
查看次数

在Python 3.4中从PDF文本提取的最佳工具

我使用的是Python 3.4,需要从PDF中提取所有文本,然后将其用于文本处理.

我见过的所有答案都提出了Python 2.7的选项.

我需要Python 3.4中的东西.

Bonson

pdf python-3.x

40
推荐指数
2
解决办法
4万
查看次数

使用Python搜索PDF中的文本?

问题
我试图通过搜索文本来确定文档的类型(例如恳求,通信,传票等),最好使用python.所有的PDF都是可搜索的,但是我还没有找到解决方案,用python解析它并应用脚本来搜索它(首先不是将它转换为文本文件,但对于n个文档来说这可能是资源密集型的).

到目前为止
做了什么我已经研究过 pypdf,pdfminer,adobe pdf文档,以及我能找到的任何问题(虽然似乎没有一个直接解决这个问题).PDFminer似乎最具潜力,但在阅读完文档之后我甚至不确定从哪里开始.

是否有一种简单有效的方法可以通过页面,行或整个文档来阅读PDF文本?或任何其他解决方法?

python pdf parsing text

26
推荐指数
6
解决办法
6万
查看次数

如何从Python中提取PDF文件中的文本?

如何从Python中提取PDF文件中的文本?

我尝试了以下方法:

import sys
import pyPdf

def convertPdf2String(path):
      content = ""
      pdf = pyPdf.PdfFileReader(file(path, "rb"))
      for i in range(0, pdf.getNumPages()):
          content += pdf.getPage(i).extractText() + " \n"
          content = " ".join(content.replace(u"\xa0", u" ").strip().split())
      return content

f = open('a.txt','w+')

f.write(convertPdf2String(sys.argv[1]).encode("ascii","xmlcharrefreplace"))
f.close()
Run Code Online (Sandbox Code Playgroud)

但结果如下,而不是可读文本:

728;~˚!""˘˙˝˛˛˛˛〜˘˛˙"˘"〜#$˙˚%&˘˛〜'˙% ˝˛˙~~'#$%&('%$&))$ $ +%#, - .+ &&˝())˝) ˝+ ,, - ./ 012)(˝)*˝+, - 3˙/ 0245)6#57 + 82,55)6#57 +,+ 2,+ /!#!!&˘˘1"%˘20˛˛307%4!˘"6˛ ˝˝&/&4"9%6%4%4&5˘2)˘˘˛%:6(

python pypdf

19
推荐指数
1
解决办法
3万
查看次数

我如何在python中阅读pdf?

我如何在python中阅读pdf? 我知道将其转换为文本的一种方法,但我想直接从pdf中阅读内容.

任何人都可以解释python中哪个模块最适合pdf提取

python pdf text-extraction python-2.7

13
推荐指数
3
解决办法
10万
查看次数

将Tika与python一起使用,runtimeError:无法启动tika服务器

我正在尝试使用tika包来解析文件。Tika已成功安装,tika-server-1.18.jar并在cmd中使用Code运行Java -jar tika-server-1.18.jar

我在Jupyter中的代码是:

Import tika 
from tika Import parser
parsed = parser.from_file('')
Run Code Online (Sandbox Code Playgroud)

但是,我收到以下错误:

2018-07-25 10:20:13,325 [MainThread] [WARNI]无法查看启动日志消息;正在重试... 2018-07-25 10:20:18,329 [MainThread] [WARNI]无法查看启动日志消息;正在重试... 2018-07-25 10:20:23,332 [MainThread] [WARNI]无法查看启动日志消息;正在重试... 2018-07-25 10:20:28,340 [MainThread] [错误] 3次尝试后未收到Tika启动日志消息。2018-07-25 10:20:28,340 [MainThread] [ERROR]无法从startServer接收启动确认。

RuntimeError:无法启动Tika Server。

python parsing apache-tika

13
推荐指数
3
解决办法
6930
查看次数

Python阅读pdf文件

我发现了许多帖子,其中提出了阅读pdf的解决方案.我想逐字阅读pdf文件并对其进行一些处理.人们建议pdfMiner将整个pdf文件转换为文本文件.但我想要的是逐字逐句阅读pdfs.谁能建议一个这样做的图书馆?

python pdf

12
推荐指数
2
解决办法
1万
查看次数

使用 python 和 pdfkit 将 PDF 转换为 HTML

Adobe在此网站上写了有关使用 pdfkit 将 pdf 转换为 html 的内容

\n

他们使用pdfkit.from_pdf(...)方法。

\n
\n

此脚本使用 \xe2\x80\x98pdfkit\xe2\x80\x99 库将 PDF 文件转换为 HTML。要使用此脚本,您需要安装 \xe2\x80\x98pdfkit\xe2\x80\x99 库...

\n
\n

当我想使用这个方法时出现错误

\n
Traceback (most recent call last):\n  File "C:\\TestPdfToHtml\\script.py", line 7, in <module>\n    html_file = pdfkit.from_pdf(pdf_file, "my_html_file.html")\n                ^^^^^^^^^^^^^^^\nAttributeError: module \'pdfkit\' has no attribute \'from_pdf\'. Did you mean: \'from_url\'?\n
Run Code Online (Sandbox Code Playgroud)\n

我该如何解决这个问题?

\n

下面是完整的脚本

\n
import pdfkit\n# Read the PDF file\npdf_file = open(\'test2.pdf\', \'rb\')\n# Convert the PDF to HTML\nhtml_file = pdfkit.from_pdf(pdf_file, "my_html_file.html")\n# Close the PDF file\npdf_file.close()\n
Run Code Online (Sandbox Code Playgroud)\n

python pdf-to-html pdfkit

8
推荐指数
1
解决办法
2万
查看次数

pyPdf无法从我的PDF中的某些页面中提取文本

我正在尝试使用pyPdf从多页PDF中提取和打印页面.问题是,文本不是从某些页面中提取的.我在这里放了一个示例文件:

http://www.4shared.com/document/kmJF67E4/forms.html

如果运行以下命令,则前81页不返回任何文本,而最后11页正确提取.有人可以帮忙吗?

from pyPdf import PdfFileReader  
input = PdfFileReader(file("forms.pdf", "rb"))  
for page in input1.pages:  
    print page.extractText()  
Run Code Online (Sandbox Code Playgroud)

python pdf

6
推荐指数
1
解决办法
1万
查看次数