我想用最新的JavaFX进行一些编程,这需要Java 8.我使用的是IntelliJ 13 CE和Mac OS X 9 Mavericks.我运行了Oracle的Java 8安装程序,文件看起来就像是他们最终的结果
/Library/Java/JavaVirtualMachines/jdk1.8.0_05.jdk
Run Code Online (Sandbox Code Playgroud)
但以前的版本是
/System/Library/Java/JavaFrameworks/jdk1.6....
Run Code Online (Sandbox Code Playgroud)
不知道为什么最新的安装程序将其放入/Library而不是/System/Library(也没有区别).但是/usr/libexec/java_home找不到1.8,所以我发现的关于如何设置当前java版本的所有帖子都不起作用.我已经尝试添加一个符号链接,使其看起来像1.8在/System/Library...路径中,但它没有帮助./usr/libexec/java_home -V仍然只列出旧的Java 1.6.
具有讽刺意味的是,"系统偏好设置"下的"Java"控制面板仅显示Java 1.8!
为什么Oracle的安装程序没有把它放到真正的位置?我该如何解决这个问题?
哪些是将PDF文件转换为文本的最佳Python模块?
我使用的是Python 3.4,需要从PDF中提取所有文本,然后将其用于文本处理.
我见过的所有答案都提出了Python 2.7的选项.
我需要Python 3.4中的东西.
Bonson
问题
我试图通过搜索文本来确定文档的类型(例如恳求,通信,传票等),最好使用python.所有的PDF都是可搜索的,但是我还没有找到解决方案,用python解析它并应用脚本来搜索它(首先不是将它转换为文本文件,但对于n个文档来说这可能是资源密集型的).
到目前为止
我做了什么我已经研究过 pypdf,pdfminer,adobe pdf文档,以及我能找到的任何问题(虽然似乎没有一个直接解决这个问题).PDFminer似乎最具潜力,但在阅读完文档之后我甚至不确定从哪里开始.
是否有一种简单有效的方法可以通过页面,行或整个文档来阅读PDF文本?或任何其他解决方法?
如何从Python中提取PDF文件中的文本?
我尝试了以下方法:
import sys
import pyPdf
def convertPdf2String(path):
content = ""
pdf = pyPdf.PdfFileReader(file(path, "rb"))
for i in range(0, pdf.getNumPages()):
content += pdf.getPage(i).extractText() + " \n"
content = " ".join(content.replace(u"\xa0", u" ").strip().split())
return content
f = open('a.txt','w+')
f.write(convertPdf2String(sys.argv[1]).encode("ascii","xmlcharrefreplace"))
f.close()
Run Code Online (Sandbox Code Playgroud)
但结果如下,而不是可读文本:
728;~˚!""˘˙˝˛˛˛˛〜˘˛˙"˘"〜#$˙˚%&˘˛〜'˙% ˝˛˙~~'#$%&('%$&))$ $ +%#, - .+ &&˝())˝) ˝+ ,, - ./ 012)(˝)*˝+, - 3˙/ 0245)6#57 + 82,55)6#57 +,+ 2,+ /!#!!&˘˘1"%˘20˛˛307%4!˘"6˛ ˝˝&/&4"9%6%4%4&5˘2)˘˘˛%:6(
我如何在python中阅读pdf? 我知道将其转换为文本的一种方法,但我想直接从pdf中阅读内容.
任何人都可以解释python中哪个模块最适合pdf提取
我正在尝试使用tika包来解析文件。Tika已成功安装,tika-server-1.18.jar并在cmd中使用Code运行Java -jar tika-server-1.18.jar
我在Jupyter中的代码是:
Import tika
from tika Import parser
parsed = parser.from_file('')
Run Code Online (Sandbox Code Playgroud)
但是,我收到以下错误:
2018-07-25 10:20:13,325 [MainThread] [WARNI]无法查看启动日志消息;正在重试... 2018-07-25 10:20:18,329 [MainThread] [WARNI]无法查看启动日志消息;正在重试... 2018-07-25 10:20:23,332 [MainThread] [WARNI]无法查看启动日志消息;正在重试... 2018-07-25 10:20:28,340 [MainThread] [错误] 3次尝试后未收到Tika启动日志消息。2018-07-25 10:20:28,340 [MainThread] [ERROR]无法从startServer接收启动确认。
RuntimeError:无法启动Tika Server。
我发现了许多帖子,其中提出了阅读pdf的解决方案.我想逐字阅读pdf文件并对其进行一些处理.人们建议pdfMiner将整个pdf文件转换为文本文件.但我想要的是逐字逐句阅读pdfs.谁能建议一个这样做的图书馆?
Adobe在此网站上写了有关使用 pdfkit 将 pdf 转换为 html 的内容
\n他们使用pdfkit.from_pdf(...)方法。
\n\n此脚本使用 \xe2\x80\x98pdfkit\xe2\x80\x99 库将 PDF 文件转换为 HTML。要使用此脚本,您需要安装 \xe2\x80\x98pdfkit\xe2\x80\x99 库...
\n
当我想使用这个方法时出现错误
\nTraceback (most recent call last):\n File "C:\\TestPdfToHtml\\script.py", line 7, in <module>\n html_file = pdfkit.from_pdf(pdf_file, "my_html_file.html")\n ^^^^^^^^^^^^^^^\nAttributeError: module \'pdfkit\' has no attribute \'from_pdf\'. Did you mean: \'from_url\'?\nRun Code Online (Sandbox Code Playgroud)\n我该如何解决这个问题?
\n下面是完整的脚本
\nimport pdfkit\n# Read the PDF file\npdf_file = open(\'test2.pdf\', \'rb\')\n# Convert the PDF to HTML\nhtml_file = pdfkit.from_pdf(pdf_file, "my_html_file.html")\n# Close the PDF file\npdf_file.close()\nRun Code Online (Sandbox Code Playgroud)\n 我正在尝试使用pyPdf从多页PDF中提取和打印页面.问题是,文本不是从某些页面中提取的.我在这里放了一个示例文件:
http://www.4shared.com/document/kmJF67E4/forms.html
如果运行以下命令,则前81页不返回任何文本,而最后11页正确提取.有人可以帮忙吗?
from pyPdf import PdfFileReader
input = PdfFileReader(file("forms.pdf", "rb"))
for page in input1.pages:
print page.extractText()
Run Code Online (Sandbox Code Playgroud) python ×8
pdf ×6
parsing ×2
apache-tika ×1
java ×1
java-8 ×1
macos ×1
pdf-scraping ×1
pdf-to-html ×1
pdfkit ×1
pypdf ×1
python-2.7 ×1
python-3.x ×1
text ×1