哪些是将PDF文件转换为文本的最佳Python模块?
我有一个字符串,其中包含两个单引号,即'字符.在单引号之间是我想要的数据.
如何编写正则表达式以从以下文本中提取"我想要的数据"?
mydata = "some string with 'the data i want' inside";
Run Code Online (Sandbox Code Playgroud) 任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.
我们希望以数据xml或json格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.
是否有以编程方式从pdf中提取文本的替代品(商业或免费)?
我正在寻找一个PDF库,它允许我从PDF文档中提取文本.我看过PyPDF,这可以很好地从PDF文档中提取文本.这样做的问题是,如果文档中有表,则表中的文本将与文档文本的其余部分一起提取.这可能会有问题,因为它会产生一些无效且看起来乱码的文本部分(例如,大量数字混在一起).
我正在寻找更高级的东西.我想从PDF文档中提取文本,不包括任何表格和特殊格式.那里有图书馆吗?或者我被迫对输出文本进行一些后处理以摆脱这些部分?
我有一个看起来像这样的文件:
<table name="content_analyzer" primary-key="id">
<type="global" />
</table>
<table name="content_analyzer2" primary-key="id">
<type="global" />
</table>
<table name="content_analyzer_items" primary-key="id">
<type="global" />
</table>
Run Code Online (Sandbox Code Playgroud)
我需要在后面的引号中提取任何内容name=,即content_analyzer,content_analyzer2和content_analyzer_items.
我在Linux机器上这样做,所以使用sed,perl,grep或bash的解决方案很好.
Python版本2.7
我正在寻找有关如何使用PDFMiner和Python从PDF文件中提取文本的文档或示例.
看起来PDFMiner更新了他们的API,我发现的所有相关示例都包含过时的代码(类和方法已经改变).我发现的库使得从PDF文件中提取文本的任务更容易使用旧的PDFMiner语法,所以我不知道如何做到这一点.
事实上,我只是看源代码,看看能否解决它.
我有一系列文本项 - 来自MySQL数据库的原始HTML.我想找到这些条目中最常见的短语(不是单个最常用的短语,理想情况下,不强制逐字逐句匹配).
我的例子是Yelp.com上的任何评论,它显示了来自特定餐厅的数百条评论的3个片段,格式如下:
"尝试汉堡包"(在44条评论中)
例如,本页的"评论亮点"部分:
http://www.yelp.com/biz/sushi-gen-los-angeles/
我已经安装了NLTK并且我已经玩了一些,但老实说我被选项所淹没.这似乎是一个相当普遍的问题,我无法通过在这里搜索找到一个简单的解决方案.
任何人都知道他们可以推荐什么,以便从.doc或.docx中提取纯文本?
我发现这种最好的方法从Word文档中提取文本而不使用COM /自动化? - 想知道是否还有其他建议?
速度并不重要,我们甚至可以使用具有一些API的网站上传和提取文件,但我一直无法找到.
谢谢
我想使用Ghostscript从PDF的一部分(使用坐标)中提取文本.
谁能帮我吗?
是否有可能使用PdfSharp从PDF文件中提取纯文本?由于其许可证,我不想使用iTextSharp.
text-extraction ×10
pdf ×4
python ×3
ghostscript ×2
regex ×2
text ×2
c# ×1
doc ×1
docx ×1
extract ×1
extraction ×1
html-parsing ×1
java ×1
nlp ×1
nltk ×1
parsing ×1
pdf-scraping ×1
pdfminer ×1
pdfsharp ×1
perl ×1
sed ×1
string ×1
unix ×1