标签: text-extraction

378
推荐指数
9
解决办法
32万
查看次数

如何使用正则表达式提取子字符串

我有一个字符串,其中包含两个单引号,即'字符.在单引号之间是我想要的数据.

如何编写正则表达式以从以下文本中提取"我想要的数据"?

mydata = "some string with 'the data i want' inside";
Run Code Online (Sandbox Code Playgroud)

java regex string text-extraction

351
推荐指数
7
解决办法
58万
查看次数

如何从PDF中提取文本?

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.

我们希望以数据xmljson格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.

是否有以编程方式从pdf中提取文本的替代品(商业或免费)?

pdf text text-extraction ghostscript extraction

141
推荐指数
10
解决办法
23万
查看次数

高级PDF使用Python解析(提取没有表格的文本等):什么是最佳库?

我正在寻找一个PDF库,它允许我从PDF文档中提取文本.我看过PyPDF,这可以很好地从PDF文档中提取文本.这样做的问题是,如果文档中有表,则表中的文本将与文档文本的其余部分一起提取.这可能会有问题,因为它会产生一些无效且看起来乱码的文本部分(例如,大量数字混在一起).

我正在寻找更高级的东西.我想从PDF文档中提取文本,不包括任何表格和特殊格式.那里有图书馆吗?或者我被迫对输出文本进行一些后处理以摆脱这些部分?

python pdf parsing text-extraction information-extraction

81
推荐指数
1
解决办法
11万
查看次数

如何使用grep,regex或perl提取模式后面的字符串

我有一个看起来像这样的文件:

    <table name="content_analyzer" primary-key="id">
      <type="global" />
    </table>
    <table name="content_analyzer2" primary-key="id">
      <type="global" />
    </table>
    <table name="content_analyzer_items" primary-key="id">
      <type="global" />
    </table>
Run Code Online (Sandbox Code Playgroud)

我需要在后面的引号中提取任何内容name=,即content_analyzer,content_analyzer2content_analyzer_items.

我在Linux机器上这样做,所以使用sed,perl,grep或bash的解决方案很好.

regex perl text-extraction sed html-parsing

81
推荐指数
4
解决办法
20万
查看次数

使用Python中的PDFMiner从PDF文件中提取文本?

Python版本2.7

我正在寻找有关如何使用PDFMiner和Python从PDF文件中提取文本的文档示例.

看起来PDFMiner更新了他们的API,我发现的所有相关示例都包含过时的代码(类和方法已经改变).我发现的库使得从PDF文件中提取文本的任务更容易使用旧的PDFMiner语法,所以我不知道如何做到这一点.

事实上,我只是看源代码,看看能否解决它.

python text-extraction pdfminer

71
推荐指数
4
解决办法
10万
查看次数

如何从一系列文本条目中提取常用/重要短语

我有一系列文本项 - 来自MySQL数据库的原始HTML.我想找到这些条目中最常见的短语(不是单个最常用的短语,理想情况下,不强制逐字逐句匹配).

我的例子是Yelp.com上的任何评论,它显示了来自特定餐厅的数百条评论的3个片段,格式如下:

"尝试汉堡包"(在44条评论中)

例如,本页的"评论亮点"部分:

http://www.yelp.com/biz/sushi-gen-los-angeles/

我已经安装了NLTK并且我已经玩了一些,但老实说我被选项所淹没.这似乎是一个相当普遍的问题,我无法通过在这里搜索找到一个简单的解决方案.

nlp text-extraction text-analysis nltk

63
推荐指数
4
解决办法
5万
查看次数

如何从.doc和.docx文件中提取纯文本?(UNIX)

任何人都知道他们可以推荐什么,以便从.doc或.docx中提取纯文本?

我发现这种最好的方法从Word文档中提取文本而不使用COM /自动化? - 想知道是否还有其他建议?

速度并不重要,我们甚至可以使用具有一些API的网站上传和提取文件,但我一直无法找到.

谢谢

unix text-extraction doc extract docx

42
推荐指数
5
解决办法
6万
查看次数

带坐标的PDF文本提取

我想使用Ghostscript从PDF的一部分(使用坐标)中提取文本.

谁能帮我吗?

pdf text-extraction ghostscript

42
推荐指数
1
解决办法
6万
查看次数

C#使用PdfSharp从PDF中提取文本

是否有可能使用PdfSharp从PDF文件中提取纯文本?由于其许可证,我不想使用iTextSharp.

c# text text-extraction pdfsharp

35
推荐指数
3
解决办法
3万
查看次数