标签: text-extraction

用于将PDF转换为文本的Python模块

哪些是将PDF文件转换为文本的最佳Python模块？

python pdf text-extraction pdf-scraping

cnu*_*cnu

2017 07-10

378
推荐指数

9
解决办法

32万
查看次数

如何使用正则表达式提取子字符串

我有一个字符串,其中包含两个单引号,即'字符.在单引号之间是我想要的数据.

如何编写正则表达式以从以下文本中提取"我想要的数据"？

mydata = "some string with 'the data i want' inside";

Run Code Online (Sandbox Code Playgroud)

java regex string text-extraction

asd*_*asd

2014 06-21

351
推荐指数

7
解决办法

58万
查看次数

如何从PDF中提取文本？

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗？我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.

我们希望以数据xml或json格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.

是否有以编程方式从pdf中提取文本的替代品(商业或免费)？

pdf text text-extraction ghostscript extraction

Bud*_*007

2013 03-10

141
推荐指数

10
解决办法

23万
查看次数

高级PDF使用Python解析(提取没有表格的文本等):什么是最佳库？

我正在寻找一个PDF库,它允许我从PDF文档中提取文本.我看过PyPDF,这可以很好地从PDF文档中提取文本.这样做的问题是,如果文档中有表,则表中的文本将与文档文本的其余部分一起提取.这可能会有问题,因为它会产生一些无效且看起来乱码的文本部分(例如,大量数字混在一起).

我正在寻找更高级的东西.我想从PDF文档中提取文本,不包括任何表格和特殊格式.那里有图书馆吗？或者我被迫对输出文本进行一些后处理以摆脱这些部分？

python pdf parsing text-extraction information-extraction

Mik*_*icz

2011 09-29

81
推荐指数

1
解决办法

11万
查看次数

如何使用grep,regex或perl提取模式后面的字符串

我有一个看起来像这样的文件:

    <table name="content_analyzer" primary-key="id">
      <type="global" />
    </table>
    <table name="content_analyzer2" primary-key="id">
      <type="global" />
    </table>
    <table name="content_analyzer_items" primary-key="id">
      <type="global" />
    </table>

Run Code Online (Sandbox Code Playgroud)

我需要在后面的引号中提取任何内容name=,即content_analyzer,content_analyzer2和content_analyzer_items.

我在Linux机器上这样做,所以使用sed,perl,grep或bash的解决方案很好.

regex perl text-extraction sed html-parsing

wra*_*ler

2019 11-26

81
推荐指数

4
解决办法

20万
查看次数