标签: extraction

如何从多维数组中提取列？

有人知道如何从Python中的多维数组中提取列吗？

python arrays extraction multidimensional-array

作者

2016 02-01

215
推荐指数

15
解决办法

57万
查看次数

如何从PDF中提取文本？

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗？我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.

我们希望以数据xml或json格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.

是否有以编程方式从pdf中提取文本的替代品(商业或免费)？

pdf text text-extraction ghostscript extraction

Bud*_*007

2013 03-10

141
推荐指数

10
解决办法

23万
查看次数

可读性用于从URL中提取文本的算法是什么？

有一段时间,我一直试图找到一种方法,通过消除与广告和所有其他杂乱相关的文本,智能地从URL中提取"相关"文本.经过几个月的研究,我把它作为一个问题放弃了无法准确确定.(我尝试了不同的方法,但没有一个是可靠的)

一周后,我偶然发现了Readability - 一个将任何URL转换为可读文本的插件.它看起来非常准确.我的猜测是,他们以某种方式拥有足够聪明的算法来提取相关文本.

有谁知道他们是怎么做到的？或者我怎么能可靠地做到这一点？

javascript asp.net extraction

use*_*981

lucky-day

102
推荐指数

4
解决办法

2万
查看次数

如何使用index-filter&co从git repo中提取具有提交历史记录的文件

我的情况是,我有一个git repo从SVN转换为HG到GIT,我只想提取一个源文件.我也有像aÌ(编码不匹配损坏的Unicodeä)和文件名中的空格这样奇怪的字符.

看起来并不是特别容易,这就是为什么我会回答我自己的问题,尽管有很多关于git [index-filter | subdirectory-filter | filter-tree]的类似问题,因为我需要使用前面所有的来实现这一点!

所以问题是:"如何从存储库中提取一个文件并将其放在新存储库的根目录下？"

git extraction git-filter-branch

pet*_*hil

lucky-day

41
推荐指数

5
解决办法

1万
查看次数

从研究论文的PDF中提取信息

我需要一种机制来从PDF文档中提取书目元数据,以保存人们手动输入或剪切和粘贴它.

至少,标题和摘要.作者名单及其隶属关系会很好.提取引用将是惊人的.

理想情况下,这将是一个开源解决方案.

问题是并非所有PDF都对文本进行编码,而且许多PDF文本都无法保留文本的逻辑顺序,因此只需执行pdf2text即可获得第1列第1行,第2列第1行,第1列第2行等.

我知道有很多图书馆.它正在识别我需要解决的文档的摘要,标题作者等.这种情况每次都不可能实现,但80%可以节省大量的人力.

pdf metadata extraction

Chr*_*dge

2009 11-29

37
推荐指数

4
解决办法

2万
查看次数

提取部分git存储库？

假设我的git存储库具有以下结构:

/.git
/Project
/Project/SubProject-0
/Project/SubProject-1
/Project/SubProject-2

Run Code Online (Sandbox Code Playgroud)

并且存储库有一些提交.现在其中一个子项目(SubProject-0)变得非常大,我想将SubProject-0取出并将其设置为独立项目.是否可以从父git存储库中提取涉及SubProject-0的所有提交历史记录并将其移动到新的？

git repository extraction

Rio*_*Rio

lucky-day

32
推荐指数

1
解决办法

8494
查看次数

从引用之间提取字符串

我想从用户输入的文本中提取信息.想象一下,我输入以下内容:

SetVariables "a" "b" "c"

Run Code Online (Sandbox Code Playgroud)

如何在第一组报价之间提取信息？然后第二个？然后第三个？

python string extraction quotations

Rez*_*nor

2014 05-18

25
推荐指数

3
解决办法

5万
查看次数

正则表达式C# - 匹配时是否可以提取匹配？

说,我有一个字符串,我需要验证正确的格式; 例如RR1234566-001(2个字母,7个数字,短划线,1个或更多个数字).我使用类似的东西:

        Regex regex = new Regex(patternString);
        if (regex.IsMatch(stringToMatch))
        {
            return true;
        }
        else
        {
            return false;
        }

Run Code Online (Sandbox Code Playgroud)

这可以告诉我是否stringToMatch遵循定义的模式patternString.我需要的是(我最后提取这些)是: 123456和001- 即部分stringToMatch.

请注意,这不是关于如何构造正则表达式的问题.我要问的是:"有没有办法同时匹配和提取值,而不必在以后使用拆分功能？"

c# regex extraction

sar*_*ake

2010 03-08

24
推荐指数

3
解决办法

5万
查看次数

如何从PDF文件中提取数据,同时跟踪其结构？

我的目标是在解析其结构时从PDF文件中提取文本和图像.解析结构的范围并非详尽无遗; 我只需要能够识别标题和段落.

我尝试了一些不同的东西,但我没有在其中任何一个方面走得太远:

将PDF转换为文本.它对我不起作用,因为我丢失了图像和文档的结构.
将PDF转换为HTML.我发现了一些帮助我的工具,目前为止最好的工具是pdftohtml.这个工具非常好用,但我还是无法成功解析HTML.
将PDF转换为XML.与上述相同.

有人对如何解决这个问题有任何建议吗？

pdf parsing extraction

Mar*_*cel

lucky-day

21
推荐指数

2
解决办法

6万
查看次数

如何将文件从rpm提取到当前目录？

我最近发现了cpio的存在以及如何使用它,以及如何使用rpm和RPM2cpio工具从rpm中提取单个文件,如下所示:

rpm2cpio mypackage.rpm | cpio -idmv ./path/to/individual/file/inside/the/rpm/filename.txt

Run Code Online (Sandbox Code Playgroud)

问题是该命令将创建与rpm内部文件位置匹配的目录,即/path/to/individual/file/inside/the/rpm/在实际提取文件之前,它将在当前目录中创建目录.

有没有办法将文件解压缩到当前目录而不创建整个目录结构？

提前致谢!!

rpm extraction

Pab*_*rio

2017 01-27

21
推荐指数

1
解决办法

1万
查看次数

标签统计

extraction ×10

pdf ×3

git ×2

python ×2

arrays ×1

asp.net ×1

c# ×1

ghostscript ×1

git-filter-branch ×1

javascript ×1

metadata ×1

multidimensional-array ×1

parsing ×1

quotations ×1

regex ×1

repository ×1

rpm ×1

string ×1

text ×1

text-extraction ×1

标签 统计

标签统计