标签: extraction

如何从多维数组中提取列?

有人知道如何从Python中的多维数组中提取列吗?

python arrays extraction multidimensional-array

215
推荐指数
15
解决办法
57万
查看次数

如何从PDF中提取文本?

任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.

我们希望以数据xmljson格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.

是否有以编程方式从pdf中提取文本的替代品(商业或免费)?

pdf text text-extraction ghostscript extraction

141
推荐指数
10
解决办法
23万
查看次数

可读性用于从URL中提取文本的算法是什么?

有一段时间,我一直试图找到一种方法,通过消除与广告和所有其他杂乱相关的文本,智能地从URL中提取"相关"文本.经过几个月的研究,我把它作为一个问题放弃了无法准确确定.(我尝试了不同的方法,但没有一个是可靠的)

一周后,我偶然发现了Readability - 一个将任何URL转换为可读文本的插件.它看起来非常准确.我的猜测是,他们以某种方式拥有足够聪明的算法来提取相关文本.

有谁知道他们是怎么做到的?或者我怎么能可靠地做到这一点?

javascript asp.net extraction

102
推荐指数
4
解决办法
2万
查看次数

如何使用index-filter&co从git repo中提取具有提交历史记录的文件

我的情况是,我有一个git repo从SVN转换为HG到GIT,我只想提取一个源文件.我也有像aÌ(编码不匹配损坏的Unicodeä)和文件名中的空格这样奇怪的字符.

看起来并不是特别容易,这就是为什么我会回答我自己的问题,尽管有很多关于git [index-filter | subdirectory-filter | filter-tree]的类似问题,因为我需要使用前面所有的来实现这一点!

所以问题是:"如何从存储库中提取一个文件并将其放在新存储库的根目录下?"

git extraction git-filter-branch

41
推荐指数
5
解决办法
1万
查看次数

从研究论文的PDF中提取信息

我需要一种机制来从PDF文档中提取书目元数据,以保存人们手动输入或剪切和粘贴它.

至少,标题和摘要.作者名单及其隶属关系会很好.提取引用将是惊人的.

理想情况下,这将是一个开源解决方案.

问题是并非所有PDF都对文本进行编码,而且许多PDF文本都无法保留文本的逻辑顺序,因此只需执行pdf2text即可获得第1列第1行,第2列第1行,第1列第2行等.

我知道有很多图书馆.它正在识别我需要解决的文档的摘要,标题作者等.这种情况每次都不可能实现,但80%可以节省大量的人力.

pdf metadata extraction

37
推荐指数
4
解决办法
2万
查看次数

提取部分git存储库?

假设我的git存储库具有以下结构:

/.git
/Project
/Project/SubProject-0
/Project/SubProject-1
/Project/SubProject-2
Run Code Online (Sandbox Code Playgroud)

并且存储库有一些提交.现在其中一个子项目(SubProject-0)变得非常大,我想将SubProject-0取出并将其设置为独立项目.是否可以从父git存储库中提取涉及SubProject-0的所有提交历史记录并将其移动到新的?

git repository extraction

32
推荐指数
1
解决办法
8494
查看次数

从引用之间提取字符串

我想从用户输入的文本中提取信息.想象一下,我输入以下内容:

SetVariables "a" "b" "c"
Run Code Online (Sandbox Code Playgroud)

如何在第一组报价之间提取信息?然后第二个?然后第三个?

python string extraction quotations

25
推荐指数
3
解决办法
5万
查看次数

正则表达式C# - 匹配时是否可以提取匹配?

说,我有一个字符串,我需要验证正确的格式; 例如RR1234566-001(2个字母,7个数字,短划线,1个或更多个数字).我使用类似的东西:

        Regex regex = new Regex(patternString);
        if (regex.IsMatch(stringToMatch))
        {
            return true;
        }
        else
        {
            return false;
        }
Run Code Online (Sandbox Code Playgroud)

这可以告诉我是否stringToMatch遵循定义的模式patternString.我需要的是(我最后提取这些)是: 123456001- 即部分stringToMatch.

请注意,这不是关于如何构造正则表达式的问题.我要问的是:"有没有办法同时匹配和提取值,而不必在以后使用拆分功能?"

c# regex extraction

24
推荐指数
3
解决办法
5万
查看次数

如何从PDF文件中提取数据,同时跟踪其结构?

我的目标是在解析其结构时从PDF文件中提取文本和图像.解析结构的范围并非详尽无遗; 我只需要能够识别标题和段落.

我尝试了一些不同的东西,但我没有在其中任何一个方面走得太远:

  • 将PDF转换为文本.它对我不起作用,因为我丢失了图像和文档的结构.
  • 将PDF转换为HTML.我发现了一些帮助我的工具,目前为止最好的工具是pdftohtml.这个工具非常好用,但我还是无法成功解析HTML.
  • 将PDF转换为XML.与上述相同.

有人对如何解决这个问题有任何建议吗?

pdf parsing extraction

21
推荐指数
2
解决办法
6万
查看次数

如何将文件从rpm提取到当前目录?

我最近发现了cpio的存在以及如何使用它,以及如何使用rpm和RPM2cpio工具从rpm中提取单个文件,如下所示:

rpm2cpio mypackage.rpm | cpio -idmv ./path/to/individual/file/inside/the/rpm/filename.txt
Run Code Online (Sandbox Code Playgroud)

问题是该命令将创建与rpm内部文件位置匹配的目录,即/path/to/individual/file/inside/the/rpm/在实际提取文件之前,它将在当前目录中创建目录.

有没有办法将文件解压缩到当前目录而不创建整个目录结构?

提前致谢!!

rpm extraction

21
推荐指数
1
解决办法
1万
查看次数