有人知道如何从Python中的多维数组中提取列吗?
任何人都可以推荐一个库/ API来从PDF中提取文本和图像吗?我们需要能够获得包含在文档的预先知道区域中的文本,因此API需要向我们提供页面上每个元素的位置信息.
我们希望以数据xml
或json
格式输出数据.我们目前正在寻找看起来相当不错的PdfTextStream,但希望听到其他人的经验和建议.
是否有以编程方式从pdf中提取文本的替代品(商业或免费)?
有一段时间,我一直试图找到一种方法,通过消除与广告和所有其他杂乱相关的文本,智能地从URL中提取"相关"文本.经过几个月的研究,我把它作为一个问题放弃了无法准确确定.(我尝试了不同的方法,但没有一个是可靠的)
一周后,我偶然发现了Readability - 一个将任何URL转换为可读文本的插件.它看起来非常准确.我的猜测是,他们以某种方式拥有足够聪明的算法来提取相关文本.
有谁知道他们是怎么做到的?或者我怎么能可靠地做到这一点?
我的情况是,我有一个git repo从SVN转换为HG到GIT,我只想提取一个源文件.我也有像aÌ(编码不匹配损坏的Unicodeä)和文件名中的空格这样奇怪的字符.
看起来并不是特别容易,这就是为什么我会回答我自己的问题,尽管有很多关于git [index-filter | subdirectory-filter | filter-tree]的类似问题,因为我需要使用前面所有的来实现这一点!
所以问题是:"如何从存储库中提取一个文件并将其放在新存储库的根目录下?"
我需要一种机制来从PDF文档中提取书目元数据,以保存人们手动输入或剪切和粘贴它.
至少,标题和摘要.作者名单及其隶属关系会很好.提取引用将是惊人的.
理想情况下,这将是一个开源解决方案.
问题是并非所有PDF都对文本进行编码,而且许多PDF文本都无法保留文本的逻辑顺序,因此只需执行pdf2text即可获得第1列第1行,第2列第1行,第1列第2行等.
我知道有很多图书馆.它正在识别我需要解决的文档的摘要,标题作者等.这种情况每次都不可能实现,但80%可以节省大量的人力.
假设我的git存储库具有以下结构:
/.git
/Project
/Project/SubProject-0
/Project/SubProject-1
/Project/SubProject-2
Run Code Online (Sandbox Code Playgroud)
并且存储库有一些提交.现在其中一个子项目(SubProject-0)变得非常大,我想将SubProject-0取出并将其设置为独立项目.是否可以从父git存储库中提取涉及SubProject-0的所有提交历史记录并将其移动到新的?
我想从用户输入的文本中提取信息.想象一下,我输入以下内容:
SetVariables "a" "b" "c"
Run Code Online (Sandbox Code Playgroud)
如何在第一组报价之间提取信息?然后第二个?然后第三个?
说,我有一个字符串,我需要验证正确的格式; 例如RR1234566-001
(2个字母,7个数字,短划线,1个或更多个数字).我使用类似的东西:
Regex regex = new Regex(patternString);
if (regex.IsMatch(stringToMatch))
{
return true;
}
else
{
return false;
}
Run Code Online (Sandbox Code Playgroud)
这可以告诉我是否stringToMatch
遵循定义的模式patternString
.我需要的是(我最后提取这些)是:
123456
和001
- 即部分stringToMatch
.
请注意,这不是关于如何构造正则表达式的问题.我要问的是:"有没有办法同时匹配和提取值,而不必在以后使用拆分功能?"
我的目标是在解析其结构时从PDF文件中提取文本和图像.解析结构的范围并非详尽无遗; 我只需要能够识别标题和段落.
我尝试了一些不同的东西,但我没有在其中任何一个方面走得太远:
有人对如何解决这个问题有任何建议吗?
我最近发现了cpio的存在以及如何使用它,以及如何使用rpm和RPM2cpio工具从rpm中提取单个文件,如下所示:
rpm2cpio mypackage.rpm | cpio -idmv ./path/to/individual/file/inside/the/rpm/filename.txt
Run Code Online (Sandbox Code Playgroud)
问题是该命令将创建与rpm内部文件位置匹配的目录,即/path/to/individual/file/inside/the/rpm/
在实际提取文件之前,它将在当前目录中创建目录.
有没有办法将文件解压缩到当前目录而不创建整个目录结构?
提前致谢!!
extraction ×10
pdf ×3
git ×2
python ×2
arrays ×1
asp.net ×1
c# ×1
ghostscript ×1
javascript ×1
metadata ×1
parsing ×1
quotations ×1
regex ×1
repository ×1
rpm ×1
string ×1
text ×1