标签: extract

如何从Perl中的PDF文件中提取文本?

我试图使用Perl从PDF文件中提取文本.我一直在使用pdftotext.exe命令行(即使用Perl system函数)从PDF文件中提取文本,这种方法工作正常.

问题是我们在PDF文件中有像α,β和其他特殊字符的符号,这些符号没有显示在生成的txt文件中.在文本中随机添加的空格也很少.

是否有更好,更可靠的方法从PDF文件中提取文本,使文本包含所有符号,如α,β等,文本将与PDF中的文本完全匹配(即没有额外的空格)?

pdf perl text extract

18
推荐指数
3
解决办法
4万
查看次数

如何从字符串中提取第一个和最后一个单词?

我在学校需要做的事情有一个小问题......

我的任务是从user(text = raw_input())获取原始输入字符串,我需要打印该字符串的第一个和最后一个单词.

有人可以帮助我吗?我一整天都在寻找答案......

python string split extract

18
推荐指数
5
解决办法
4万
查看次数

使用/ CCITTFaxDecode过滤器从PDF中提取图像

我有一个从扫描软件生成的pdf.pdf每页有1个TIFF图像.我想从每个页面中提取TIFF图像.

我正在使用iTextSharp并且我已经成功找到了图像,并且可以从该PdfReader.GetStreamBytesRaw方法中获取原始字节.问题是,正如我之前发现的那样,iTextSharp不包含PdfReader.CCITTFaxDecode方法.

还有什么我知道的?即使没有iTextSharp,我也可以在记事本中打开pdf并找到流,/Filter /CCITTFaxDecode我知道/DecodeParams它正在使用CCITTFaxDecode组4.

有没有人知道如何从我的pdf中获取CCITTFaxDecode过滤图像?

干杯,卡胡

pdf image extract itextsharp

17
推荐指数
3
解决办法
2万
查看次数

如何在Ubuntu中一次提取文件夹中的多个7z文件?

如何提取大约900个7z文件,这些文件都位于同一个文件夹中(所有文件都只有一个文件)而不是一个一个地执行?

我正在使用Ubuntu 10.10.所有文件都位于/home/username/folder1/folder2.

bash ubuntu extract 7zip

16
推荐指数
8
解决办法
3万
查看次数

如何从.so文件中提取C源代码?

我正在研究以前开发的软件,源代码编译为linux共享库(.so),源代码不存在.有没有可以从linux共享库中提取源代码的工具?

谢谢,拉维

c linux decompiling extract shared-libraries

16
推荐指数
3
解决办法
5万
查看次数

从DER格式的证书中提取公钥

我有一个.cer证书文件,需要提取公钥.我只能提取到PEM格式."outform"参数不执行任何操作.

openssl x509 -inform PEM -in certificate.cer -outform DER -pubkey -noout > publickey.der
Run Code Online (Sandbox Code Playgroud)

是否可以以DER格式提取?

openssl extract certificate der public-key

16
推荐指数
1
解决办法
4万
查看次数

使用JavaScript从HTML字符串中提取文本

我试图使用JS函数获取HTML字符串的内部文本(字符串作为参数传递).这是代码:

function extractContent(value) {
    var content_holder = "";

    for(var i=0;i<value.length;i++) {
        if(value.charAt(i) === '>') {
            continue;
            while(value.charAt(i) != '<') {
                content_holder += value.charAt(i);
            }
        }

    }
    console.log(content_holder);
}

extractContent("<p>Hello</p><a href='http://w3c.org'>W3C</a>");
Run Code Online (Sandbox Code Playgroud)

问题是控制台上没有打印任何内容(content_holder保持空白).我认为问题是由"==="运算符引起的..

html javascript string text extract

16
推荐指数
4
解决办法
5万
查看次数

从列中提取第一个单词并插入新列

我有一个数据框,想要提取第一个单词并将其插入新列

Dataframe1:

COL1
Nick K Jones
Dave G Barros
Matt H Smith
Run Code Online (Sandbox Code Playgroud)

将其转换为:

Dataframe2:
COL1              COL2
Nick K Jones      Nick
Dave G Barros     Dave
Matt H Smith      Matt
Run Code Online (Sandbox Code Playgroud)

r extract dataframe

16
推荐指数
3
解决办法
2万
查看次数

如何从PDF中提取格式化的文本内容

如何(大致)保持像Google Docs一样的样式和布局,我如何从PDF中提取文本内容(而不是图像)?

python pdf text extract google-docs

15
推荐指数
2
解决办法
2万
查看次数

在一个文件中打印行匹配另一个文件中的模式

我有一个超过40.000行(file1)的文件,我想提取与file2中的模式匹配的行(约6000行).我像这样使用grep,但它很慢: grep -f file2 file1 > out

有没有更快的方法来使用awksed

这是我文件的一些摘录:

File1:
scitn003869.2| scign003869 CGCATGTGTGCATGTATTATCGTATCCCTTG
scitn007747.1| scign007747  CACGCAGACGCAGTGGAGCATTCCAGGTCACAA
scitn003155.1| scign003155  TAAAAATCGTTAGCACTCGCTTGGTACACTAAC
scitn018252.1| scign018252  CGTGTGTGTGCATATGTGTGCATGCGTG
scitn004671.2| scign004671  TCCTCAGGTTTTGAAAGGCAGGGTAAGTGCT
Run Code Online (Sandbox Code Playgroud)

File2:
scign000003
scign000004
scign000005
scign004671
scign000013
Run Code Online (Sandbox Code Playgroud)

`

unix awk grep sed extract

15
推荐指数
4
解决办法
3万
查看次数