标签: extract

如何从Perl中的PDF文件中提取文本？

我试图使用Perl从PDF文件中提取文本.我一直在使用pdftotext.exe命令行(即使用Perl system函数)从PDF文件中提取文本,这种方法工作正常.

问题是我们在PDF文件中有像α,β和其他特殊字符的符号,这些符号没有显示在生成的txt文件中.在文本中随机添加的空格也很少.

是否有更好,更可靠的方法从PDF文件中提取文本,使文本包含所有符号,如α,β等,文本将与PDF中的文本完全匹配(即没有额外的空格)？

pdf perl text extract

Paw*_*Rao

2009 07-17

18
推荐指数

3
解决办法

4万
查看次数

如何从字符串中提取第一个和最后一个单词？

我在学校需要做的事情有一个小问题......

我的任务是从user(text = raw_input())获取原始输入字符串,我需要打印该字符串的第一个和最后一个单词.

有人可以帮助我吗？我一整天都在寻找答案......

python string split extract

Lio*_*han

2017 06-05

18
推荐指数

5
解决办法

4万
查看次数

使用/ CCITTFaxDecode过滤器从PDF中提取图像

我有一个从扫描软件生成的pdf.pdf每页有1个TIFF图像.我想从每个页面中提取TIFF图像.

我正在使用iTextSharp并且我已经成功找到了图像,并且可以从该PdfReader.GetStreamBytesRaw方法中获取原始字节.问题是,正如我之前发现的那样,iTextSharp不包含PdfReader.CCITTFaxDecode方法.

还有什么我知道的？即使没有iTextSharp,我也可以在记事本中打开pdf并找到流,/Filter /CCITTFaxDecode我知道/DecodeParams它正在使用CCITTFaxDecode组4.

有没有人知道如何从我的pdf中获取CCITTFaxDecode过滤图像？

干杯,卡胡

pdf image extract itextsharp

Kah*_*ahu

2011 12-09

17
推荐指数

3
解决办法

2万
查看次数

如何在Ubuntu中一次提取文件夹中的多个7z文件？

如何提取大约900个7z文件,这些文件都位于同一个文件夹中(所有文件都只有一个文件)而不是一个一个地执行？

我正在使用Ubuntu 10.10.所有文件都位于/home/username/folder1/folder2.

bash ubuntu extract 7zip

Rob*_*ona

2018 06-04

16
推荐指数

8
解决办法

3万
查看次数

如何从.so文件中提取C源代码？

我正在研究以前开发的软件,源代码编译为linux共享库(.so),源代码不存在.有没有可以从linux共享库中提取源代码的工具？

谢谢,拉维

c linux decompiling extract shared-libraries

Rav*_*avi

2014 02-07

16
推荐指数

3
解决办法

5万
查看次数

从DER格式的证书中提取公钥

我有一个.cer证书文件,需要提取公钥.我只能提取到PEM格式."outform"参数不执行任何操作.

openssl x509 -inform PEM -in certificate.cer -outform DER -pubkey -noout > publickey.der

Run Code Online (Sandbox Code Playgroud)

是否可以以DER格式提取？

openssl extract certificate der public-key

mar*_*pes

2014 09-21

16
推荐指数

1
解决办法

4万
查看次数

使用JavaScript从HTML字符串中提取文本

我试图使用JS函数获取HTML字符串的内部文本(字符串作为参数传递).这是代码:

function extractContent(value) {
    var content_holder = "";

    for(var i=0;i<value.length;i++) {
        if(value.charAt(i) === '>') {
            continue;
            while(value.charAt(i) != '<') {
                content_holder += value.charAt(i);
            }
        }

    }
    console.log(content_holder);
}

extractContent("<p>Hello</p><a href='http://w3c.org'>W3C</a>");

Run Code Online (Sandbox Code Playgroud)

问题是控制台上没有打印任何内容(content_holder保持空白).我认为问题是由"==="运算符引起的..

html javascript string text extract

Tos*_*uuu

lucky-day

16
推荐指数

4
解决办法

5万
查看次数

从列中提取第一个单词并插入新列

我有一个数据框,想要提取第一个单词并将其插入新列

Dataframe1:

COL1
Nick K Jones
Dave G Barros
Matt H Smith

Run Code Online (Sandbox Code Playgroud)

将其转换为:

Dataframe2:
COL1              COL2
Nick K Jones      Nick
Dave G Barros     Dave
Matt H Smith      Matt

Run Code Online (Sandbox Code Playgroud)

r extract dataframe

Nic*_*ick

2018 11-08

16
推荐指数

3
解决办法

2万
查看次数

如何从PDF中提取格式化的文本内容

如何(大致)保持像Google Docs一样的样式和布局,我如何从PDF中提取文本内容(而不是图像)？

python pdf text extract google-docs

hoj*_*oju

2011 12-04

15
推荐指数

2
解决办法

2万
查看次数

在一个文件中打印行匹配另一个文件中的模式

我有一个超过40.000行(file1)的文件,我想提取与file2中的模式匹配的行(约6000行).我像这样使用grep,但它很慢: grep -f file2 file1 > out

有没有更快的方法来使用awk或sed？

这是我文件的一些摘录:

File1:
scitn003869.2| scign003869 CGCATGTGTGCATGTATTATCGTATCCCTTG
scitn007747.1| scign007747  CACGCAGACGCAGTGGAGCATTCCAGGTCACAA
scitn003155.1| scign003155  TAAAAATCGTTAGCACTCGCTTGGTACACTAAC
scitn018252.1| scign018252  CGTGTGTGTGCATATGTGTGCATGCGTG
scitn004671.2| scign004671  TCCTCAGGTTTTGAAAGGCAGGGTAAGTGCT

Run Code Online (Sandbox Code Playgroud)

File2:
scign000003
scign000004
scign000005
scign004671
scign000013

Run Code Online (Sandbox Code Playgroud)

unix awk grep sed extract

Jon*_*Jon

2018 10-17

15
推荐指数

4
解决办法

3万
查看次数

标签统计

extract ×10

pdf ×3

text ×3

python ×2

string ×2

7zip ×1

awk ×1

bash ×1

c ×1

certificate ×1

dataframe ×1

decompiling ×1

der ×1

google-docs ×1

grep ×1

html ×1

image ×1

itextsharp ×1

javascript ×1

linux ×1

openssl ×1

perl ×1

public-key ×1

r ×1

sed ×1

shared-libraries ×1

split ×1

ubuntu ×1

unix ×1

标签 统计

标签统计