标签: extract

命名实体识别的算法

我想使用命名实体识别(NER)来为数据库中的文本找到足够的标签.

我知道维基百科有关于此的文章以及许多描述NER的其他页面,我最好从您那里听到有关此主题的内容:

您使用各种算法有什么经验？
你会推荐哪种算法？
哪种算法最容易实现(PHP/Python)？
如何算法工作？是否需要手动培训？

例:

"去年,我在伦敦看到巴拉克奥巴马." =>标签:伦敦,巴拉克奥巴马

我希望你能帮助我.非常感谢你提前!

php python analysis extract named-entity-recognition

caw*_*caw

lucky-day

22
推荐指数

1
解决办法

8819
查看次数

从torrent文件中提取SHA1哈希

我已经四处寻找答案,但我似乎只能找到适合你的软件.有人知道如何在python中这样做吗？

python hash bittorrent sha1 extract

作者

2010 05-03

22
推荐指数

2
解决办法

2万
查看次数

以编程方式提取PDF表格

我有一堆PDF文档,其中包含表格数据,我需要将其提取为更易读的格式,以存储在电子表格,数据库或其他任何内容中.

世界上是否有任何东西(最好是免费的)可以将PDF格式的表格数据转换为更易读的格式,可以通过本机与应用程序集成,也可以通过命令行被动地或通过代码(.net)循环进程？

只要表格得到维护,就可以是任何格式(doc,html).

到目前为止我发现的任何东西都是一次性的(一次只有一个文档,我有数百个,没有发生)或者没有维护表结构.

任何想法请发布.

.net pdf acrobat extract

mar*_*igi

2017 06-09

21
推荐指数

2
解决办法

1万
查看次数

如何从视频中获取帧样本(jpeg)(mov)

我想从带有java的视频文件(mov)中获取帧样本(jpeg).是否有捷径可寻.当我在谷歌搜索所有我能找到的是从多个jpgs制作mov.我不知道也许我找不到合适的关键字.

java jpeg extract mov

Nur*_*mir

2013 04-01

21
推荐指数

2
解决办法

5万
查看次数

在Excel中,如何提取十个字母字符串的最后四个字母？

例如,如果我有

ABS YUR YUAO   
HFH IWO OQNX  
YQO PQM QUCC

Run Code Online (Sandbox Code Playgroud)

如何提取另一列中的最后四个字母？

excel extract excel-formula

Nit*_*ngh

2012 07-12

20
推荐指数

1
解决办法

24万
查看次数

在字符串中用一个字符替换另一个字符

我有如下数据:

A:B:C:D

我想替换Cwith数据(比方说Z),以便它看起来像

A:B:Z:D

我该怎么做？

excel replace extract formula delimiter

com*_*mbo

2016 05-08

20
推荐指数

2
解决办法

8万
查看次数

Excel - 根据另一个列表提取数据

我有一个Excel工作表,其中包含两列(名称/ ID),然后是另一个列表,它只是上述较大列表中的名称的子集.我想通过子集列表,然后从较大的列表(名称/ ID)中提取数据并将其放在其他位置......如果名称在子集上,则基本上只从较大的列表中获取数据.

我尝试使用过滤器,但无法使其工作.思考？

谢谢.

excel extract

作者

2015 09-11

19
推荐指数

2
解决办法

12万
查看次数

从网页中提取链接

使用Java,我如何从给定的网页中提取所有链接？

java extract hyperlink package

Was*_*RAR

2014 11-20

19
推荐指数

2
解决办法

5万
查看次数

R提取部分字符串

我有一个关于提取字符串的一部分的问题.例如,我有一个这样的字符串:

a <- "DP=26;AN=2;DB=1;AC=1;MQ=56;MZ=0;ST=5:10,7:2;CQ=SYNONYMOUS_CODING;GN=NOC2L;PA=1^1:0.720&2^1:0"

Run Code Online (Sandbox Code Playgroud)

我需要在GN=和之间提取所有内容;.所以它会在这里NOC2L.

那可能吗？

注意:这是INFO列形式的VCF文件格式.GN是基因名称,因此我们想从INFO列中提取基因名称.

regex string r extract bioinformatics

Lis*_*ann

2016 12-13

19
推荐指数

2
解决办法

3万
查看次数

Pdfminer python 3.5

我已经遵循了几个教程但是我无法运行此代码块,我从StringIO到BytesIO进行了必要的切换(我相信？)

我不确定为什么'香蕉'什么都不打印,我认为错误可能是红色的鲱鱼？是不是跟着python2.7教程并试图将它翻译成python3？

errors: File "/Users/foo/PycharmProjects/Try/Pdfminer.py", line 28, in <module>
    banana = convert("A1.pdf")
  File "/Users/foo/PycharmProjects/Try/Pdfminer.py", line 19, in convert
    infile = file(fname, 'rb')
NameError: name 'file' is not defined

Run Code Online (Sandbox Code Playgroud)

脚本

from io import BytesIO

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

def convert(fname, pages=None):
    if not pages:
        pagenums = set()
    else:
        pagenums = set(pages)

    output = BytesIO()
    manager = PDFResourceManager()
    converter = TextConverter(manager, output, laparams=LAParams())
    interpreter = PDFPageInterpreter(manager, converter)

    infile = …

Run Code Online (Sandbox Code Playgroud)

pdf text extract python-3.x pdfminer

gar*_*ry

2017 05-23

19
推荐指数

2
解决办法

3万
查看次数