标签: data-extraction

Paradox数据库文件

我找到了具有不同扩展名的paradox数据库文件.

有db文件,mb文件,dat文件,px文件,XG0文件,XG1文件,XG2文件,XG3文件,XG4文件,YG0文件,YG1文件,YG2文件,YG3文件和YG4文件.

我已经找到了使用gnumeric电子表格打开db文件和px文件的方法.我从db文件中找到了一些所需的数据.但是,其余数据不在db文件中.所以,我必须打开其余的文件.我找不到可以读取这些文件的软件.

file-format paradox data-extraction gnumeric

pre*_*rem

2014 10-31

6
推荐指数

1
解决办法

1万
查看次数

如何加速从栅格中提取缓冲区中土地覆盖类型的比例？

我想在10万个类似SpatialLines对象的10 km缓冲区中提取空间数据,并计算缓冲线周围每种土地覆盖类型的比例.在第一次,我使用该功能crop来裁剪我的栅格.然后,我使用函数extract(包栅格)来计算10种土地覆盖类型的比例.这是我的代码:

lapply(1:nrow(tab_lines), FUN=function(k){

Run Code Online (Sandbox Code Playgroud)

第一步:建立一条10公里左右的缓冲区

buf_line <- gBuffer(seg_line[k], width=10000) ## seg_line =  Lines objects

Run Code Online (Sandbox Code Playgroud)

第二步:从栅格中提取缓冲区中的土地覆盖类型

ha <-extract(x=data_raster,y=buf_line)

Run Code Online (Sandbox Code Playgroud)

第三步:计算10种土地覆盖类型的比例

每种土地覆盖类型的比例必须是列(一列=一个土地覆盖类型)

    ha_1 <-length(ha[[1]][ha[[1]]==1])/length(ha[[1]])
    ha_2 <-length(ha[[1]][ha[[1]]==2])/length(ha[[1]])
    ha_3 <-length(ha[[1]][ha[[1]]==3])/length(ha[[1]])
    ha_4 <-length(ha[[1]][ha[[1]]==4])/length(ha[[1]])
    ha_5 <-length(ha[[1]][ha[[1]]==5])/length(ha[[1]])
    ha_6 <-length(ha[[1]][ha[[1]]==6])/length(ha[[1]])
    ha_7 <-length(ha[[1]][ha[[1]]==7])/length(ha[[1]])
    ha_8 <-length(ha[[1]][ha[[1]]==8])/length(ha[[1]])
    ha_9 <-length(ha[[1]][ha[[1]]==9])/length(ha[[1]])
    ha_10 <-length(ha[[1]][ha[[1]]==10])/length(ha[[1]])

     return(cbind(ha_1, ha_2, ha_3, ha_4, ha_5, ha_6, ha_7, ha_8, ha_9, ha_10))  
    })

Run Code Online (Sandbox Code Playgroud)

如何加快30 000个空间线的处理时间？R中是否还有其他软件包可以为这种类型的提取提供更快的处理？

performance r spatial data-extraction r-raster

Pie*_*rre

2015 12-08

6
推荐指数

1
解决办法

674
查看次数

DOMXPath var_dump: "(省略对象值)"

$store = curl_exec($ch); // Returns a page of HTML

$doc = new DOMDocument();
$doc->loadHTML($store);
$xpath = new DOMXpath($doc);

Run Code Online (Sandbox Code Playgroud)

瓦尔转储$xpath：

object(DOMXPath)#2 (1) { 
    ["document"] => string(22) "(object value omitted)" 
}

Run Code Online (Sandbox Code Playgroud)

这里有什么问题吗？我正在尝试在 HTML 代码上使用 xpath 来提取信息。

object(DOMDocument)#1 (34) {
    ["doctype"]         => string(22) "(object value omitted)" 
    ["implementation"]  => string(22) "(object value omitted)" 
    ["documentElement"] => string(22) "(object value omitted)" 
    ["actualEncoding"]  => string(6) "gb2312" 
    ["encoding"]        => string(6) "gb2312"
    ["xmlEncoding"]     => string(6) "gb2312" 
    ["standalone"]      => bool(true) 
    ...

Run Code Online (Sandbox Code Playgroud)

html php xpath data-extraction

Cod*_*uru

2013 07-13

5
推荐指数

1
解决办法

2万
查看次数

Tika 1.1 性能改进

我正在使用 tika 1.1，我面临着 tika 需要很长时间才能从文件中提取内容的问题。提取 1MB 的 pdf/doc 文件大约需要 3 秒的时间。有什么办法可以提高性能吗？任何有助于提高性能的调整、配置。

我尝试过 tika 1.4，但不幸的是，相同的 pdf 时间约为 3.2 秒。

我正在使用 BodyContentHandler。

public class TikkaExtractor {
public static void main(String[] args) throws Exception {
    BodyContentHandler handler = new BodyContentHandler(10000);
    Metadata metadata = new Metadata();
    Parser parser = new AutoDetectParser();
    InputStream content = TikkaExtractor.class.getResourceAsStream("demo.pdf");
    parser.parse(content, handler, metadata, new ParseContext());
    ContentHandlerDecorator contentHandlerDecorator = new ContentHandlerDecorator(handler);
    String s = contentHandlerDecorator.toString();
    content.close();
}

Run Code Online (Sandbox Code Playgroud)

}

java data-extraction apache-tika

Che*_*dha

2013 12-24

5
推荐指数

0
解决办法

866
查看次数

从 Kruskal-Wallis 输出中提取 p 值

假设我有一个数据框

> col1<-c(1,5,2,6,8,1,3,8,9,1,8)
> col2<-c(1,2,1,1,2,2,1,2,2,1,1)
> df<-data.frame(col1,col2)
> df

   col1 col2
1     1    1
2     5    2
3     2    1
4     6    1
5     8    2
6     1    2
7     3    1
8     8    2
9     9    2
10    1    1
11    8    1

Run Code Online (Sandbox Code Playgroud)

我已经用我所拥有的数据进行了 Kruskal-Wallis 测试df

> dfKW<-kruskal.test(col1~col2, data=df)
> dfKW

Kruskal-Wallis rank sum test

data:  col1 by col2
Kruskal-Wallis chi-squared = 1.695, df = 1, p-value = 0.1929

Run Code Online (Sandbox Code Playgroud)

我想做的是将 p 值提取到向量中（仅提取没有标签“p 值”的值）。我已经尝试过这个：

> dfKWx<-sapply(dfKW, '[', 'p.value')
> …

Run Code Online (Sandbox Code Playgroud)

r data-extraction kruskal-wallis

Oll*_*i J

lucky-day

5
推荐指数

1
解决办法

4516
查看次数

打开 .gdb 数据库文件

我正在尝试打开一个旧的 interbase.gdb文件。这对我来说是一个新的步骤，我不知道从哪里开始任何建议都会有很大帮助，过去几天我一直在互联网上搜索，但我仍然需要知道如何去做。

interbase data-access data-extraction

Leo*_*Lee

2016 02-25

5
推荐指数

1
解决办法

3万
查看次数

用Python读取DWG文件并提取边缘点

我有一个 DWG 文件，其中有一个矩形，其中有几条线（例如带有内墙的平面图）。如何使用Python提取边缘（X，Y坐标）？我需要将平面图提取为定义了节点和边的图形。因此，作为一个矩形的实例，我应该有 4 个 X,Y 坐标，将这个矩形的边缘定义为图形。

python cad autocad dwg data-extraction

USC*_*jan

lucky-day

5
推荐指数

0
解决办法

5064
查看次数

使用 Spacy 从文本文件中提取名称

我有一个文本文件，其中包含如下所示的行：

Electronically signed : Wes Scott, M.D.; Jun 26 2010 11:10AM CST

The patient was referred by Dr. Jacob Austin.  

Electronically signed by Robert Clowson, M.D.; Janury 15 2015 11:13AM CST

Electronically signed by Dr. John Douglas, M.D.; Jun 16 2017 11:13AM CST

The patient was referred by
Dr. Jayden Green Olivia.

Run Code Online (Sandbox Code Playgroud)

我想使用 Spacy 提取所有名称。我正在使用 Spacy 的词性标记和实体识别，但无法获得成功。我可以知道它是如何做到的吗？任何帮助将是可观的

我正在以这种方式使用一些代码：

import spacy
nlp = spacy.load('en')
 document_string= " Electronically signed by stupid: Dr. John Douglas, M.D.; 
 Jun 13 2018 11:13AM CST"
doc = …

Run Code Online (Sandbox Code Playgroud)

nlp nltk data-extraction python-3.x spacy

Sli*_*ind

2018 07-25

5
推荐指数

2
解决办法

1万
查看次数

如何从 saz 文件中提取文件？

我将会话从 Fiddler 导出到 saz 文件。此会话仅包含 jpg 文件，我想知道 -如何快速轻松地从 saz 中提取 jpg 文件？

谢谢！

extract unzip fiddler data-extraction

Yan*_*rmr

2020 01-20

5
推荐指数

1
解决办法

8870
查看次数

是否可以使用 python/pyspark 从 RavenDB 中的数据库加载整个集合？

我正在使用 pyravendb 中的 document_store 来使用 session 将实体加载为数据框。我想知道是否可以加载集合并将其作为数据框获取？

from pyravendb.store import document_store
document_store = document_store.DocumentStore("http://live-test.ravendb.net", "DemoUser-08fef053-7143-4fc7-9860-bc415838799d")
document_store.initialize()
with document_store.open_session() as session:
    employee = session.load(["employees/8-A"])
    display(employee)

Run Code Online (Sandbox Code Playgroud)

data-extraction ravendb python-3.x pyspark

Nik*_*iki

lucky-day

5
推荐指数

1
解决办法

26
查看次数