标签: data-extraction

Paradox数据库文件

我找到了具有不同扩展名的paradox数据库文件.

有db文件,mb文件,dat文件,px文件,XG0文件,XG1文件,XG2文件,XG3文件,XG4文件,YG0文件,YG1文件,YG2文件,YG3文件和YG4文件.

我已经找到了使用gnumeric电子表格打开db文件和px文件的方法.我从db文件中找到了一些所需的数据.但是,其余数据不在db文件中.所以,我必须打开其余的文件.我找不到可以读取这些文件的软件.

file-format paradox data-extraction gnumeric

6
推荐指数
1
解决办法
1万
查看次数

如何加速从栅格中提取缓冲区中土地覆盖类型的比例?

我想在10万个类似SpatialLines对象的10 km缓冲区中提取空间数据,并计算缓冲线周围每种土地覆盖类型的比例.在第一次,我使用该功能crop来裁剪我的栅格.然后,我使用函数extract(包栅格)来计算10种土地覆盖类型的比例.这是我的代码:

lapply(1:nrow(tab_lines), FUN=function(k){
Run Code Online (Sandbox Code Playgroud)

第一步:建立一条10公里左右的缓冲区

buf_line <- gBuffer(seg_line[k], width=10000) ## seg_line =  Lines objects
Run Code Online (Sandbox Code Playgroud)

第二步:从栅格中提取缓冲区中的土地覆盖类型

ha <-extract(x=data_raster,y=buf_line)
Run Code Online (Sandbox Code Playgroud)

第三步:计算10种土地覆盖类型的比例

每种土地覆盖类型的比例必须是列(一列=一个土地覆盖类型)

    ha_1 <-length(ha[[1]][ha[[1]]==1])/length(ha[[1]])
    ha_2 <-length(ha[[1]][ha[[1]]==2])/length(ha[[1]])
    ha_3 <-length(ha[[1]][ha[[1]]==3])/length(ha[[1]])
    ha_4 <-length(ha[[1]][ha[[1]]==4])/length(ha[[1]])
    ha_5 <-length(ha[[1]][ha[[1]]==5])/length(ha[[1]])
    ha_6 <-length(ha[[1]][ha[[1]]==6])/length(ha[[1]])
    ha_7 <-length(ha[[1]][ha[[1]]==7])/length(ha[[1]])
    ha_8 <-length(ha[[1]][ha[[1]]==8])/length(ha[[1]])
    ha_9 <-length(ha[[1]][ha[[1]]==9])/length(ha[[1]])
    ha_10 <-length(ha[[1]][ha[[1]]==10])/length(ha[[1]])

     return(cbind(ha_1, ha_2, ha_3, ha_4, ha_5, ha_6, ha_7, ha_8, ha_9, ha_10))  
    })
Run Code Online (Sandbox Code Playgroud)

如何加快30 000个空间线的处理时间?R中是否还有其他软件包可以为这种类型的提取提供更快的处理?

performance r spatial data-extraction r-raster

6
推荐指数
1
解决办法
674
查看次数

DOMXPath var_dump: "(省略对象值)"

$store = curl_exec($ch); // Returns a page of HTML

$doc = new DOMDocument();
$doc->loadHTML($store);
$xpath = new DOMXpath($doc);
Run Code Online (Sandbox Code Playgroud)

瓦尔转储$xpath

object(DOMXPath)#2 (1) { 
    ["document"] => string(22) "(object value omitted)" 
} 
Run Code Online (Sandbox Code Playgroud)

这里有什么问题吗?我正在尝试在 HTML 代码上使用 xpath 来提取信息。

object(DOMDocument)#1 (34) {
    ["doctype"]         => string(22) "(object value omitted)" 
    ["implementation"]  => string(22) "(object value omitted)" 
    ["documentElement"] => string(22) "(object value omitted)" 
    ["actualEncoding"]  => string(6) "gb2312" 
    ["encoding"]        => string(6) "gb2312"
    ["xmlEncoding"]     => string(6) "gb2312" 
    ["standalone"]      => bool(true) 
    ...
Run Code Online (Sandbox Code Playgroud)

html php xpath data-extraction

5
推荐指数
1
解决办法
2万
查看次数

Tika 1.1 性能改进

我正在使用 tika 1.1,我面临着 tika 需要很长时间才能从文件中提取内容的问题。提取 1MB 的 pdf/doc 文件大约需要 3 秒的时间。有什么办法可以提高性能吗?任何有助于提高性能的调整、配置。

我尝试过 tika 1.4,但不幸的是,相同的 pdf 时间约为 3.2 秒。

我正在使用 BodyContentHandler。

public class TikkaExtractor {
public static void main(String[] args) throws Exception {
    BodyContentHandler handler = new BodyContentHandler(10000);
    Metadata metadata = new Metadata();
    Parser parser = new AutoDetectParser();
    InputStream content = TikkaExtractor.class.getResourceAsStream("demo.pdf");
    parser.parse(content, handler, metadata, new ParseContext());
    ContentHandlerDecorator contentHandlerDecorator = new ContentHandlerDecorator(handler);
    String s = contentHandlerDecorator.toString();
    content.close();
}
Run Code Online (Sandbox Code Playgroud)

}

java data-extraction apache-tika

5
推荐指数
0
解决办法
866
查看次数

从 Kruskal-Wallis 输出中提取 p 值

假设我有一个数据框

> col1<-c(1,5,2,6,8,1,3,8,9,1,8)
> col2<-c(1,2,1,1,2,2,1,2,2,1,1)
> df<-data.frame(col1,col2)
> df

   col1 col2
1     1    1
2     5    2
3     2    1
4     6    1
5     8    2
6     1    2
7     3    1
8     8    2
9     9    2
10    1    1
11    8    1
Run Code Online (Sandbox Code Playgroud)

我已经用我所拥有的数据进行了 Kruskal-Wallis 测试df

> dfKW<-kruskal.test(col1~col2, data=df)
> dfKW

Kruskal-Wallis rank sum test

data:  col1 by col2
Kruskal-Wallis chi-squared = 1.695, df = 1, p-value = 0.1929
Run Code Online (Sandbox Code Playgroud)

我想做的是将 p 值提取到向量中(仅提取没有标签“p 值”的值)。我已经尝试过这个:

> dfKWx<-sapply(dfKW, '[', 'p.value')
> …
Run Code Online (Sandbox Code Playgroud)

r data-extraction kruskal-wallis

5
推荐指数
1
解决办法
4516
查看次数

打开 .gdb 数据库文件

我正在尝试打开一个旧的 interbase.gdb文件。这对我来说是一个新的步骤,我不知道从哪里开始任何建议都会有很大帮助,过去几天我一直在互联网上搜索,但我仍然需要知道如何去做。

interbase data-access data-extraction

5
推荐指数
1
解决办法
3万
查看次数

用Python读取DWG文件并提取边缘点

我有一个 DWG 文件,其中有一个矩形,其中有几条线(例如带有内墙的平面图)。如何使用Python提取边缘(X,Y坐标)?我需要将平面图提取为定义了节点和边的图形。因此,作为一个矩形的实例,我应该有 4 个 X,Y 坐标,将这个矩形的边缘定义为图形。

python cad autocad dwg data-extraction

5
推荐指数
0
解决办法
5064
查看次数

使用 Spacy 从文本文件中提取名称

我有一个文本文件,其中包含如下所示的行:

Electronically signed : Wes Scott, M.D.; Jun 26 2010 11:10AM CST

The patient was referred by Dr. Jacob Austin.  

Electronically signed by Robert Clowson, M.D.; Janury 15 2015 11:13AM CST

Electronically signed by Dr. John Douglas, M.D.; Jun 16 2017 11:13AM CST

The patient was referred by
Dr. Jayden Green Olivia.  
Run Code Online (Sandbox Code Playgroud)

我想使用 Spacy 提取所有名称。我正在使用 Spacy 的词性标记和实体识别,但无法获得成功。我可以知道它是如何做到的吗?任何帮助将是可观的

我正在以这种方式使用一些代码:

import spacy
nlp = spacy.load('en')
 document_string= " Electronically signed by stupid: Dr. John Douglas, M.D.; 
 Jun 13 2018 11:13AM CST"
doc = …
Run Code Online (Sandbox Code Playgroud)

nlp nltk data-extraction python-3.x spacy

5
推荐指数
2
解决办法
1万
查看次数

如何从 saz 文件中提取文件?

我将会话从 Fiddler 导出到 saz 文件。此会话仅包含 jpg 文件,我想知道 -如何快速轻松地从 saz 中提取 jpg 文件

谢谢!

extract unzip fiddler data-extraction

5
推荐指数
1
解决办法
8870
查看次数

是否可以使用 python/pyspark 从 RavenDB 中的数据库加载整个集合?

我正在使用 pyravendb 中的 document_store 来使用 session 将实体加载为数据框。我想知道是否可以加载集合并将其作为数据框获取?

from pyravendb.store import document_store
document_store = document_store.DocumentStore("http://live-test.ravendb.net", "DemoUser-08fef053-7143-4fc7-9860-bc415838799d")
document_store.initialize()
with document_store.open_session() as session:
    employee = session.load(["employees/8-A"])
    display(employee)
Run Code Online (Sandbox Code Playgroud)

data-extraction ravendb python-3.x pyspark

5
推荐指数
1
解决办法
26
查看次数