我找到了具有不同扩展名的paradox数据库文件.
有db文件,mb文件,dat文件,px文件,XG0文件,XG1文件,XG2文件,XG3文件,XG4文件,YG0文件,YG1文件,YG2文件,YG3文件和YG4文件.
我已经找到了使用gnumeric电子表格打开db文件和px文件的方法.我从db文件中找到了一些所需的数据.但是,其余数据不在db文件中.所以,我必须打开其余的文件.我找不到可以读取这些文件的软件.
我想在10万个类似SpatialLines对象的10 km缓冲区中提取空间数据,并计算缓冲线周围每种土地覆盖类型的比例.在第一次,我使用该功能crop来裁剪我的栅格.然后,我使用函数extract(包栅格)来计算10种土地覆盖类型的比例.这是我的代码:
lapply(1:nrow(tab_lines), FUN=function(k){
Run Code Online (Sandbox Code Playgroud)
buf_line <- gBuffer(seg_line[k], width=10000) ## seg_line = Lines objects
Run Code Online (Sandbox Code Playgroud)
ha <-extract(x=data_raster,y=buf_line)
Run Code Online (Sandbox Code Playgroud)
每种土地覆盖类型的比例必须是列(一列=一个土地覆盖类型)
ha_1 <-length(ha[[1]][ha[[1]]==1])/length(ha[[1]])
ha_2 <-length(ha[[1]][ha[[1]]==2])/length(ha[[1]])
ha_3 <-length(ha[[1]][ha[[1]]==3])/length(ha[[1]])
ha_4 <-length(ha[[1]][ha[[1]]==4])/length(ha[[1]])
ha_5 <-length(ha[[1]][ha[[1]]==5])/length(ha[[1]])
ha_6 <-length(ha[[1]][ha[[1]]==6])/length(ha[[1]])
ha_7 <-length(ha[[1]][ha[[1]]==7])/length(ha[[1]])
ha_8 <-length(ha[[1]][ha[[1]]==8])/length(ha[[1]])
ha_9 <-length(ha[[1]][ha[[1]]==9])/length(ha[[1]])
ha_10 <-length(ha[[1]][ha[[1]]==10])/length(ha[[1]])
return(cbind(ha_1, ha_2, ha_3, ha_4, ha_5, ha_6, ha_7, ha_8, ha_9, ha_10))
})
Run Code Online (Sandbox Code Playgroud)
如何加快30 000个空间线的处理时间?R中是否还有其他软件包可以为这种类型的提取提供更快的处理?
$store = curl_exec($ch); // Returns a page of HTML
$doc = new DOMDocument();
$doc->loadHTML($store);
$xpath = new DOMXpath($doc);
Run Code Online (Sandbox Code Playgroud)
瓦尔转储$xpath:
object(DOMXPath)#2 (1) {
["document"] => string(22) "(object value omitted)"
}
Run Code Online (Sandbox Code Playgroud)
这里有什么问题吗?我正在尝试在 HTML 代码上使用 xpath 来提取信息。
object(DOMDocument)#1 (34) {
["doctype"] => string(22) "(object value omitted)"
["implementation"] => string(22) "(object value omitted)"
["documentElement"] => string(22) "(object value omitted)"
["actualEncoding"] => string(6) "gb2312"
["encoding"] => string(6) "gb2312"
["xmlEncoding"] => string(6) "gb2312"
["standalone"] => bool(true)
...
Run Code Online (Sandbox Code Playgroud) 我正在使用 tika 1.1,我面临着 tika 需要很长时间才能从文件中提取内容的问题。提取 1MB 的 pdf/doc 文件大约需要 3 秒的时间。有什么办法可以提高性能吗?任何有助于提高性能的调整、配置。
我尝试过 tika 1.4,但不幸的是,相同的 pdf 时间约为 3.2 秒。
我正在使用 BodyContentHandler。
public class TikkaExtractor {
public static void main(String[] args) throws Exception {
BodyContentHandler handler = new BodyContentHandler(10000);
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
InputStream content = TikkaExtractor.class.getResourceAsStream("demo.pdf");
parser.parse(content, handler, metadata, new ParseContext());
ContentHandlerDecorator contentHandlerDecorator = new ContentHandlerDecorator(handler);
String s = contentHandlerDecorator.toString();
content.close();
}
Run Code Online (Sandbox Code Playgroud)
}
假设我有一个数据框
> col1<-c(1,5,2,6,8,1,3,8,9,1,8)
> col2<-c(1,2,1,1,2,2,1,2,2,1,1)
> df<-data.frame(col1,col2)
> df
col1 col2
1 1 1
2 5 2
3 2 1
4 6 1
5 8 2
6 1 2
7 3 1
8 8 2
9 9 2
10 1 1
11 8 1
Run Code Online (Sandbox Code Playgroud)
我已经用我所拥有的数据进行了 Kruskal-Wallis 测试df
> dfKW<-kruskal.test(col1~col2, data=df)
> dfKW
Kruskal-Wallis rank sum test
data: col1 by col2
Kruskal-Wallis chi-squared = 1.695, df = 1, p-value = 0.1929
Run Code Online (Sandbox Code Playgroud)
我想做的是将 p 值提取到向量中(仅提取没有标签“p 值”的值)。我已经尝试过这个:
> dfKWx<-sapply(dfKW, '[', 'p.value')
> …Run Code Online (Sandbox Code Playgroud) 我正在尝试打开一个旧的 interbase.gdb文件。这对我来说是一个新的步骤,我不知道从哪里开始任何建议都会有很大帮助,过去几天我一直在互联网上搜索,但我仍然需要知道如何去做。
我有一个 DWG 文件,其中有一个矩形,其中有几条线(例如带有内墙的平面图)。如何使用Python提取边缘(X,Y坐标)?我需要将平面图提取为定义了节点和边的图形。因此,作为一个矩形的实例,我应该有 4 个 X,Y 坐标,将这个矩形的边缘定义为图形。
我有一个文本文件,其中包含如下所示的行:
Electronically signed : Wes Scott, M.D.; Jun 26 2010 11:10AM CST
The patient was referred by Dr. Jacob Austin.
Electronically signed by Robert Clowson, M.D.; Janury 15 2015 11:13AM CST
Electronically signed by Dr. John Douglas, M.D.; Jun 16 2017 11:13AM CST
The patient was referred by
Dr. Jayden Green Olivia.
Run Code Online (Sandbox Code Playgroud)
我想使用 Spacy 提取所有名称。我正在使用 Spacy 的词性标记和实体识别,但无法获得成功。我可以知道它是如何做到的吗?任何帮助将是可观的
我正在以这种方式使用一些代码:
import spacy
nlp = spacy.load('en')
document_string= " Electronically signed by stupid: Dr. John Douglas, M.D.;
Jun 13 2018 11:13AM CST"
doc = …Run Code Online (Sandbox Code Playgroud) 我将会话从 Fiddler 导出到 saz 文件。此会话仅包含 jpg 文件,我想知道 -如何快速轻松地从 saz 中提取 jpg 文件?
谢谢!
我正在使用 pyravendb 中的 document_store 来使用 session 将实体加载为数据框。我想知道是否可以加载集合并将其作为数据框获取?
from pyravendb.store import document_store
document_store = document_store.DocumentStore("http://live-test.ravendb.net", "DemoUser-08fef053-7143-4fc7-9860-bc415838799d")
document_store.initialize()
with document_store.open_session() as session:
employee = session.load(["employees/8-A"])
display(employee)
Run Code Online (Sandbox Code Playgroud) data-extraction ×10
python-3.x ×2
r ×2
apache-tika ×1
autocad ×1
cad ×1
data-access ×1
dwg ×1
extract ×1
fiddler ×1
file-format ×1
gnumeric ×1
html ×1
interbase ×1
java ×1
nlp ×1
nltk ×1
paradox ×1
performance ×1
php ×1
pyspark ×1
python ×1
r-raster ×1
ravendb ×1
spacy ×1
spatial ×1
unzip ×1
xpath ×1