小编Kri*_*ian的帖子

比较想法相似性的算法(作为字符串)

考虑一个记录问题答案的任意文本框,在你死之前你想做什么?

使用一组响应字符串(最大长度为240),我想以某种方式对它们进行排序和分组,并按想法计算它们(这可能只是字符串相似性,如本问题所述).

  1. 有没有其他或更好的方法来做这样的事情?
  2. 与字符串相似性有何不同
  3. 这是正确的问题吗?

这里的想法是让人们一遍又一遍地在文本框中书写,我提供一个数字,一般来说,描述了802人写的大致相同的东西

algorithm nlp artificial-intelligence

5
推荐指数
1
解决办法
1106
查看次数

couchdb如何列出db上的所有用户?

我正在尝试确定用户的创建方式.

在沙发上有一个curl命令列出所有现有的couchdb用户吗?

如果是这样的话卷发是什么?

curl couchdb

5
推荐指数
2
解决办法
5040
查看次数

数据导入期间超出了Fuseki GC开销限制

我正在尝试在启动时将LinkedMDB(6.1m三倍)导入我的本地版本的jena-fuseki:

/path/to/fuseki-server --file=/path/to/linkedmdb.nt /ds
Run Code Online (Sandbox Code Playgroud)

并运行一分钟,然后死于以下错误:

Exception in thread "main" java.lang.OutOfMemoryError: GC overhead limit exceeded
    at com.hp.hpl.jena.graph.Node$3.construct(Node.java:318)
    at com.hp.hpl.jena.graph.Node.create(Node.java:344)
    at com.hp.hpl.jena.graph.NodeFactory.createURI(NodeFactory.java:48)
    at org.apache.jena.riot.system.RiotLib.createIRIorBNode(RiotLib.java:80)
    at org.apache.jena.riot.system.ParserProfileBase.createURI(ParserProfileBase.java:107)
    at org.apache.jena.riot.system.ParserProfileBase.create(ParserProfileBase.java:156)
    at org.apache.jena.riot.lang.LangNTriples.tokenAsNode(LangNTriples.java:97)
    at org.apache.jena.riot.lang.LangNTriples.parseOne(LangNTriples.java:90)
    at org.apache.jena.riot.lang.LangNTriples.runParser(LangNTriples.java:54)
    at org.apache.jena.riot.lang.LangBase.parse(LangBase.java:42)
    at org.apache.jena.riot.RDFParserRegistry$ReaderRIOTFactoryImpl$1.read(RDFParserRegistry.java:142)
    at org.apache.jena.riot.RDFDataMgr.process(RDFDataMgr.java:818)
    at org.apache.jena.riot.RDFDataMgr.parse(RDFDataMgr.java:679)
    at org.apache.jena.riot.RDFDataMgr.read(RDFDataMgr.java:211)
    at org.apache.jena.riot.RDFDataMgr.read(RDFDataMgr.java:104)
    at org.apache.jena.fuseki.FusekiCmd.processModulesAndArgs(FusekiCmd.java:251)
    at arq.cmdline.CmdArgModule.process(CmdArgModule.java:51)
    at arq.cmdline.CmdMain.mainMethod(CmdMain.java:100)
    at arq.cmdline.CmdMain.mainRun(CmdMain.java:63)
    at arq.cmdline.CmdMain.mainRun(CmdMain.java:50)
    at org.apache.jena.fuseki.FusekiCmd.main(FusekiCmd.java:141)
Run Code Online (Sandbox Code Playgroud)

有没有办法可以提高内存限制或以较少的密集方式导入数据?

为了比较,当我使用一百万个三重源文件时,它会在不到10秒的时间内导入.

java rdf sparql jena fuseki

5
推荐指数
1
解决办法
2413
查看次数

如何使用SPARQL查找类似的内容

我正在尝试使用SPARQL识别事物之间的概念重叠.

以电影为例(LinkedMDB数据),如果我有一部电影,"The Matrix",我的目标是列出与该电影相似的电影,我可能会先做以下几点:

  • 矩阵
    • 获得流派
    • 得到演员
    • 得到导演
    • 得到位置
    • 等等

然后使用我在矩阵中识别的东西,我会查询具有这些属性的东西(伪查询)

SELECT movie, genre, director, location, actors
WHERE {
  genre is action or sci-fi .

  director are the Wachowski brothers .

  location is set in a big city .

  OPTIONAL( actors were in the matrix . )
}
Run Code Online (Sandbox Code Playgroud)

SPARQL中有什么东西可以让我检查不同节点之间属性的重叠吗?或者必须像我提议的那样手动完成吗?

rdf semantic-web sparql linkedmdb

5
推荐指数
1
解决办法
956
查看次数

在本体中,如何将属性的值定义为日期时间

在编写本体并且你想要创建一个与时间/日期相关的类和属性时,我假设你将在结构上有这样的东西(伪代码):

class:Project
  label: Project

property:duedate
  label: The expected completion time and date of project
  domain: Project
  range: datetime (?)
Run Code Online (Sandbox Code Playgroud)

我已经用Google搜索并发现了Owl-Time本体,但用例让我感到困惑,因为看起来我应该定义相当多的东西.我在这里走在正确的轨道上吗?

rdf owl ontology sparql owl-time

5
推荐指数
1
解决办法
1073
查看次数

为什么在文件名中包含散列更好地用于缓存而不是将时间戳作为查询参数附加?

在使用Grunt构建时,我遇到了修复/缓存静态资产的rev任务和cachebreaker任务.

一个使用文件名覆盖,另一个使用时间戳作为查询参数.显然,一个比另一个更优选.

为什么一个比另一个好?

revision caching browser-cache node.js gruntjs

5
推荐指数
1
解决办法
1792
查看次数

使用 md5_file() 函数并在文件名上加上重音符号

在我的 PHP 脚本中,我使用md5_file()函数为每个分析的文件返回一个 md5 密钥。

\n\n

但是,当文件名中包含重音符号时,md5_file()函数无法读取该文件。

\n\n
//filename: Flash_Conqu\xc3\xaate_Galactic.txt\nWarning: md5_file(.....): failed to open stream: No such file or directory in\n
Run Code Online (Sandbox Code Playgroud)\n\n

我尝试使用该iconv()功能或utf8_encode()函数,但两者都完全没有结果。

\n\n

有没有办法在不修改文件名的情况下解决这个问题?

\n

php

5
推荐指数
1
解决办法
447
查看次数

Node/Express应用程序无法连接到docker mongodb

我想运行一个使用express的节点应用程序并连接到(boot2docker)docker mongo容器.

当我第一次编写应用程序时,我使用的是本地安装的mongodb实例,以下配置有效:

module.exports = {
  env: 'development',
  mongo: {
    uri: 'mongodb://localhost/fullstack-dev'
  }
};
Run Code Online (Sandbox Code Playgroud)

它按预期运行.

现在我正在尝试将其交换为mongo的docker实例.

所以,我已经完成了以下步骤来让mongo运行:

$ docker pull mongo:latest
$ docker run -v "$(pwd)":/data --name mongo -d mongo mongod --smallfiles
$ docker ps

#my mongo instance is 442c2541fe1a
$ docker exec -it 442c2541fe1a bash
$ mongo
Run Code Online (Sandbox Code Playgroud)

此时,似乎在我的命令提示符下运行.

然后,我试图获得在osx上运行docker的boot2docker vm的IP:

$ boot2docker ip
# the IP returned: 192.168.59.103
Run Code Online (Sandbox Code Playgroud)

那么,我就把nodejs config中的旧mongodb路径换成了以下内容:

module.exports = {
  env: 'development',
  mongo: {
    uri: 'mongodb://192.168.59.103:27017/fullstack-dev'
  }
};
Run Code Online (Sandbox Code Playgroud)

当我运行应用程序时,我收到连接错误.

events.js:72
        throw er; // Unhandled 'error' event …
Run Code Online (Sandbox Code Playgroud)

mongodb docker

5
推荐指数
1
解决办法
1848
查看次数

那么BigQuery IF字段就存在了

我正在对特定时间范围内联合在一起的多个表运行查询.

在过去,"模式"中不存在特定的字段,但是在该时间范围的中间,该字段开始存在并开始填充数据.

有没有办法有条件地选择它,如果它存在,否则任意填充一个带有值的命名字段?

像这样:

SELECT
  (CASE WHEN exists(my_field) THEN my_field ELSE "0" END) as "my_field"
FROM <somewhere>
Run Code Online (Sandbox Code Playgroud)

sql google-bigquery

5
推荐指数
1
解决办法
4515
查看次数

RDD.checkpoint()不在检查点目录中存储任何数据

我用sc.setCheckpointDir方法设置了checkpoint目录.

/checkpointDirectory/
Run Code Online (Sandbox Code Playgroud)

然后我创建了一个rdd的检查点:rdd.checkpoint()在目录中,我现在看到一个代表新检查点的新目录,以随机字符串的形式出现.在那个目录里面什么都没有.

/checkpointDirectory/37d2812a-bca2-4fc5-b5d4-221ae03a6d25/  [empty]
Run Code Online (Sandbox Code Playgroud)

然后在做了几次转换之后,我rdd.checkpoint()再次运行,并且在最近创建的目录中仍然没有任何内容

/checkpointDirectory/37d2812a-bca2-4fc5-b5d4-221ae03a6d25/  [empty]
Run Code Online (Sandbox Code Playgroud)

我用checkpoint()错了吗?我应该在该目录中看到什么才能知道它的正常工作?

apache-spark pyspark

5
推荐指数
1
解决办法
1095
查看次数