小编pje*_*has的帖子

将中文文档拆分成句子

我必须将中文文本分成多个句子.我试过Stanford DocumentPreProcessor.它适用于英语,但不适用于中文.

请你能告诉我任何中文优秀的句子分割器,最好用Java或Python.

nlp tokenize stanford-nlp sentence

5
推荐指数
2
解决办法
2453
查看次数

将批量数据导入 ArangoDB 的最佳方法

我目前正在研究 ArangoDB POC。我发现使用 PyArango 在 ArangoDB 中创建文档所花费的时间非常长。插入 300 个文档大约需要 5 分钟。我已经粘贴了下面的粗略代码,请让我知道是否有更好的方法来加快速度:

with open('abc.csv') as fp:
for line in fp:
    dataList = line.split(",")

    aaa = dbObj['aaa'].createDocument()
    bbb = dbObj['bbb'].createDocument() 
    ccc = dbObj['ccc'].createEdge()

    bbb['bbb'] = dataList[1]
    aaa['aaa'] = dataList[0]
    aaa._key = dataList[0]

    aaa.save()
    bbb.save()

    ccc.links(aaa,bbb)
    ccc['related_to'] = "gfdgf"
    ccc['weight'] = 0

    ccc.save()
Run Code Online (Sandbox Code Playgroud)

不同的集合由以下代码创建:

 dbObj.createCollection(className='aaa', waitForSync=False)
Run Code Online (Sandbox Code Playgroud)

graph arangodb pyarango

5
推荐指数
1
解决办法
1945
查看次数

在为大约30 TB数据选择Graph DB时要考虑哪些因素

我正在开发一个软件系统(Graph Database)来研究多个组件之间的互连.最终可能会有大约30 TB的数据.我想知道在选择正确的数据库时需要考虑的因素.

我正在寻找的一些选项是Apache Giraph,TitanDB.我也想知道像neo4j或OrientDB这样规模较小的数据库本身是否可行

graph neo4j titan giraph

0
推荐指数
1
解决办法
263
查看次数

标签 统计

graph ×2

arangodb ×1

giraph ×1

neo4j ×1

nlp ×1

pyarango ×1

sentence ×1

stanford-nlp ×1

titan ×1

tokenize ×1