我必须将中文文本分成多个句子.我试过Stanford DocumentPreProcessor.它适用于英语,但不适用于中文.
请你能告诉我任何中文优秀的句子分割器,最好用Java或Python.
我目前正在研究 ArangoDB POC。我发现使用 PyArango 在 ArangoDB 中创建文档所花费的时间非常长。插入 300 个文档大约需要 5 分钟。我已经粘贴了下面的粗略代码,请让我知道是否有更好的方法来加快速度:
with open('abc.csv') as fp:
for line in fp:
dataList = line.split(",")
aaa = dbObj['aaa'].createDocument()
bbb = dbObj['bbb'].createDocument()
ccc = dbObj['ccc'].createEdge()
bbb['bbb'] = dataList[1]
aaa['aaa'] = dataList[0]
aaa._key = dataList[0]
aaa.save()
bbb.save()
ccc.links(aaa,bbb)
ccc['related_to'] = "gfdgf"
ccc['weight'] = 0
ccc.save()
Run Code Online (Sandbox Code Playgroud)
不同的集合由以下代码创建:
dbObj.createCollection(className='aaa', waitForSync=False)
Run Code Online (Sandbox Code Playgroud) 我正在开发一个软件系统(Graph Database)来研究多个组件之间的互连.最终可能会有大约30 TB的数据.我想知道在选择正确的数据库时需要考虑的因素.
我正在寻找的一些选项是Apache Giraph,TitanDB.我也想知道像neo4j或OrientDB这样规模较小的数据库本身是否可行