小编Ant*_*ton的帖子

如何从DBPedia获得所有公司?

我是新来的查询DBPedia.如何从http://dbpedia.org/sparql获取所有公司?

此查询仅返回50'000个组织:

SELECT DISTINCT * WHERE {?company a dbpedia-owl:Company}
Run Code Online (Sandbox Code Playgroud)

sparql dbpedia

16
推荐指数
1
解决办法
5066
查看次数

如何在Apache Spark上进行非随机数据集拆分?

我知道我可以用randomSplit方法随机拆分:

val splittedData: Array[Dataset[Row]] = 
        preparedData.randomSplit(Array(0.5, 0.3, 0.2))
Run Code Online (Sandbox Code Playgroud)

我可以使用一些'nonRandomSplit方法'将数据拆分成连续的部分吗?

Apache Spark 2.0.1.提前致谢.

UPD:数据顺序很重要,我将使用"较小ID"训练我的模型数据并使用"较大ID"对数据进行测试.所以我想将数据拆分成连续的部分而不需要改组.

例如

my dataset = (0,1,2,3,4,5,6,7,8,9)
desired splitting = (0.8, 0.2)
splitting = (0,1,2,3,4,5,6,7), (8,9)
Run Code Online (Sandbox Code Playgroud)

我能想到的唯一解决方案是使用计数限制,但可能有更好的解决方案.

apache-spark apache-spark-sql apache-spark-dataset apache-spark-2.0

6
推荐指数
1
解决办法
1194
查看次数