在使用scikit(python)解决机器学习问题的同时,我需要对scipy.sparse矩阵进行缩放,然后再使用SVM进行训练,以实现更高的准确性。但其明确提到这里,即:
只有在with_mean = False显式传递给构造函数时,scale和StandardScaler才接受scipy.sparse矩阵作为输入。否则将引发ValueError,因为静默居中会破坏稀疏性,并经常由于无意中分配过多的内存而使执行崩溃。
这意味着我对此不能有零均值。因此,如何缩放此稀疏矩阵,使其随单元方差也具有零均值。我还需要存储此“缩放”,以便可以在测试矩阵上使用相同的转换来缩放它。
我必须实时对 neo4j 图进行遍历。该图包含大约 200,000 个节点和 300,000 个关系。我主要关心的是结果应该超级快。
我应该用 Java 编写遍历算法吗?使用 python(py2neo 或bulbflow)是否有明显的性能问题?如果python和java的性能相同,我个人更喜欢这里的python。