在tensroflow中阅读scikit-learn的实现:http://learningtensorflow.com/lesson6/ 和scikit-learn:http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html 我是努力决定使用哪种实现.
scikit-learn作为tensorflow docker容器的一部分安装,因此可以使用任一实现.
使用scikit-learn的原因:
scikit-learn包含比tensorflow实现更少的锅炉板.
使用tensorflow的原因:
如果在Nvidia GPU上运行算法wilk并行运行,我不确定scikit-learn是否会利用所有可用的GPU?
阅读https://www.quora.com/What-are-the-main-differences-between-TensorFlow-and-SciKit-Learn
TensorFlow更低级别; 基本上,乐高积木可以帮助您实现机器学习算法,而scikit-learn为您提供现成的算法,例如,分类算法,如SVM,随机森林,Logistic回归等等.如果你想实现深度学习算法,TensorFlow真的很棒,因为它可以让你利用GPU进行更有效的训练.
这个陈述重新强化了我的断言"scikit-learn包含的锅炉板比tensorflow实现更少",但也暗示scikit-learn不会利用所有可用的GPU?
读取Spark方法sortByKey:
sortByKey([ascending], [numTasks]) When called on a dataset of (K, V) pairs where K implements Ordered, returns a dataset of (K, V) pairs sorted by keys in ascending or descending order, as specified in the boolean ascending argument.
Run Code Online (Sandbox Code Playgroud)
是否可以返回"N"个数量的结果.因此,不要返回所有结果,只返回前10位.我可以将已排序的集合转换为数组并使用take方法,但由于这是一个O(N)操作,是否有更有效的方法?
我在我的工作区为项目创建了几个java工作集,并希望与其他人共享(使用不同的工作区).有没有办法出口它们?
是否应该在Eclipse中重命名项目还重命名文件系统上的项目文件夹?
即使我在Eclipse上重命名文件,我的项目文件系统名称仍然保持不变.
我应该在Eclipse上手动将文件系统上的项目重命名为相同吗?
当我尝试运行"mvn generate-sources"时,这是我的输出:
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
[INFO] Scanning for projects...
[INFO]
[INFO] ------------------------------------------------------------------------
[INFO] Building gensourcesfromwsdl 0.0.1-SNAPSHOT
[INFO] ------------------------------------------------------------------------
[INFO] ------------------------------------------------------------------------
[INFO] BUILD SUCCESS
[INFO] ------------------------------------------------------------------------
[INFO] Total time: 0.104s
[INFO] Finished at: Tue Aug 20 15:41:10 BST 2013
[INFO] Final Memory: 2M/15M
[INFO] ------------------------------------------------------------------------
Run Code Online (Sandbox Code Playgroud)
我没有收到任何错误,但没有从wsdl文件生成的java类.
这是我正在运行插件的pom.xml文件:
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>gensourcesfromwsdl</groupId>
<artifactId>gensourcesfromwsdl</artifactId>
<version>0.0.1-SNAPSHOT</version>
<build>
<pluginManagement>
<plugins>
<plugin>
<groupId>org.codehaus.mojo</groupId>
<artifactId>jaxws-maven-plugin</artifactId>
<version>1.12</version>
<executions>
<execution> …Run Code Online (Sandbox Code Playgroud) 当我尝试使用oracle依赖 -
<dependency>
<groupId>com.oracle</groupId>
<artifactId>ojdbc14</artifactId>
<version>10.2.0.4.0</version>
</dependency>
Run Code Online (Sandbox Code Playgroud)
我收到编译时生成错误 - "Missing artifact com.oracle:ojdbc14:jar:10.2.0.4.0".将鼠标悬停在附加图像中的错误标记(左侧)时显示此错误 -

这种依赖性是否存在问题或者我做错了什么?
List<String> listStr = new ArrayList<String>();
if(listStr.size == 0){
}
Run Code Online (Sandbox Code Playgroud)
与
if(listStr.isEmpty()){
}
Run Code Online (Sandbox Code Playgroud)
在我看来,使用的一个好处listStr.isEmpty()是它不检查列表的大小,然后将其与零进行比较,它只是检查列表是否为空.是否还有其他优点,我经常看到if(listStr.size == 0)而不是if(listStr.isEmpty())代码库?有没有理由以这种方式检查我不知道?
这是我用来从Java调用Scala方法的简单测试:
public static void main(String args[]) {
java.util.Map<String, java.util.List<String>> rec = news.recommend.DriverObj.runTest();
System.out.println(rec.toString());
}
Run Code Online (Sandbox Code Playgroud)
以下是Scala方法的定义:
def runTest: java.util.Map[String, java.util.List[String]] = {
new java.util.HashMap[String, java.util.List[String]]
}
Run Code Online (Sandbox Code Playgroud)
但它抛出一个错误:
Exception in thread "main" java.lang.NoClassDefFoundError: scala/Function1
at news.recommend.DriverObj.runTest(DriverObj.scala)
Run Code Online (Sandbox Code Playgroud)
我该怎么做才能让它顺利运行?
更新:我通过Eclipse运行它,我的构建路径包含:

那么应该找到Scala库?
我在本地网络局域网上安装了jupyter但我无法http://<IP>:8888从局域网上的另一台macine 访问.我用iptables打开了端口8888和端口范围49152到65535(此范围在http://jupyter-notebook.readthedocs.io/en/latest/public_server.html中指定)
本指南http://jupyter-notebook.readthedocs.io/en/latest/public_server.html描述了公开公开笔记本,但我只想尝试通过LAN共享.
我错过了一步吗?
试图从源代码运行http://spark.apache.org/docs/latest/quick-start.html#a-standalone-app-in-scala.
这一行:
val wordCounts = textFile.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
Run Code Online (Sandbox Code Playgroud)
投掷错误
value reduceByKey is not a member of org.apache.spark.rdd.RDD[(String, Int)]
val wordCounts = logData.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey((a, b) => a + b)
Run Code Online (Sandbox Code Playgroud)
logData.flatMap(line => line.split(" ")).map(word => (word, 1))返回MappedRDD,但我在http://spark.apache.org/docs/0.9.1/api/core/index.html#org.apache.spark.rdd.RDD中找不到此类型
我从Spark源代码运行此代码,因此可能是类路径问题?但是必需的依赖项在我的类路径上.
maven ×3
scala ×3
apache-spark ×2
eclipse ×2
java ×2
python ×2
rdd ×2
jupyter ×1
k-means ×1
linux ×1
m2eclipse ×1
maven-3 ×1
python-3.x ×1
scala-ide ×1
scikit-learn ×1
tensorflow ×1
ubuntu-14.04 ×1
wsimport ×1