小编Yar*_*ron的帖子

在Symfony 2.0.x中自动加载非PSR0库

在自动加载文件时,Symfony 2.0 Autoloader期望它可以处理的库遵循PSR0PEAR标准.如果你有一个不遵循这两个标准中的任何一个的旧库(在我的例子中,类文件被命名为name.class.php),你将如何处理这些库的自动加载?

Symfony 2.1这个很容易为作曲家的支持classmaps,可以加载这个类型库,但你怎么会在做到这一点Symfony 2.0.x

php autoload symfony psr-0

4
推荐指数
1
解决办法
1457
查看次数

在Scala中使用带有过滤器的正则表达式

使用下面的regex值不匹配charIntIntIntIntIntInt::

val regex = "([a-zA-Z]\\d\\d\\d\\d\\d\\d)"
       //> regex  : String = ([a-zA-Z]\d\d\d\d\d\d)
val f = List("b111111").filter(fi => fi startsWith regex)
       //> f  : List[String] = List()
Run Code Online (Sandbox Code Playgroud)

f 是一个空列表,它应该包含 b111111

当我在https://www.regex101.com/上使用此正则表达式时,它正确匹配字符串.

我的过滤方式有问题吗?

regex scala

4
推荐指数
2
解决办法
6590
查看次数

Spark 不会在 map 函数内的控制台上打印输出

我有一个在集群模式下运行的简单 Spark 应用程序。

val funcGSSNFilterHeader = (x: String) => {
    println(!x.contains("servedMSISDN")   
    !x.contains("servedMSISDN")
}

val ssc = new StreamingContext(sc, Seconds(batchIntervalSeconds))
val ggsnFileLines = ssc.fileStream[LongWritable, Text, TextInputFormat]("C:\\Users\\Mbazarganigilani\\Documents\\RA\\GGSN\\Files1", filterF, false)
val ggsnArrays = ggsnFileLines
    .map(x => x._2.toString()).filter(x => funcGSSNFilterHeader(x))

ggsnArrays.foreachRDD(s => {println(x.toString()})
Run Code Online (Sandbox Code Playgroud)

我需要在 map 函数中打印 !x.contains("servedMSISDN") 以进行调试,但这不会在控制台上打印

scala apache-spark spark-streaming

4
推荐指数
1
解决办法
6881
查看次数

Pyspark,决策树(Spark 2.0.0)

我是新来的火花(使用pyspark).我尝试从这里运行决策树教程(链接).我执行代码:

from pyspark.ml import Pipeline
from pyspark.ml.classification import DecisionTreeClassifier
from pyspark.ml.feature import StringIndexer, VectorIndexer
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.mllib.util import MLUtils

# Load and parse the data file, converting it to a DataFrame.
data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt").toDF()
labelIndexer = StringIndexer(inputCol="label", outputCol="indexedLabel").fit(data)

# Now this line fails
featureIndexer =\
    VectorIndexer(inputCol="features", outputCol="indexedFeatures", maxCategories=4).fit(data)
Run Code Online (Sandbox Code Playgroud)

我收到错误消息:IllegalArgumentException:u'requirement failed:列功能必须是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7类型,但实际上是org.apache.spark.mllib.linalg.VectorUDT@f71b0bce.

当谷歌搜索这个错误时,我找到了一个答案:

use from pyspark.ml.linalg import Vectors, VectorUDT 
instead of 
from pyspark.mllib.linalg import Vectors, VectorUDT
Run Code Online (Sandbox Code Playgroud)

这很奇怪,因为我还没有用过它.此外,将此导入添加到我的代码解决了什么,我仍然得到相同的错误.

我不太清楚如何调试这种情况.在查看原始数据时,我看到:

data.show()
+--------------------+-----+
|            features|label|
+--------------------+-----+
|(692,[127,128,129...| …
Run Code Online (Sandbox Code Playgroud)

decision-tree dataframe apache-spark apache-spark-sql pyspark

4
推荐指数
1
解决办法
1519
查看次数

Spark数据集-强大的输入

关于Spark数据集,什么是强类型API和无类型API?

数据集如何与数据帧相似/不同?

dataset apache-spark apache-spark-dataset

4
推荐指数
1
解决办法
1777
查看次数

从Linux同步到AWS S3 Bucket时保留所有者和文件权限信息

我正在从Linux服务器将目录同步到AWS S3以进行备份.

rsync -a --exclude 'cache' /path/live /path/backup
aws s3 sync  path/backup s3://myBucket/backup --delete
Run Code Online (Sandbox Code Playgroud)

但是,我注意到当我想恢复这样的备份时:

aws s3 sync s3://myBucket/backup path/live/ --delete
Run Code Online (Sandbox Code Playgroud)

所有者和文件权限不同.我可以在代码中做些什么或改变什么来保留文件的原始Linux信息?

谢谢!

linux synchronization amazon-s3 amazon-web-services amazon-policy

4
推荐指数
1
解决办法
3797
查看次数

无法将 StructField 与 PySpark 一起使用

我正在运行 PySpark shell,但无法创建数据框。我已经搞定了

import pyspark
from pyspark.sql.types import StructField
from pyspark.sql.types import StructType
Run Code Online (Sandbox Code Playgroud)

全部没有返回任何错误。

然后我尝试运行这些命令:

schemaString = "name age"
fields = [StructField(field_name, StringType(), True) for field_name in schemaString.split()]
Run Code Online (Sandbox Code Playgroud)

并不断收到错误:` name 'StructField' 未定义

基本上,我在这里关注 Spark 文档:https://spark.apache.org/docs/1.3.0/sql-programming-guide.html

奇怪的是,如果我删除for循环并执行此操作,它会起作用:

fields = [StructField('field1', StringType(), True)]
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

4
推荐指数
1
解决办法
3万
查看次数

错误时纱线上的火花运行两次

我使用在纱线上产生火花的模型,遇到问题时,火花将自动重新启动。

无论成功或失败,我都想准确运行一次。

是否可以设置任何conf或api?

我正在使用Spark 1.5版。

hadoop-yarn apache-spark

4
推荐指数
1
解决办法
1133
查看次数

当我在 spark/scala 中使用 window.partitionBy() 函数时,如何保持分区编号不变?

我有一个RDD,则RDD' partition结果变为200,当我使用window,我不能改变partition,当我使用window

这是我的代码:

val rdd= sc.parallelize(List(1,3,2,4,5,6,7,8),4)
val result = rdd.toDF("values").withColumn("csum", sum(col("values")).over(Window.partitionBy(col("values")))).rdd
println(result.getNumPartitions + "rdd2")
Run Code Online (Sandbox Code Playgroud)

我的输入分区是4,为什么结果分区是200?

我希望我的结果分区也是 4。

有没有更清洁的解决方案?

scala apache-spark apache-spark-sql

4
推荐指数
1
解决办法
1139
查看次数

如何在pyspark.sql中选择创建表

是否可以使用select语句在spark上创建表?

我做以下

import findspark
findspark.init()
import pyspark
from pyspark.sql import SQLContext

sc = pyspark.SparkContext()
sqlCtx = SQLContext(sc)

spark_df = sqlCtx.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load("./data/documents_topics.csv")
spark_df.registerTempTable("my_table")

sqlCtx.sql("CREATE TABLE my_table_2 AS SELECT * from my_table")
Run Code Online (Sandbox Code Playgroud)

但我得到了错误

/ Users / user / anaconda / bin / python /Users/user/workspace/Outbrain-Click-Prediction/test.py使用Spark的默认log4j配置文件:org / apache / spark / log4j-defaults.properties将默认日志级别设置为“ WARN” ”。要调整日志记录级别,请使用sc.setLogLevel(newLevel)。17/01/21 17:19:43 WARN NativeCodeLoader:无法在适用的平台上使用内置的Java类为您的平台加载本机Hadoop库。Traceback(最近一次调用为最新):File“ / Users / user / spark- 2.0.2-bin-hadoop2.7 / python / pyspark / sql / utils.py“,第63行,在装饰返回f(* a,** kw)文件“ /Users/user/spark-2.0.2-bin”中-hadoop2.7 / python / lib / py4j-0.10.3-src.zip / py4j / …

python apache-spark pyspark pyspark-sql

3
推荐指数
1
解决办法
1万
查看次数