在自动加载文件时,Symfony 2.0 Autoloader期望它可以处理的库遵循PSR0或PEAR标准.如果你有一个不遵循这两个标准中的任何一个的旧库(在我的例子中,类文件被命名为name.class.php),你将如何处理这些库的自动加载?
在Symfony 2.1这个很容易为作曲家的支持classmaps,可以加载这个类型库,但你怎么会在做到这一点Symfony 2.0.x?
使用下面的regex值不匹配charIntIntIntIntIntInt::
val regex = "([a-zA-Z]\\d\\d\\d\\d\\d\\d)"
//> regex : String = ([a-zA-Z]\d\d\d\d\d\d)
val f = List("b111111").filter(fi => fi startsWith regex)
//> f : List[String] = List()
Run Code Online (Sandbox Code Playgroud)
f 是一个空列表,它应该包含 b111111
当我在https://www.regex101.com/上使用此正则表达式时,它正确匹配字符串.
我的过滤方式有问题吗?
我有一个在集群模式下运行的简单 Spark 应用程序。
val funcGSSNFilterHeader = (x: String) => {
println(!x.contains("servedMSISDN")
!x.contains("servedMSISDN")
}
val ssc = new StreamingContext(sc, Seconds(batchIntervalSeconds))
val ggsnFileLines = ssc.fileStream[LongWritable, Text, TextInputFormat]("C:\\Users\\Mbazarganigilani\\Documents\\RA\\GGSN\\Files1", filterF, false)
val ggsnArrays = ggsnFileLines
.map(x => x._2.toString()).filter(x => funcGSSNFilterHeader(x))
ggsnArrays.foreachRDD(s => {println(x.toString()})
Run Code Online (Sandbox Code Playgroud)
我需要在 map 函数中打印 !x.contains("servedMSISDN") 以进行调试,但这不会在控制台上打印
我是新来的火花(使用pyspark).我尝试从这里运行决策树教程(链接).我执行代码:
from pyspark.ml import Pipeline
from pyspark.ml.classification import DecisionTreeClassifier
from pyspark.ml.feature import StringIndexer, VectorIndexer
from pyspark.ml.evaluation import MulticlassClassificationEvaluator
from pyspark.mllib.util import MLUtils
# Load and parse the data file, converting it to a DataFrame.
data = MLUtils.loadLibSVMFile(sc, "data/mllib/sample_libsvm_data.txt").toDF()
labelIndexer = StringIndexer(inputCol="label", outputCol="indexedLabel").fit(data)
# Now this line fails
featureIndexer =\
VectorIndexer(inputCol="features", outputCol="indexedFeatures", maxCategories=4).fit(data)
Run Code Online (Sandbox Code Playgroud)
我收到错误消息:IllegalArgumentException:u'requirement failed:列功能必须是org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7类型,但实际上是org.apache.spark.mllib.linalg.VectorUDT@f71b0bce.
当谷歌搜索这个错误时,我找到了一个答案:
use from pyspark.ml.linalg import Vectors, VectorUDT
instead of
from pyspark.mllib.linalg import Vectors, VectorUDT
Run Code Online (Sandbox Code Playgroud)
这很奇怪,因为我还没有用过它.此外,将此导入添加到我的代码解决了什么,我仍然得到相同的错误.
我不太清楚如何调试这种情况.在查看原始数据时,我看到:
data.show()
+--------------------+-----+
| features|label|
+--------------------+-----+
|(692,[127,128,129...| …Run Code Online (Sandbox Code Playgroud) decision-tree dataframe apache-spark apache-spark-sql pyspark
关于Spark数据集,什么是强类型API和无类型API?
数据集如何与数据帧相似/不同?
我正在从Linux服务器将目录同步到AWS S3以进行备份.
rsync -a --exclude 'cache' /path/live /path/backup
aws s3 sync path/backup s3://myBucket/backup --delete
Run Code Online (Sandbox Code Playgroud)
但是,我注意到当我想恢复这样的备份时:
aws s3 sync s3://myBucket/backup path/live/ --delete
Run Code Online (Sandbox Code Playgroud)
所有者和文件权限不同.我可以在代码中做些什么或改变什么来保留文件的原始Linux信息?
谢谢!
linux synchronization amazon-s3 amazon-web-services amazon-policy
我正在运行 PySpark shell,但无法创建数据框。我已经搞定了
import pyspark
from pyspark.sql.types import StructField
from pyspark.sql.types import StructType
Run Code Online (Sandbox Code Playgroud)
全部没有返回任何错误。
然后我尝试运行这些命令:
schemaString = "name age"
fields = [StructField(field_name, StringType(), True) for field_name in schemaString.split()]
Run Code Online (Sandbox Code Playgroud)
并不断收到错误:` name 'StructField' 未定义
基本上,我在这里关注 Spark 文档:https://spark.apache.org/docs/1.3.0/sql-programming-guide.html
奇怪的是,如果我删除for循环并执行此操作,它会起作用:
fields = [StructField('field1', StringType(), True)]
Run Code Online (Sandbox Code Playgroud) 我使用在纱线上产生火花的模型,遇到问题时,火花将自动重新启动。
无论成功或失败,我都想准确运行一次。
是否可以设置任何conf或api?
我正在使用Spark 1.5版。
我有一个RDD,则RDD' partition结果变为200,当我使用window,我不能改变partition,当我使用window?
这是我的代码:
val rdd= sc.parallelize(List(1,3,2,4,5,6,7,8),4)
val result = rdd.toDF("values").withColumn("csum", sum(col("values")).over(Window.partitionBy(col("values")))).rdd
println(result.getNumPartitions + "rdd2")
Run Code Online (Sandbox Code Playgroud)
我的输入分区是4,为什么结果分区是200?
我希望我的结果分区也是 4。
有没有更清洁的解决方案?
是否可以使用select语句在spark上创建表?
我做以下
import findspark
findspark.init()
import pyspark
from pyspark.sql import SQLContext
sc = pyspark.SparkContext()
sqlCtx = SQLContext(sc)
spark_df = sqlCtx.read.format('com.databricks.spark.csv').options(header='true', inferschema='true').load("./data/documents_topics.csv")
spark_df.registerTempTable("my_table")
sqlCtx.sql("CREATE TABLE my_table_2 AS SELECT * from my_table")
Run Code Online (Sandbox Code Playgroud)
但我得到了错误
/ Users / user / anaconda / bin / python /Users/user/workspace/Outbrain-Click-Prediction/test.py使用Spark的默认log4j配置文件:org / apache / spark / log4j-defaults.properties将默认日志级别设置为“ WARN” ”。要调整日志记录级别,请使用sc.setLogLevel(newLevel)。17/01/21 17:19:43 WARN NativeCodeLoader:无法在适用的平台上使用内置的Java类为您的平台加载本机Hadoop库。Traceback(最近一次调用为最新):File“ / Users / user / spark- 2.0.2-bin-hadoop2.7 / python / pyspark / sql / utils.py“,第63行,在装饰返回f(* a,** kw)文件“ /Users/user/spark-2.0.2-bin”中-hadoop2.7 / python / lib / py4j-0.10.3-src.zip / py4j / …
apache-spark ×7
pyspark ×3
scala ×3
python ×2
amazon-s3 ×1
autoload ×1
dataframe ×1
dataset ×1
hadoop-yarn ×1
linux ×1
php ×1
psr-0 ×1
pyspark-sql ×1
regex ×1
symfony ×1