小编akn*_*akn的帖子

无法在HDP 2.5.3上手动启动spark 2.1.0

我在spark 2.0.0上测试了我的火花代码,我遇到了一个错误SPARK-17463,我想使用spark 2.1.0,因为这个版本修复了bug.

但是,我无法为spark 2.1.0提供带有客户端模式的spark-shell

我需要在HDP 2.5.3集群上运行2.1.0.

它引发了一个异常:

    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:126)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
17/02/15 14:28:46 WARN Utils: Service 'SparkUI' could not bind on port 4045. Attempting port 4046.
    java.lang.NoClassDefFoundError: com/sun/jersey/api/client/config/ClientConfig
      at org.apache.hadoop.yarn.client.api.TimelineClient.createTimelineClient(TimelineClient.java:55)
      at org.apache.hadoop.yarn.client.api.impl.YarnClientImpl.createTimelineClient(YarnClientImpl.java:181)
      at org.apache.hadoop.yarn.client.api.impl.YarnClientImpl.serviceInit(YarnClientImpl.java:168)
      at org.apache.hadoop.service.AbstractService.init(AbstractService.java:163)
      at org.apache.spark.deploy.yarn.Client.submitApplication(Client.scala:151)
      at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:56)
      at org.apache.spark.scheduler.TaskSchedulerImpl.start(TaskSchedulerImpl.scala:156)
      at org.apache.spark.SparkContext.<init>(SparkContext.scala:509)
      at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2313)
      at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:868)
      at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:860)
      at scala.Option.getOrElse(Option.scala:121)
      at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:860)
      at org.apache.spark.repl.Main$.createSparkSession(Main.scala:95)
      ... 47 elided
    Caused by: java.lang.ClassNotFoundException: com.sun.jersey.api.client.config.ClientConfig
      at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
      at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
      at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:331)
      at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
      ... 61 more
<console>:14: error: not found: value …
Run Code Online (Sandbox Code Playgroud)

apache-spark

6
推荐指数
3
解决办法
5341
查看次数

pyspark正则表达式字符串匹配

我的数据框中有一个以下格式的字符串。

abc.T01.xyz
abc.def.T01.xyz
abc.def.ghi.xyz
Run Code Online (Sandbox Code Playgroud)

我需要过滤该字符串具有与该表达式匹配的值的行。

[a-zA-Z].T[0-9].[a-zA-Z]
Run Code Online (Sandbox Code Playgroud)

我使用了以下命令,但它也给了我看起来像这样的字符串:[a-zA-Z].[a-zA-Z].T[0-9].[a-zA-Z]我不希望出现在结果中。

mydf2 = mydf1.where('col1 rlike ".*\.T.*\..*"')
mydf2.show()
Run Code Online (Sandbox Code Playgroud)

我的正则表达式中缺少一些东西。

regex dataframe pyspark

3
推荐指数
1
解决办法
2万
查看次数

标签 统计

apache-spark ×1

dataframe ×1

pyspark ×1

regex ×1