我正在尝试访问在边缘节点的端口 4040 上运行的 Spark 驱动程序 UI(在客户端模式下运行),但收到以下错误。
HTTP ERROR 500
javax.servlet.ServletException: Could not determine the proxy server for redirection
at org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter.findRedirectUrl(AmIpFilter.java:195)
at org.apache.hadoop.yarn.server.webproxy.amfilter.AmIpFilter.doFilter(AmIpFilter.java:141)
at org.spark_project.jetty.servlet.ServletHandler$CachedChain.doFilter(ServletHandler.java:1652)
at org.spark_project.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:585)
at org.spark_project.jetty.server.handler.ContextHandler.doHandle(ContextHandler.java:1127)
at org.spark_project.jetty.servlet.ServletHandler.doScope(ServletHandler.java:515)
at org.spark_project.jetty.server.handler.ContextHandler.doScope(ContextHandler.java:1061)
at org.spark_project.jetty.server.handler.ScopedHandler.handle(ScopedHandler.java:141)
at org.spark_project.jetty.servlets.gzip.GzipHandler.handle(GzipHandler.java:479)
at org.spark_project.jetty.server.handler.ContextHandlerCollection.handle(ContextHandlerCollection.java:215)
at org.spark_project.jetty.server.handler.HandlerWrapper.handle(HandlerWrapper.java:97)
at org.spark_project.jetty.server.Server.handle(Server.java:499)
at org.spark_project.jetty.server.HttpChannel.handle(HttpChannel.java:311)
at org.spark_project.jetty.server.HttpConnection.onFillable(HttpConnection.java:257)
at org.spark_project.jetty.io.AbstractConnection$2.run(AbstractConnection.java:544)
at org.spark_project.jetty.util.thread.QueuedThreadPool.runJob(QueuedThreadPool.java:635)
at org.spark_project.jetty.util.thread.QueuedThreadPool$3.run(QueuedThreadPool.java:555)
at java.lang.Thread.run(Thread.java:745)
Run Code Online (Sandbox Code Playgroud)
为了到达边缘节点,我需要首先通过 VPN 进入本地网络。(例如,要访问边缘节点 CLI,我必须先使用 VPN,然后通过 SSH 连接到边缘节点)。我尝试过转发端口并以这种方式访问它,但没有成功。有人遇到过类似的访问错误吗?我应该指出,我知道边缘的内部和外部 IP。
附加信息:Spark 版本是 2.1.0。运行在Cloudera集群上,所以必须使用spark2-submit:
spark2-submit --master yarn --jars /home/hail-all-spark.jar --py-files /home/pyhail.zip --conf spark.driver.extraClassPath=./hail-all-spark.jar --conf=spark.executor.extraClassPath=./hail-all-spark.jar /home/hail_work/impala/vcf_to_impala_vds.py
Run Code Online (Sandbox Code Playgroud)
详细输出:
Using properties file: …Run Code Online (Sandbox Code Playgroud) 试图删除Spark数据帧列包含空字符串的行.最初做了val df2 = df1.na.drop()但事实证明,许多这些值都被编码为"".
我坚持使用Spark 1.3.1并且也不能依赖DSL.(导入spark.implicit_不起作用.)
我有一个MLLIB分布式行矩阵,其中行顺序无关紧要.有没有办法轻松将其转换为微风密集矩阵?我想象一个逐行映射可能会起作用,但我对整个微风相对不熟悉.
编辑:使用X.rows.map(x => x.toArray),我设法将其转换为org.apache.spark.rdd.RDD [Array [Double]]形式的RDD.我相信这是朝着正确方向迈出的一步......