我想创建一个可以在我的插件中使用的自定义实时模板.我知道如何使用"设置"对话框创建自定义实时模板,但我希望能够将实时模板作为插件的一部分进行分发:
谢谢.
我有一个用 Java 编码的 apache spark sql 作业(使用数据集),它从 70,000 到 150,000 个文件中输入。
构建 InMemoryFileIndex 似乎需要 45 分钟到 1.5 小时不等。
在此期间没有日志,网络使用率非常低,并且几乎没有 CPU 使用率。
这是我在 std 输出中看到的示例:
24698 [main] INFO org.spark_project.jetty.server.handler.ContextHandler  - Started o.s.j.s.ServletContextHandler@32ec9c90{/static/sql,null,AVAILABLE,@Spark}
25467 [main] INFO org.apache.spark.sql.execution.streaming.state.StateStoreCoordinatorRef  - Registered StateStoreCoordinator endpoint
2922000 [main] INFO org.apache.spark.sql.execution.datasources.InMemoryFileIndex  - Listing leaf files and directories in parallel under: <a LOT of file url's...>
2922435 [main] INFO org.apache.spark.SparkContext  - Starting job: textFile at SomeClass.java:103
Run Code Online (Sandbox Code Playgroud)
在这种情况下,有 45 分钟基本上没有发生任何事情(据我所知)。
我使用以下方法加载文件:
sparkSession.read().textFile(pathsArray)
Run Code Online (Sandbox Code Playgroud)
有人可以解释 InMemoryFileIndex 中发生了什么,以及如何使这一步更快?