小编Aak*_*asu的帖子

Spark 2.3执行程序内存泄漏

我得到了内存泄漏警告,理想情况下是一个Spark bug,直到1.6版本并得到解决.

模式:独立IDE:PyCharm Spark版本:2.3 Python版本:3.6

下面是堆栈跟踪 -

2018-05-25 15:00:05 WARN  Executor:66 - Managed memory leak detected; size = 262144 bytes, TID = 3148
2018-05-25 15:00:05 WARN  Executor:66 - Managed memory leak detected; size = 262144 bytes, TID = 3152
2018-05-25 15:00:05 WARN  Executor:66 - Managed memory leak detected; size = 262144 bytes, TID = 3151
2018-05-25 15:00:05 WARN  Executor:66 - Managed memory leak detected; size = 262144 bytes, TID = 3150
2018-05-25 15:00:05 WARN  Executor:66 - Managed memory leak detected; …

Run Code Online (Sandbox Code Playgroud)

python memory-leaks python-3.x apache-spark pyspark

Aak*_*asu

2019 04-29

10
推荐指数

1
解决办法

1200
查看次数

如何对 pandas 数据框运行多重共线性测试？

我对 Python、统计和使用 DS 库比较陌生，我的要求是对具有 n 列的数据集运行多重共线性测试，并确保 VIF > 5 的列/变量被完全删除。

我找到了一个代码，

 from statsmodels.stats.outliers_influence import variance_inflation_factor

    def calculate_vif_(X, thresh=5.0):

        variables = range(X.shape[1])
        tmp = range(X[variables].shape[1])
        print(tmp)
        dropped=True
        while dropped:
            dropped=False
            vif = [variance_inflation_factor(X[variables].values, ix) for ix in range(X[variables].shape[1])]

            maxloc = vif.index(max(vif))
            if max(vif) > thresh:
                print('dropping \'' + X[variables].columns[maxloc] + '\' at index: ' + str(maxloc))
                del variables[maxloc]
                dropped=True

        print('Remaining variables:')
        print(X.columns[variables])
        return X[variables]

Run Code Online (Sandbox Code Playgroud)

但是，我不清楚，我应该将数据集完全传递到 X 参数的位置吗？如果是，则不起作用。

请帮忙！

pandas statsmodels python-3.6

Aak*_*asu

lucky-day

6
推荐指数

2
解决办法

2万
查看次数

Spark 2.3 AsyncEventQueue 错误和警告

我正在运行内存密集型代码，其中创建了一个管道，其中包括：

使用 Shimazaki 和 Shinomoto 的 Bin Width 算法找到最佳的 bin 值数量。
通过使用上面找到的相应 bin 值对同一列进行分桶来创建新列。
通过 8 个顺序 SQL 查询计算证据权重。

配置：Python - 3.6

火花 - 2.3

环境 - 独立机器（16 GB RAM 和 500 GB HDD，配备 i7 处理器）

IDE-Pycharm

我的疑问是，它正在按预期工作，但即使作业已成功完成，也会出现以下错误和警告。

关于为什么我收到以下内容有任何线索吗？在 Spark 提交时，我需要做任何调整才能使用最佳可用内存吗？

仅供参考 - 目前我只是使用 Pycharm Run 按钮运行而不是 Spark Submit，尽管在内部它的作用是相同的。

2018-05-25 18:13:06 ERROR AsyncEventQueue:70 - Dropping event from queue appStatus. This likely means one of the listeners is too slow and cannot keep up with the rate at which tasks are …

Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark python-3.6

Aak*_*asu

2018 05-27

6
推荐指数

0
解决办法

3728
查看次数

Apache Spark Codegen Stage增长超过64 KB

当我在30多个列上进行特征工程以创建大约200多个列时遇到错误。它不会使作业失败，但是会显示错误。我想知道如何避免这种情况。

Spark-2.3.1 Python-3.6

群集配置-1个主设备-32 GB RAM，16核4个从设备-16 GB RAM，8核

输入数据-镶木地板文件的8个分区，压缩迅速。

我的Spark提交->

spark-submit --master spark://192.168.60.20:7077 --num-executors 4 --executor-cores 5 --executor-memory 10G --driver-cores 5 --driver-memory 25G --conf spark.sql.shuffle.partitions=60 --conf spark.driver.maxResultSize=2G --conf "spark.executor.extraJavaOptions=-XX:+UseParallelGC" --conf spark.scheduler.listenerbus.eventqueue.capacity=20000 --conf spark.sql.codegen=true /appdata/bblite-codebase/pipeline_data_test_run.py > /appdata/bblite-data/logs/log_10_iter_pipeline_8_partitions_33_col.txt

Run Code Online (Sandbox Code Playgroud)

下面的堆栈跟踪-

ERROR CodeGenerator:91 - failed to compile: org.codehaus.janino.InternalCompilerException: Compiling "GeneratedClass": Code of method "processNext()V" of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage3426" grows beyond 64 KB
org.codehaus.janino.InternalCompilerException: Compiling "GeneratedClass": Code of method "processNext()V" of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage3426" grows beyond 64 KB
    at org.codehaus.janino.UnitCompiler.compileUnit(UnitCompiler.java:361)
    at org.codehaus.janino.SimpleCompiler.cook(SimpleCompiler.java:234)
    at org.codehaus.janino.SimpleCompiler.compileToClassLoader(SimpleCompiler.java:446)
    at org.codehaus.janino.ClassBodyEvaluator.compileToClass(ClassBodyEvaluator.java:313)
    at …

Run Code Online (Sandbox Code Playgroud)

codegen apache-spark janino pyspark

Aak*_*asu

lucky-day

6
推荐指数

2
解决办法

4119
查看次数

如何使用 Python 从 PDF 文件中提取图表/表格/图形？

搜索了很多，但由于我找不到此类问题的解决方案，因此在同一个问题上发布了一个明确的问题。大多数答案涵盖了相对容易的图像/文本提取。

我需要分别从 PDF 中提取表格和图形作为文本 (csv) 和图像。

任何人都可以用有效的python 3.6代码来帮助我解决这个问题吗？

到目前为止，我可以使用 startmark = b"\xff\xd8" 和 endmark = b"\xff\xd9" 实现提取 jpg，但并非 PDF 中的所有表格和图形都是普通的 jpg，因此我的代码无法实现这一目标。

例如，我想从第 11 页中提取表格，从第 12 页中提取图形作为图像或从下面给出的链接中可行的内容。怎么办？

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf

python pdf ocr extract python-3.6

Aak*_*asu

lucky-day

6
推荐指数

1
解决办法

4290
查看次数

Spark 升级时出现问题：找不到密钥：_PYSPARK_DRIVER_CONN_INFO_PATH

Spark由于修复了以下问题，下载了最新版本

错误 AsyncEventQueue:70 - 从队列 appStatus 中删除事件。

设置环境变量并在中运行相同的代码后PyCharm，我收到此错误，我找不到解决方案。

Exception in thread "main" java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CONN_INFO_PATH
    at scala.collection.MapLike$class.default(MapLike.scala:228)
    at scala.collection.AbstractMap.default(Map.scala:59)
    at scala.collection.MapLike$class.apply(MapLike.scala:141)
    at scala.collection.AbstractMap.apply(Map.scala:59)
    at org.apache.spark.api.python.PythonGatewayServer$.main(PythonGatewayServer.scala:64)
    at org.apache.spark.api.python.PythonGatewayServer.main(PythonGatewayServer.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:894)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:198)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:228)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:137)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

Run Code Online (Sandbox Code Playgroud)

有什么帮助吗？

apache-spark pyspark

Aak*_*asu

2020 11-12

5
推荐指数

1
解决办法

5704
查看次数

如何使用Spark Streaming Dataframe进行PCA

只是想知道，我们如何才能在分布式模式下对流数据进行主成分分析？如果可以的话，它在数学上是否足够有效？

有人做过吗？你们可以分享您的经验吗？Spark提供的API是否可以在Spark Streaming模式下执行相同的操作？

pca spark-streaming pyspark apache-spark-ml

Aak*_*asu

lucky-day

5
推荐指数

0
解决办法

79
查看次数

如何从 JPEG 裁剪多个矩形或正方形？

我有一个 jpeg，我想从中裁剪包含图形的部分（底部的那个）。

截至目前，我使用此代码来实现相同的目的：

from PIL import Image

img = Image.open(r'D:\aakash\graph2.jpg')
area = (20, 320, 1040, 590)
img2 = img.crop(area)
# img.show()
img2.show()

Run Code Online (Sandbox Code Playgroud)

但是我通过多次猜测 x1, y1, x2, y2 来实现这一点（猜测工作）。

裁剪前的图像：

裁剪后的图像：

根据某些逻辑，我在图像裁剪方面完全是新手。如果位置相同，如何成功裁剪所有图形以创建单独的图像？

更新：我相信，这不是那个问题的可能重复，因为即使逻辑上是相同的，但集群逻辑的工作方式是不同的。在那个问题中，只有两条垂直的白线要划分，但是这里有两条水平线和两条垂直线，我几乎不知道如何使用 KMeans 来解决这种图像聚类问题。

非常感谢sklearn 的 KMeans专家帮助解决此类问题。

python image crop python-3.x

Aak*_*asu

2019 06-06

5
推荐指数

1
解决办法

813
查看次数

如何通过 S3 事件或 AWS Lambda 触发 Glue ETL Pyspark 作业？

我计划使用 Pyspark 在 AWS Glue ETL 中编写某些作业，我希望在将新文件放入 AWS S3 位置时触发这些作业，就像我们使用 S3 事件触发 AWS Lambda 函数一样。

但是，我只看到非常缩小的选项，以触发 Glue ETL 脚本。对此的任何帮助都将受到高度赞赏。

amazon-s3 amazon-web-services aws-lambda aws-glue

Aak*_*asu

lucky-day

5
推荐指数

1
解决办法

4750
查看次数

EDI X12 到 JSON 解析器 Python 3.5 可用吗？

我有几个疑问——

1) 如何使用现有的 EDI X12 到 XML 解析器？我正在使用 Python 3.5。

a) Bots，使用python 2，不支持python >= 3。b) pyx12，没有文档，不知道怎么用。c) 在开源中找不到任何其他好的解析器。

2）如果我想构建一个解析器，我应该怎么做？我的意思是，我是 Python 本身的新手，编写解析器算法对我来说太难了。

谢谢，阿卡什。

parsing json edi x12 python-3.5

Aak*_*asu

lucky-day

4
推荐指数

1
解决办法

9331
查看次数

如何使用Python 3.7 pdf2image库解决MemoryError？

我正在使用Python PDF2Image库运行一个简单的PDF到图像的转换。我当然可以理解，此库正在越过最大内存阈值，从而导致出现此错误。但是，PDF是6.6 MB（大约），那么为什么要占用GB的内存来引发内存错误？

Python 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:06:47) [MSC v.1914 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> from pdf2image import convert_from_path
>>> pages = convert_from_path(r'C:\Users\aakashba598\Documents\pwc-annual-report-2017-2018.pdf', 200)
Exception in thread Thread-3:
Traceback (most recent call last):
  File "C:\Users\aakashba598\AppData\Local\Programs\Python\Python37-32\lib\threading.py", line 917, in _bootstrap_inner
    self.run()
  File "C:\Users\aakashba598\AppData\Local\Programs\Python\Python37-32\lib\threading.py", line 865, in run
    self._target(*self._args, **self._kwargs)
  File "C:\Users\aakashba598\AppData\Local\Programs\Python\Python37-32\lib\subprocess.py", line 1215, in _readerthread
    buffer.append(fh.read())
MemoryError

Run Code Online (Sandbox Code Playgroud)

另外，对此可能的解决方案是什么？

更新：当我从convert_from_path函数中减小dpi参数时，它像一个超级按钮一样工作。但是产生的图片质量低（出于明显的原因）。有没有办法解决这个问题？就像逐批创建图像并每次清除内存一样。如果有办法，该怎么办？

python out-of-memory data-conversion python-3.x

Aak*_*asu

2019 06-06

4
推荐指数

3
解决办法

910
查看次数