小编Aak*_*asu的帖子

Spark 2.3执行程序内存泄漏

我得到了内存泄漏警告,理想情况下是一个Spark bug,直到1.6版本并得到解决.

模式:独立IDE:PyCharm Spark版本:2.3 Python版本:3.6

下面是堆栈跟踪 -

2018-05-25 15:00:05 WARN  Executor:66 - Managed memory leak detected; size = 262144 bytes, TID = 3148
2018-05-25 15:00:05 WARN  Executor:66 - Managed memory leak detected; size = 262144 bytes, TID = 3152
2018-05-25 15:00:05 WARN  Executor:66 - Managed memory leak detected; size = 262144 bytes, TID = 3151
2018-05-25 15:00:05 WARN  Executor:66 - Managed memory leak detected; size = 262144 bytes, TID = 3150
2018-05-25 15:00:05 WARN  Executor:66 - Managed memory leak detected; …
Run Code Online (Sandbox Code Playgroud)

python memory-leaks python-3.x apache-spark pyspark

10
推荐指数
1
解决办法
1200
查看次数

如何对 pandas 数据框运行多重共线性测试?

我对 Python、统计和使用 DS 库比较陌生,我的要求是对具有 n 列的数据集运行多重共线性测试,并确保 VIF > 5 的列/变量被完全删除。

我找到了一个代码,

 from statsmodels.stats.outliers_influence import variance_inflation_factor

    def calculate_vif_(X, thresh=5.0):

        variables = range(X.shape[1])
        tmp = range(X[variables].shape[1])
        print(tmp)
        dropped=True
        while dropped:
            dropped=False
            vif = [variance_inflation_factor(X[variables].values, ix) for ix in range(X[variables].shape[1])]

            maxloc = vif.index(max(vif))
            if max(vif) > thresh:
                print('dropping \'' + X[variables].columns[maxloc] + '\' at index: ' + str(maxloc))
                del variables[maxloc]
                dropped=True

        print('Remaining variables:')
        print(X.columns[variables])
        return X[variables]
Run Code Online (Sandbox Code Playgroud)

但是,我不清楚,我应该将数据集完全传递到 X 参数的位置吗?如果是,则不起作用。

请帮忙!

pandas statsmodels python-3.6

6
推荐指数
2
解决办法
2万
查看次数

Spark 2.3 AsyncEventQueue 错误和警告

我正在运行内存密集型代码,其中创建了一个管道,其中包括:

  1. 使用 Shimazaki 和 Shinomoto 的 Bin Width 算法找到最佳的 bin 值数量。

  2. 通过使用上面找到的相应 bin 值对同一列进行分桶来创建新列。

  3. 通过 8 个顺序 SQL 查询计算证据权重。

配置:Python - 3.6

火花 - 2.3

环境 - 独立机器(16 GB RAM 和 500 GB HDD,配备 i7 处理器)

IDE-Pycharm

我的疑问是,它正在按预期工作,但即使作业已成功完成,也会出现以下错误和警告。

关于为什么我收到以下内容有任何线索吗?在 Spark 提交时,我需要做任何调整才能使用最佳可用内存吗?

仅供参考 - 目前我只是使用 Pycharm Run 按钮运行而不是 Spark Submit,尽管在内部它的作用是相同的。

2018-05-25 18:13:06 ERROR AsyncEventQueue:70 - Dropping event from queue appStatus. This likely means one of the listeners is too slow and cannot keep up with the rate at which tasks are …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark python-3.6

6
推荐指数
0
解决办法
3728
查看次数

Apache Spark Codegen Stage增长超过64 KB

当我在30多个列上进行特征工程以创建大约200多个列时遇到错误。它不会使作业失败,但是会显示错误。我想知道如何避免这种情况。

Spark-2.3.1 Python-3.6

群集配置-1个主设备-32 GB RAM,16核4个从设备-16 GB RAM,8核

输入数据-镶木地板文件的8个分区,压缩迅速。

我的Spark提交->

spark-submit --master spark://192.168.60.20:7077 --num-executors 4 --executor-cores 5 --executor-memory 10G --driver-cores 5 --driver-memory 25G --conf spark.sql.shuffle.partitions=60 --conf spark.driver.maxResultSize=2G --conf "spark.executor.extraJavaOptions=-XX:+UseParallelGC" --conf spark.scheduler.listenerbus.eventqueue.capacity=20000 --conf spark.sql.codegen=true /appdata/bblite-codebase/pipeline_data_test_run.py > /appdata/bblite-data/logs/log_10_iter_pipeline_8_partitions_33_col.txt
Run Code Online (Sandbox Code Playgroud)

下面的堆栈跟踪-

ERROR CodeGenerator:91 - failed to compile: org.codehaus.janino.InternalCompilerException: Compiling "GeneratedClass": Code of method "processNext()V" of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage3426" grows beyond 64 KB
org.codehaus.janino.InternalCompilerException: Compiling "GeneratedClass": Code of method "processNext()V" of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage3426" grows beyond 64 KB
    at org.codehaus.janino.UnitCompiler.compileUnit(UnitCompiler.java:361)
    at org.codehaus.janino.SimpleCompiler.cook(SimpleCompiler.java:234)
    at org.codehaus.janino.SimpleCompiler.compileToClassLoader(SimpleCompiler.java:446)
    at org.codehaus.janino.ClassBodyEvaluator.compileToClass(ClassBodyEvaluator.java:313)
    at …
Run Code Online (Sandbox Code Playgroud)

codegen apache-spark janino pyspark

6
推荐指数
2
解决办法
4119
查看次数

如何使用 Python 从 PDF 文件中提取图表/表格/图形?

搜索了很多,但由于我找不到此类问题的解决方案,因此在同一个问题上发布了一个明确的问题。大多数答案涵盖了相对容易的图像/文本提取。

我需要分别从 PDF 中提取表格和图形作为文本 (csv) 和图像。

任何人都可以用有效的python 3.6代码来帮助我解决这个问题吗?

到目前为止,我可以使用 startmark = b"\xff\xd8" 和 endmark = b"\xff\xd9" 实现提取 jpg,但并非 PDF 中的所有表格和图形都是普通的 jpg,因此我的代码无法实现这一目标。

例如,我想从第 11 页中提取表格,从第 12 页中提取图形作为图像或从下面给出的链接中可行的内容。怎么办?

https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf

python pdf ocr extract python-3.6

6
推荐指数
1
解决办法
4290
查看次数

Spark 升级时出现问题:找不到密钥:_PYSPARK_DRIVER_CONN_INFO_PATH

Spark由于修复了以下问题,下载了最新版本

错误 AsyncEventQueue:70 - 从队列 appStatus 中删除事件。

设置环境变量并在 中运行相同的代码后PyCharm,我收到此错误,我找不到解决方案。

Exception in thread "main" java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CONN_INFO_PATH
    at scala.collection.MapLike$class.default(MapLike.scala:228)
    at scala.collection.AbstractMap.default(Map.scala:59)
    at scala.collection.MapLike$class.apply(MapLike.scala:141)
    at scala.collection.AbstractMap.apply(Map.scala:59)
    at org.apache.spark.api.python.PythonGatewayServer$.main(PythonGatewayServer.scala:64)
    at org.apache.spark.api.python.PythonGatewayServer.main(PythonGatewayServer.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)
    at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:894)
    at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:198)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:228)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:137)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Run Code Online (Sandbox Code Playgroud)

有什么帮助吗?

apache-spark pyspark

5
推荐指数
1
解决办法
5704
查看次数

如何使用Spark Streaming Dataframe进行PCA

只是想知道,我们如何才能在分布式模式下对流数据进行主成分分析?如果可以的话,它在数学上是否足够有效?

有人做过吗?你们可以分享您的经验吗?Spark提供的API是否可以在Spark Streaming模式下执行相同的操作?

pca spark-streaming pyspark apache-spark-ml

5
推荐指数
0
解决办法
79
查看次数

如何从 JPEG 裁剪多个矩形或正方形?

我有一个 jpeg,我想从中裁剪包含图形的部分(底部的那个)。

截至目前,我使用此代码来实现相同的目的:

from PIL import Image

img = Image.open(r'D:\aakash\graph2.jpg')
area = (20, 320, 1040, 590)
img2 = img.crop(area)
# img.show()
img2.show()
Run Code Online (Sandbox Code Playgroud)

但是我通过多次猜测 x1, y1, x2, y2 来实现这一点(猜测工作)。

裁剪前的图像: 在此处输入图片说明

裁剪后的图像: 在此处输入图片说明

根据某些逻辑,我在图像裁剪方面完全是新手。如果位置相同,如何成功裁剪所有图形以创建单独的图像?

更新:我相信,这不是那个问题的可能重复,因为即使逻辑上是相同的,但集群逻辑的工作方式是不同的。在那个问题中,只有两条垂直的白线要划分,但是这里有两条水平线和两条垂直线,我几乎不知道如何使用 KMeans 来解决这种图像聚类问题。

非常感谢sklearn 的 KMeans专家帮助解决此类问题。

python image crop python-3.x

5
推荐指数
1
解决办法
813
查看次数

如何通过 S3 事件或 AWS Lambda 触发 Glue ETL Pyspark 作业?

我计划使用 Pyspark 在 AWS Glue ETL 中编写某些作业,我希望在将新文件放入 AWS S3 位置时触发这些作业,就像我们使用 S3 事件触发 AWS Lambda 函数一样。

但是,我只看到非常缩小的选项,以触发 Glue ETL 脚本。对此的任何帮助都将受到高度赞赏。

amazon-s3 amazon-web-services aws-lambda aws-glue

5
推荐指数
1
解决办法
4750
查看次数

EDI X12 到 JSON 解析器 Python 3.5 可用吗?

我有几个疑问——

1) 如何使用现有的 EDI X12 到 XML 解析器?我正在使用 Python 3.5。

a) Bots,使用python 2,不支持python >= 3。b) pyx12,没有文档,不知道怎么用。c) 在开源中找不到任何其他好的解析器。

2)如果我想构建一个解析器,我应该怎么做?我的意思是,我是 Python 本身的新手,编写解析器算法对我来说太难了。

谢谢,阿卡什。

parsing json edi x12 python-3.5

4
推荐指数
1
解决办法
9331
查看次数

如何使用Python 3.7 pdf2image库解决MemoryError?

我正在使用Python PDF2Image库运行一个简单的PDF到图像的转换。我当然可以理解,此库正在越过最大内存阈值,从而导致出现此错误。但是,PDF是6.6 MB(大约),那么为什么要占用GB的内存来引发内存错误?

Python 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:06:47) [MSC v.1914 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> from pdf2image import convert_from_path
>>> pages = convert_from_path(r'C:\Users\aakashba598\Documents\pwc-annual-report-2017-2018.pdf', 200)
Exception in thread Thread-3:
Traceback (most recent call last):
  File "C:\Users\aakashba598\AppData\Local\Programs\Python\Python37-32\lib\threading.py", line 917, in _bootstrap_inner
    self.run()
  File "C:\Users\aakashba598\AppData\Local\Programs\Python\Python37-32\lib\threading.py", line 865, in run
    self._target(*self._args, **self._kwargs)
  File "C:\Users\aakashba598\AppData\Local\Programs\Python\Python37-32\lib\subprocess.py", line 1215, in _readerthread
    buffer.append(fh.read())
MemoryError
Run Code Online (Sandbox Code Playgroud)

另外,对此可能的解决方案是什么?

更新:当我从convert_from_path函数中减小dpi参数时,它像一个超级按钮一样工作。但是产生的图片质量低(出于明显的原因)。有没有办法解决这个问题?就像逐批创建图像并每次清除内存一样。如果有办法,该怎么办?

python out-of-memory data-conversion python-3.x

4
推荐指数
3
解决办法
910
查看次数

Spark 2.3 删除临时表

我正在尝试dropTempTable()在各个临时表的使用结束后使用(以释放内存用于下一次计算)。

较新的 Spark Session 不需要sqlContext,因此,我对如何使用该功能感到困惑。

1)尝试过,我用来注册临时表的同一个DF -

DF.dropTempTable('xyz')
Run Code Online (Sandbox Code Playgroud)

没用。

2) 也尝试了以下方法,因为 spark 在内部sqlContext也与 一起调用sparkContext,但没有用 -

spark.dropTempTable('xyz')
Run Code Online (Sandbox Code Playgroud)

3)试图spark.catalog下降,这也失败了-

spark.catalog.dropTempTable('xyz')
Run Code Online (Sandbox Code Playgroud)

该怎么办?互联网上的 1.6 示例在 2.3 版本中不起作用dropTempTable()

有什么帮助吗?

apache-spark apache-spark-sql pyspark pyspark-sql

2
推荐指数
1
解决办法
8730
查看次数

如何在Redshift中屏蔽列?

我需要保留一个用户表,以授予对必须屏蔽密码字段的应用程序的访问权限。

怎么做呢?

示例:如果您select * from PG_USER;在Redshift中查询,则会看到密码列值显示为*****。如何为我的自定义表格准确地做到这一点?

sql amazon-web-services amazon-redshift data-masking

1
推荐指数
1
解决办法
406
查看次数