我得到了内存泄漏警告,理想情况下是一个Spark bug,直到1.6版本并得到解决.
模式:独立IDE:PyCharm Spark版本:2.3 Python版本:3.6
下面是堆栈跟踪 -
2018-05-25 15:00:05 WARN Executor:66 - Managed memory leak detected; size = 262144 bytes, TID = 3148
2018-05-25 15:00:05 WARN Executor:66 - Managed memory leak detected; size = 262144 bytes, TID = 3152
2018-05-25 15:00:05 WARN Executor:66 - Managed memory leak detected; size = 262144 bytes, TID = 3151
2018-05-25 15:00:05 WARN Executor:66 - Managed memory leak detected; size = 262144 bytes, TID = 3150
2018-05-25 15:00:05 WARN Executor:66 - Managed memory leak detected; …Run Code Online (Sandbox Code Playgroud) 我对 Python、统计和使用 DS 库比较陌生,我的要求是对具有 n 列的数据集运行多重共线性测试,并确保 VIF > 5 的列/变量被完全删除。
我找到了一个代码,
from statsmodels.stats.outliers_influence import variance_inflation_factor
def calculate_vif_(X, thresh=5.0):
variables = range(X.shape[1])
tmp = range(X[variables].shape[1])
print(tmp)
dropped=True
while dropped:
dropped=False
vif = [variance_inflation_factor(X[variables].values, ix) for ix in range(X[variables].shape[1])]
maxloc = vif.index(max(vif))
if max(vif) > thresh:
print('dropping \'' + X[variables].columns[maxloc] + '\' at index: ' + str(maxloc))
del variables[maxloc]
dropped=True
print('Remaining variables:')
print(X.columns[variables])
return X[variables]
Run Code Online (Sandbox Code Playgroud)
但是,我不清楚,我应该将数据集完全传递到 X 参数的位置吗?如果是,则不起作用。
请帮忙!
我正在运行内存密集型代码,其中创建了一个管道,其中包括:
使用 Shimazaki 和 Shinomoto 的 Bin Width 算法找到最佳的 bin 值数量。
通过使用上面找到的相应 bin 值对同一列进行分桶来创建新列。
通过 8 个顺序 SQL 查询计算证据权重。
配置:Python - 3.6
火花 - 2.3
环境 - 独立机器(16 GB RAM 和 500 GB HDD,配备 i7 处理器)
IDE-Pycharm
我的疑问是,它正在按预期工作,但即使作业已成功完成,也会出现以下错误和警告。
关于为什么我收到以下内容有任何线索吗?在 Spark 提交时,我需要做任何调整才能使用最佳可用内存吗?
仅供参考 - 目前我只是使用 Pycharm Run 按钮运行而不是 Spark Submit,尽管在内部它的作用是相同的。
2018-05-25 18:13:06 ERROR AsyncEventQueue:70 - Dropping event from queue appStatus. This likely means one of the listeners is too slow and cannot keep up with the rate at which tasks are …Run Code Online (Sandbox Code Playgroud) 当我在30多个列上进行特征工程以创建大约200多个列时遇到错误。它不会使作业失败,但是会显示错误。我想知道如何避免这种情况。
Spark-2.3.1 Python-3.6
群集配置-1个主设备-32 GB RAM,16核4个从设备-16 GB RAM,8核
输入数据-镶木地板文件的8个分区,压缩迅速。
我的Spark提交->
spark-submit --master spark://192.168.60.20:7077 --num-executors 4 --executor-cores 5 --executor-memory 10G --driver-cores 5 --driver-memory 25G --conf spark.sql.shuffle.partitions=60 --conf spark.driver.maxResultSize=2G --conf "spark.executor.extraJavaOptions=-XX:+UseParallelGC" --conf spark.scheduler.listenerbus.eventqueue.capacity=20000 --conf spark.sql.codegen=true /appdata/bblite-codebase/pipeline_data_test_run.py > /appdata/bblite-data/logs/log_10_iter_pipeline_8_partitions_33_col.txt
Run Code Online (Sandbox Code Playgroud)
下面的堆栈跟踪-
ERROR CodeGenerator:91 - failed to compile: org.codehaus.janino.InternalCompilerException: Compiling "GeneratedClass": Code of method "processNext()V" of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage3426" grows beyond 64 KB
org.codehaus.janino.InternalCompilerException: Compiling "GeneratedClass": Code of method "processNext()V" of class "org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage3426" grows beyond 64 KB
at org.codehaus.janino.UnitCompiler.compileUnit(UnitCompiler.java:361)
at org.codehaus.janino.SimpleCompiler.cook(SimpleCompiler.java:234)
at org.codehaus.janino.SimpleCompiler.compileToClassLoader(SimpleCompiler.java:446)
at org.codehaus.janino.ClassBodyEvaluator.compileToClass(ClassBodyEvaluator.java:313)
at …Run Code Online (Sandbox Code Playgroud) 搜索了很多,但由于我找不到此类问题的解决方案,因此在同一个问题上发布了一个明确的问题。大多数答案涵盖了相对容易的图像/文本提取。
我需要分别从 PDF 中提取表格和图形作为文本 (csv) 和图像。
任何人都可以用有效的python 3.6代码来帮助我解决这个问题吗?
到目前为止,我可以使用 startmark = b"\xff\xd8" 和 endmark = b"\xff\xd9" 实现提取 jpg,但并非 PDF 中的所有表格和图形都是普通的 jpg,因此我的代码无法实现这一目标。
例如,我想从第 11 页中提取表格,从第 12 页中提取图形作为图像或从下面给出的链接中可行的内容。怎么办?
https://hartmannazurecdn.azureedge.net/media/2369/annual-report-2017.pdf
Spark由于修复了以下问题,下载了最新版本
错误 AsyncEventQueue:70 - 从队列 appStatus 中删除事件。
设置环境变量并在 中运行相同的代码后PyCharm,我收到此错误,我找不到解决方案。
Exception in thread "main" java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CONN_INFO_PATH
at scala.collection.MapLike$class.default(MapLike.scala:228)
at scala.collection.AbstractMap.default(Map.scala:59)
at scala.collection.MapLike$class.apply(MapLike.scala:141)
at scala.collection.AbstractMap.apply(Map.scala:59)
at org.apache.spark.api.python.PythonGatewayServer$.main(PythonGatewayServer.scala:64)
at org.apache.spark.api.python.PythonGatewayServer.main(PythonGatewayServer.scala)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:498)
at org.apache.spark.deploy.JavaMainApplication.start(SparkApplication.scala:52)
at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:894)
at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:198)
at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:228)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:137)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Run Code Online (Sandbox Code Playgroud)
有什么帮助吗?
只是想知道,我们如何才能在分布式模式下对流数据进行主成分分析?如果可以的话,它在数学上是否足够有效?
有人做过吗?你们可以分享您的经验吗?Spark提供的API是否可以在Spark Streaming模式下执行相同的操作?
我有一个 jpeg,我想从中裁剪包含图形的部分(底部的那个)。
截至目前,我使用此代码来实现相同的目的:
from PIL import Image
img = Image.open(r'D:\aakash\graph2.jpg')
area = (20, 320, 1040, 590)
img2 = img.crop(area)
# img.show()
img2.show()
Run Code Online (Sandbox Code Playgroud)
但是我通过多次猜测 x1, y1, x2, y2 来实现这一点(猜测工作)。
根据某些逻辑,我在图像裁剪方面完全是新手。如果位置相同,如何成功裁剪所有图形以创建单独的图像?
更新:我相信,这不是那个问题的可能重复,因为即使逻辑上是相同的,但集群逻辑的工作方式是不同的。在那个问题中,只有两条垂直的白线要划分,但是这里有两条水平线和两条垂直线,我几乎不知道如何使用 KMeans 来解决这种图像聚类问题。
非常感谢sklearn 的 KMeans专家帮助解决此类问题。
我计划使用 Pyspark 在 AWS Glue ETL 中编写某些作业,我希望在将新文件放入 AWS S3 位置时触发这些作业,就像我们使用 S3 事件触发 AWS Lambda 函数一样。
但是,我只看到非常缩小的选项,以触发 Glue ETL 脚本。对此的任何帮助都将受到高度赞赏。
我有几个疑问——
1) 如何使用现有的 EDI X12 到 XML 解析器?我正在使用 Python 3.5。
a) Bots,使用python 2,不支持python >= 3。b) pyx12,没有文档,不知道怎么用。c) 在开源中找不到任何其他好的解析器。
2)如果我想构建一个解析器,我应该怎么做?我的意思是,我是 Python 本身的新手,编写解析器算法对我来说太难了。
谢谢,阿卡什。
我正在使用Python PDF2Image库运行一个简单的PDF到图像的转换。我当然可以理解,此库正在越过最大内存阈值,从而导致出现此错误。但是,PDF是6.6 MB(大约),那么为什么要占用GB的内存来引发内存错误?
Python 3.7.0 (v3.7.0:1bf9cc5093, Jun 27 2018, 04:06:47) [MSC v.1914 32 bit (Intel)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> from pdf2image import convert_from_path
>>> pages = convert_from_path(r'C:\Users\aakashba598\Documents\pwc-annual-report-2017-2018.pdf', 200)
Exception in thread Thread-3:
Traceback (most recent call last):
File "C:\Users\aakashba598\AppData\Local\Programs\Python\Python37-32\lib\threading.py", line 917, in _bootstrap_inner
self.run()
File "C:\Users\aakashba598\AppData\Local\Programs\Python\Python37-32\lib\threading.py", line 865, in run
self._target(*self._args, **self._kwargs)
File "C:\Users\aakashba598\AppData\Local\Programs\Python\Python37-32\lib\subprocess.py", line 1215, in _readerthread
buffer.append(fh.read())
MemoryError
Run Code Online (Sandbox Code Playgroud)
另外,对此可能的解决方案是什么?
更新:当我从convert_from_path函数中减小dpi参数时,它像一个超级按钮一样工作。但是产生的图片质量低(出于明显的原因)。有没有办法解决这个问题?就像逐批创建图像并每次清除内存一样。如果有办法,该怎么办?
我正在尝试dropTempTable()在各个临时表的使用结束后使用(以释放内存用于下一次计算)。
较新的 Spark Session 不需要sqlContext,因此,我对如何使用该功能感到困惑。
1)尝试过,我用来注册临时表的同一个DF -
DF.dropTempTable('xyz')
Run Code Online (Sandbox Code Playgroud)
没用。
2) 也尝试了以下方法,因为 spark 在内部sqlContext也与 一起调用sparkContext,但没有用 -
spark.dropTempTable('xyz')
Run Code Online (Sandbox Code Playgroud)
3)试图spark.catalog下降,这也失败了-
spark.catalog.dropTempTable('xyz')
Run Code Online (Sandbox Code Playgroud)
该怎么办?互联网上的 1.6 示例在 2.3 版本中不起作用dropTempTable()。
有什么帮助吗?
我需要保留一个用户表,以授予对必须屏蔽密码字段的应用程序的访问权限。
怎么做呢?
示例:如果您select * from PG_USER;在Redshift中查询,则会看到密码列值显示为*****。如何为我的自定义表格准确地做到这一点?
pyspark ×6
apache-spark ×5
python ×5
python-3.6 ×3
python-3.x ×3
amazon-s3 ×1
aws-glue ×1
aws-lambda ×1
codegen ×1
crop ×1
data-masking ×1
edi ×1
extract ×1
image ×1
janino ×1
json ×1
memory-leaks ×1
ocr ×1
pandas ×1
parsing ×1
pca ×1
pdf ×1
pyspark-sql ×1
python-3.5 ×1
sql ×1
statsmodels ×1
x12 ×1