小编Abh*_*bhi的帖子

请求执行程序,因为任务被积压

我有一个火花流应用程序,直到昨天一直运行得很好,突然遇到这个警告.我有相同的环境并使用相同的代码.以下是警告:

05/09 17:13:03 INFO ExecutorAllocationManager:请求16个新的执行程序,因为任务被积压(新的期望总数将是31)16/05/09 17:13:03 INFO ExecutorAllocationManager:请求19个新的执行程序因为任务被积压(new期望的总数将是50)

16/05/09 17:13:12警告YarnScheduler:最初的工作没有接受任何资源; 检查群集UI以确保工作人员已注册并具有足够的资源

16/05/09 17:13:27 WARN YarnScheduler:最初的工作没有接受任何资源; 检查群集UI以确保工作人员已注册并具有足够的资源

我在cloudera 5.5上使用apache spark 1.6.快速入门VM.群集上没有运行任何应用程序来使用可用资源.

是否有任何配置.

谢谢!

apache-spark pyspark cloudera-quickstart-vm

6
推荐指数
1
解决办法
2018
查看次数

将分类变量从String转换为int表示

我有一个以字符串数组形式的文本分类的numpy数组,即 y_train = ['A', 'B', 'A', 'C',...].我正在尝试应用SKlearn多项式NB算法来预测整个数据集的类.

我想将String类转换为整数,以便能够输入到算法中并转换['A', 'B', 'A', 'C', ...]['1', '2', '1', '3', ...]

我可以编写一个for循环来遍历数组并使用int分类器创建一个新的但是有一个直接的函数来实现这一点

numpy pandas scikit-learn

4
推荐指数
3
解决办法
5225
查看次数

redshift Unload操作导致冗余数据

我们使用 UNLOAD 命令对基于 s3 的外部表运行一些转换,并将数据以 PARQUET 格式发布到不同的 s3 存储桶中。

我在卸载操作中使用 ALLOWOVERWRITE 选项来替换文件(如果它们已存在)。这在大多数情况下都可以正常工作,但有时会为相同的数据插入重复的文件,这会导致外部表显示重复的数字。

例如,如果分区中的 parquet 是包含完整数据的 0000_part_00.parquet。在下一次运行中,卸载预计会覆盖此文件,但会插入新文件 0000_part_01.parquet,这会使总输出加倍。

如果我只是清理整个分区并再次重新运行,这将不会重复。这种不一致使我们的系统不可靠。

unload (<simple select statement>)
to 's3://<s3 bucket>/<prefix>/'
iam_role '<iam-role>' allowoverwrite
PARQUET
PARTITION BY (partition_col1, partition_col2);
Run Code Online (Sandbox Code Playgroud)

谢谢。

amazon-s3 amazon-redshift amazon-redshift-spectrum

3
推荐指数
1
解决办法
5443
查看次数

保存文件时出错:无法打开数据库文件

我在RHEL上运行托管在远程AWS EC2映像上的Ipython笔记本.我使用2个系统之间的端口转发从本地浏览器访问笔记本电脑,这在前几天工作得很好.

现在,我在启动笔记本时遇到以下错误消息:

> [E 20:34:57.072 NotebookApp] 500 PUT /api/contents/HW4/HW4.ipynb (::1)
> 9.14ms referer=http://localhost:8880/notebooks/HW4/HW4.ipynb [W 20:35:10.315 NotebookApp] Replacing stale connection:
> 14cfb1f0-1d03-4a84-818e-d11938db6bd6:57AB20A0DD6A47A5815DE5FA12D0C101
> [W 20:36:34.428 NotebookApp] Replacing stale connection:
> 14cfb1f0-1d03-4a84-818e-d11938db6bd6:57AB20A0DD6A47A5815DE5FA12D0C101
> [I 20:36:57.080 NotebookApp] Saving file at /HW4/HW4.ipynb [E
> 20:36:57.083 NotebookApp] Error while saving file: HW4/HW4.ipynb
> unable to open database file
>     Traceback (most recent call last):
>       File "/home/ec2-user/anaconda3/lib/python3.5/site-packages/notebook/services/contents/filemanager.py",
> line 395, in save
>         self.check_and_sign(nb, path)
>       File "/home/ec2-user/anaconda3/lib/python3.5/site-packages/notebook/services/contents/manager.py",
> line 431, in check_and_sign
> …
Run Code Online (Sandbox Code Playgroud)

amazon-ec2 jupyter-notebook

2
推荐指数
1
解决办法
1679
查看次数

将时间戳插入表中

我们正在研究MemSQL数据库,我想将时间序列数据插入到表中.MemSQL使用MySQL flavor作为查询语言来查询数据库.我正在使用标准的MySQL函数:Date_sub()它正在运行一条错误消息:

create table simpletest (edate timestamp, name varchar(20));

insert into simpletest values ("DATE_SUB(NOW(),INTERVAL 1 HOUR)", 'hi');
Run Code Online (Sandbox Code Playgroud)

我应该使用不同的功能来插入过去一小时的数据.

mysql singlestore

1
推荐指数
1
解决办法
171
查看次数