小编shi*_*eng的帖子

Spark - AWS EMR集群首选哪种实例类型?

我在EMR Spark集群上运行一些机器学习算法.我很想知道使用哪种实例,这样我可以获得最佳的成本/性能提升?

对于相同的价格水平,我可以选择:

          vCPU  ECU  Memory(GiB)
m3.xlarge  4     13     15     
c4.xlarge  4     16      7.5
r3.xlarge  4     13     30.5
Run Code Online (Sandbox Code Playgroud)

在EMR Spark集群中应该使用哪种实例?

amazon-ec2 emr apache-spark

18
推荐指数
1
解决办法
1万
查看次数

Redshift - 如何删除NOT NULL约束?

由于Redshift不支持ALTER COLUMN,我想知道是否可以从Redshift中的列中删除NOT NULL约束.

sql amazon-redshift

17
推荐指数
2
解决办法
1万
查看次数

对于Android项目,Eclipse"Import"和"从现有源创建项目"有什么区别?

我知道有两种方法可以将现有的Android项目导入Eclipse.也就是说,"导入"和"从现有源创建项目".但是这两种导入方法有什么区别?谁能详细解释一下?

eclipse import android

14
推荐指数
1
解决办法
1439
查看次数

如何从S3读取多个gzip压缩文件到一个RDD?

我在S3上存储了许多gzip压缩文件,这些文件按项目和每小时组织,文件路径的模式如下:

s3://<bucket>/project1/20141201/logtype1/logtype1.0000.gz
s3://<bucket>/project1/20141201/logtype1/logtype1.0100.gz
....
s3://<bucket>/project1/20141201/logtype1/logtype1.2300.gz
Run Code Online (Sandbox Code Playgroud)

由于数据应该每天进行分析,我必须下载并解压缩属于特定日期的文件,然后将内容组合为单个RDD.

应该有几种方法可以做到这一点,但我想知道Spark的最佳实践.

提前致谢.

amazon-s3 apache-spark

14
推荐指数
2
解决办法
1万
查看次数

Google Meet ID 生成机制?

我想讨论一下 Google Meet ID 是如何生成的。正如我们所知,生成唯一的、不可迭代的 ID 的最佳方法可能是使用 UUID。然而,Google Meet 使用完全不同的方法来生成 ID。看来 Google Meet 只是使用 10 个字母长的随机字符串作为 Meet ID。

ID背后是否有任何特殊算法,或者只是随机字符串?

id-generation google-meet

14
推荐指数
0
解决办法
837
查看次数

如果用户id是字符串而不是连续的整数,如何使用mllib.recommendation?

我想使用Spark的mllib.recommendation库来构建原型推荐系统.但是,我所拥有的用户数据的格式是以下格式:

AB123XY45678
CD234WZ12345
EF345OOO1234
GH456XY98765
....
Run Code Online (Sandbox Code Playgroud)

如果我想使用该mllib.recommendation库,根据Rating类的API ,用户ID必须是整数(也必须是连续的?)

看起来真实用户ID和Spark使用的数字之间必须进行某种转换.但是我该怎么做呢?

recommendation-engine apache-spark apache-spark-mllib

11
推荐指数
2
解决办法
4757
查看次数

您对视图ID的命名约定是什么?

我相信在命名视图ID时我们很多人都很烦恼.与包机制不同,项目中资源的ID使用一个公共命名空间.因此,我们必须找出一些方法来命名具有相同功能但在不同布局文件中的字段.

我的方法是添加布局文件的Acitvity类名称在原始ID前面使用的名词或动词,用点分隔.例如,在显示电影信息的活动中最初名为"描述"的ID可能变为"movie.details.description".

有没有更好的想法?

android

10
推荐指数
1
解决办法
3848
查看次数

如何对使用Popen的函数进行单元测试?

我正在编写一个包含大量文件操作的程序.有些操作是通过调用完成 subprocess.Popen,例如split -l 50000 ${filename},gzip -d -f ${filename} ${filename}..

现在我想单元测试程序的功能.但是我怎么能对这些功能进行单元测试?

有什么建议?

python unit-testing subprocess

10
推荐指数
1
解决办法
2711
查看次数

如何禁用其他模块的记录器?

我在我的项目中使用了几个模块,但是,模块从记录器输出了大量日志,这很烦人.所以我通过以下方式关闭日志:

boto_log = logging.getLogger("boto")
boto_log.setLevel(logging.CRITICAL)
es_log = logging.getLogger("elasticsearch")
es_log.setLevel(logging.CRITICAL)
urllib3_log = logging.getLogger("urllib3")
urllib3_log.setLevel(logging.CRITICAL)
Run Code Online (Sandbox Code Playgroud)

虽然这有效,但代码看起来很冗长.有没有更好,更简单的方法可以做到这一点?

python logging

8
推荐指数
3
解决办法
4219
查看次数

Python - 如何在没有MemoryError的情况下gzip大文本文件?

我使用以下简单的Python脚本来压缩EC2 m3.large实例上的大文本文件(例如,10GB).但是,我总是得到一个MemoryError:

import gzip

with open('test_large.csv', 'rb') as f_in:
    with gzip.open('test_out.csv.gz', 'wb') as f_out:
        f_out.writelines(f_in)
        # or the following:
        # for line in f_in:
        #     f_out.write(line)
Run Code Online (Sandbox Code Playgroud)

我得到的追溯是:

Traceback (most recent call last):
  File "test.py", line 8, in <module>
    f_out.writelines(f_in)
MemoryError
Run Code Online (Sandbox Code Playgroud)

我已经阅读了关于这个问题的一些讨论,但仍然不太清楚如何处理这个问题.有人能给我一个关于如何处理这个问题的更容易理解的答案吗?

python gzip out-of-memory large-files

7
推荐指数
2
解决办法
7985
查看次数