小编Gus*_*avo的帖子

在 docker 环境中 pip install git+url

我正在使用这个 Docker(来自lambda/lambda:python3.6),并且我需要安装一个私有存储库包。问题是 Docker 没有 git,我无法使用 apt-get 或 apk install 安装 git,因为 Docker 不是 Linux。

有什么办法可以解决这个安装git的问题吗?或者还有其他更好的方法可以用来安装这个私有存储库包吗?

python pip docker

9
推荐指数
2
解决办法
1万
查看次数

如何设置 PySpark 使用 Hadoop 从 S3 本地读取数据?

我遵循了这篇博文,建议使用:

from pyspark import SparkConf
from pyspark.sql import SparkSession
 
conf = SparkConf()
conf.set('spark.jars.packages', 'org.apache.hadoop:hadoop-aws:3.2.0')
conf.set('spark.hadoop.fs.s3a.aws.credentials.provider', 'org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider')
conf.set('spark.hadoop.fs.s3a.access.key', <access_key>)
conf.set('spark.hadoop.fs.s3a.secret.key', <secret_key>)
conf.set('spark.hadoop.fs.s3a.session.token', <token>)
 
spark = SparkSession.builder.config(conf=conf).getOrCreate()
Run Code Online (Sandbox Code Playgroud)

我用它来配置 PySpark,它可以直接从我的本地计算机从 S3 获取数据。


然而,我发现这个关于使用, or 的问题,最近的答案之一说建议不要使用。我还发现AWS 的本指南也不鼓励使用:s3as3ns3s3as3a

以前,Amazon EMR 使用 s3n 和 s3a 文件系统。虽然两者仍然有效,但我们建议您使用 s3 URI 方案以获得最佳性能、安全性和可靠性。


所以我决定尝试寻找如何实现s3PySpark和Hadoop的使用,但我发现Hadoop的这篇指南提到它只s3a官方支持:

还有其他连接到 S3 的 Hadoop 连接器。只有 S3A 是由 Hadoop 项目本身积极维护的。


博客文章中提到的方法可行,但它是这种情况的最佳选择吗?还有其他方法可以配置这个吗?

从本地计算机访问 S3 的最佳方法是什么?

hadoop amazon-s3 amazon-web-services apache-spark pyspark

5
推荐指数
1
解决办法
2883
查看次数

如何使用 pyproject.toml 和诗歌从单个 python 模块构建多个包?

我想实现与 Dask 库类似的行为,可以使用pip来安装daskdask[dataframe]dask[array]其他库。他们通过使用像这样的setup.py包密钥来做到这一点。如果我只安装,则不会安装,并且它们会在执行模块时警告您。daskdask[dataframe]

我在诗歌文档中找到了这一点poetry build,但是当我执行时,我只得到一个.whl包含所有包的文件。

如何打包我的模块以便能够使用安装库的特定部分poetry

python setup.py python-packaging python-poetry pyproject.toml

5
推荐指数
1
解决办法
8670
查看次数