小编Gus*_*avo的帖子

在 docker 环境中 pip install git+url

我正在使用这个 Docker（来自lambda/lambda：python3.6），并且我需要安装一个私有存储库包。问题是 Docker 没有 git，我无法使用 apt-get 或 apk install 安装 git，因为 Docker 不是 Linux。

有什么办法可以解决这个安装git的问题吗？或者还有其他更好的方法可以用来安装这个私有存储库包吗？

python pip docker

Gus*_*avo

lucky-day

9
推荐指数

2
解决办法

1万
查看次数

如何设置 PySpark 使用 Hadoop 从 S3 本地读取数据？

我遵循了这篇博文，建议使用：

from pyspark import SparkConf
from pyspark.sql import SparkSession
 
conf = SparkConf()
conf.set('spark.jars.packages', 'org.apache.hadoop:hadoop-aws:3.2.0')
conf.set('spark.hadoop.fs.s3a.aws.credentials.provider', 'org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider')
conf.set('spark.hadoop.fs.s3a.access.key', <access_key>)
conf.set('spark.hadoop.fs.s3a.secret.key', <secret_key>)
conf.set('spark.hadoop.fs.s3a.session.token', <token>)
 
spark = SparkSession.builder.config(conf=conf).getOrCreate()

Run Code Online (Sandbox Code Playgroud)

我用它来配置 PySpark，它可以直接从我的本地计算机从 S3 获取数据。

然而，我发现这个关于使用, or 的问题，最近的答案之一说建议不要使用。我还发现AWS 的本指南也不鼓励使用：s3as3ns3s3as3a

以前，Amazon EMR 使用 s3n 和 s3a 文件系统。虽然两者仍然有效，但我们建议您使用 s3 URI 方案以获得最佳性能、安全性和可靠性。

所以我决定尝试寻找如何实现s3PySpark和Hadoop的使用，但我发现Hadoop的这篇指南提到它只s3a官方支持：

还有其他连接到 S3 的 Hadoop 连接器。只有 S3A 是由 Hadoop 项目本身积极维护的。

博客文章中提到的方法可行，但它是这种情况的最佳选择吗？还有其他方法可以配置这个吗？

从本地计算机访问 S3 的最佳方法是什么？

hadoop amazon-s3 amazon-web-services apache-spark pyspark

Gus*_*avo

lucky-day

5
推荐指数

1
解决办法

2883
查看次数

如何使用 pyproject.toml 和诗歌从单个 python 模块构建多个包？

我想实现与 Dask 库类似的行为，可以使用pip来安装dask、dask[dataframe]和dask[array]其他库。他们通过使用像这样的setup.py包密钥来做到这一点。如果我只安装，则不会安装，并且它们会在执行模块时警告您。daskdask[dataframe]

我在诗歌文档中找到了这一点poetry build，但是当我执行时，我只得到一个.whl包含所有包的文件。

如何打包我的模块以便能够使用安装库的特定部分poetry？

python setup.py python-packaging python-poetry pyproject.toml

Gus*_*avo

2023 11-10

5
推荐指数

1
解决办法

8670
查看次数