标签: modin

Modin 之间的比较 | 达斯克 | 数据表| 用于并行处理和内存不足 csv 文件的 Pandas

Dask 的根本区别和主要用例是什么？莫丁 | 数据表

我检查了每个库的文档，它们似乎都为熊猫限制提供了“类似”的解决方案

python pandas dask modin

Shu*_*ant

2021 05-27

13
推荐指数

2
解决办法

4129
查看次数

modin 在 AWS Lambda 上有用吗

AWS Lambda 配备 6 个 vCPU。Modin for Pandas 承诺使用核心来提高处理效率。

这是否真的可以在 AWS Lambda 上实现，否则它不支持多线程、多处理等？

# import pandas as pd
import modin.pandas as pd

Run Code Online (Sandbox Code Playgroud)

pandas aws-lambda modin

bon*_*ney

lucky-day

8
推荐指数

1
解决办法

340
查看次数

在 Python 3.6 中导入库“modin”时出错

import modin.pandas as pd

Run Code Online (Sandbox Code Playgroud)

我正在 Windows 10 机器中导入 modin.pandas 库但出现错误

“AttributeError：模块‘ray’没有属性‘utils’”

安装 modin 库时遗漏了什么？

python python-3.x ray pandas modin

SPy*_*SPy

2021 06-28

7
推荐指数

1
解决办法

743
查看次数

如何从 pyarrow 或 pandas 加载 modin 数据帧

由于 Modin 不支持从 s3 上的多个 pyarrow 文件加载，因此我使用 pyarrow 加载数据。


    import s3fs
    import modin.pandas as pd
    from pyarrow import parquet
    
    s3 = s3fs.S3FileSystem(
        key=aws_key,
        secret=aws_secret
    )

    table = parquet.ParquetDataset(
        path_or_paths="s3://bucket/path", 
        filesystem=s3,
    ).read(
        columns=["hotelId", "startDate", "endDate"]
    )

    # to get a pandas df the next step would be table.to_pandas()

Run Code Online (Sandbox Code Playgroud)

如果我知道想要将数据放入 Modin df 中进行并行计算，而不必写入 csv 或从 csv 中读取数据？有没有办法直接从 pyarrow.Table 或至少从 pandas 数据帧构建 Modin df ？

pyarrow modin

gal*_*den

lucky-day

5
推荐指数

1
解决办法

968
查看次数

Modin 读取 CSV 的时间比 pandas 更多

我正在使用modin.pandas来缩放pandas以适应大型数据集。但是，当使用pd.read_csv加载 5 MB csv 数据集来比较和jupyter notebook的性能时，它会给出意外的执行时间。modin.pandaspandas

modin.pandas所花费的时间比pandas. 为什么？

代码-

import modin.pandas as mpd
df = mpd.read_csv(r"C:\Downloads\annual-enterprise-survey-2019-financial-year-provisional-csv.csv")

import pandas as pd
df = pd.read_csv(r"C:\Downloads\annual-enterprise-survey-2019-financial-year-provisional-csv.csv")

Run Code Online (Sandbox Code Playgroud)

这是 CSV 文件的链接。我正在使用 modin 版本0.8.3和 pandas 版本1.1.5。

输出截图-

系统信息-

编辑：我尝试使用 500 MB 的 CSV 文件，结果略有改善。modin现在和的执行时间pandas几乎相同。这是常见的吗？

python parallel-processing pandas jupyter-notebook modin

Shr*_*dha

2021 02-03

5
推荐指数

1
解决办法

2962
查看次数

无法完全安装和导入 Modin 包

我正在尝试使用该modin包来加速我的 Pandas 数据帧计算。简而言之，安装并不像pip install modin

当简单地运行时，pip install modin一切似乎都很顺利（pip 升级警告除外）。到目前为止一切都很好...

WARNING: You are using pip version 19.3; however, version 19.3.1 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.

(base) C:\Users\Merv Merzoug>pip install modin
Requirement already satisfied: modin in c:\users\merv merzoug\anaconda3\lib\site-packages (0.6.2)
Requirement already satisfied: pandas==0.25.1 in c:\users\merv merzoug\anaconda3\lib\site-packages (from modin) (0.25.1)
Requirement already satisfied: pytz>=2017.2 in c:\users\merv merzoug\anaconda3\lib\site-packages (from pandas==0.25.1->modin) (2019.3)
Requirement already satisfied: python-dateutil>=2.6.1 in c:\users\merv merzoug\anaconda3\lib\site-packages (from …

Run Code Online (Sandbox Code Playgroud)

python-3.x pandas modin

Mer*_*oug

lucky-day

2
推荐指数

1
解决办法

3456
查看次数

str[0:z] 适用于 Pandas，但不适用于 modin：TypeError: 'StringMethods' object is not subscriptable

我在 Python 3.7 上运行 Spyder 并且是 modin 的新手。我想检索字符串中的第一个字符并保存到新列。当我用 Pandas 运行它时，它可以正常工作：

import pandas as pd
data = pd.read_csv('Path/data.csv', dtype=str, encoding='utf-8')
data['FL_x']=data['x'].str[0:3]

Run Code Online (Sandbox Code Playgroud)

但是当我用modin运行同样的代码时，我得到了错误：' TypeError: 'StringMethods' object is not subscriptable'

import modin.pandas as pd
#etc.

Run Code Online (Sandbox Code Playgroud)

我可以通过使用 str.get() 来解决这个问题：

data['FL_x']=data['x'].str.get(0) + data['x'].str.get(1) + data['x'].str.get(2)

Run Code Online (Sandbox Code Playgroud)

但是对于大量数据和检查许多第一个字符是非常耗时的。

有没有一种简单的方法可以像使用熊猫一样使用 modin 立即检索字符串中的前 z 个字符？

python typeerror pandas modin

pan*_*ini

lucky-day

1
推荐指数

1
解决办法

147
查看次数

Modin 加速 Pandas Apply 功能吗？

我试图在很多地方找到答案，但还没有得到直接的答案。modin Speedup 是否适用于数据帧？是否具有在 Dataframe 中并行化应用功能而不是逐行执行典型的智能？

或者

我们应该使用 Spark Dataframe 来加速应用功能吗？

抱歉，如果有简单的答案可用，我总是会得到关于 modin 阅读速度或某些功能的答案，很少适用。

python dataframe pandas modin

Har*_*sad

lucky-day

0
推荐指数

1
解决办法

451
查看次数

标签统计

modin ×8

pandas ×7

python ×5

python-3.x ×2

aws-lambda ×1

dask ×1

dataframe ×1

jupyter-notebook ×1

parallel-processing ×1

pyarrow ×1

ray ×1

typeerror ×1

标签 统计

标签统计