标签: modin

Modin 之间的比较 | 达斯克 | 数据表| 用于并行处理和内存不足 csv 文件的 Pandas

Dask 的根本区别和主要用例是什么?莫丁 | 数据表

我检查了每个库的文档,它们似乎都为熊猫限制提供了“类似”的解决方案

python pandas dask modin

13
推荐指数
2
解决办法
4129
查看次数

modin 在 AWS Lambda 上有用吗

AWS Lambda 配备 6 个 vCPU。Modin for Pandas 承诺使用核心来提高处理效率。

这是否真的可以在 AWS Lambda 上实现,否则它不支持多线程、多处理等?

# import pandas as pd
import modin.pandas as pd
Run Code Online (Sandbox Code Playgroud)

pandas aws-lambda modin

8
推荐指数
1
解决办法
340
查看次数

在 Python 3.6 中导入库“modin”时出错

import modin.pandas as pd
Run Code Online (Sandbox Code Playgroud)

我正在 Windows 10 机器中导入 modin.pandas 库但出现错误

“AttributeError:模块‘ray’没有属性‘utils’”

安装 modin 库时遗漏了什么?

python python-3.x ray pandas modin

7
推荐指数
1
解决办法
743
查看次数

如何从 pyarrow 或 pandas 加载 modin 数据帧

由于 Modin 不支持从 s3 上的多个 pyarrow 文件加载,因此我使用 pyarrow 加载数据。


    import s3fs
    import modin.pandas as pd
    from pyarrow import parquet
    
    s3 = s3fs.S3FileSystem(
        key=aws_key,
        secret=aws_secret
    )

    table = parquet.ParquetDataset(
        path_or_paths="s3://bucket/path", 
        filesystem=s3,
    ).read(
        columns=["hotelId", "startDate", "endDate"]
    )

    # to get a pandas df the next step would be table.to_pandas()

Run Code Online (Sandbox Code Playgroud)

如果我知道想要将数据放入 Modin df 中进行并行计算,而不必写入 csv 或从 csv 中读取数据?有没有办法直接从 pyarrow.Table 或至少从 pandas 数据帧构建 Modin df ?

pyarrow modin

5
推荐指数
1
解决办法
968
查看次数

Modin 读取 CSV 的时间比 pandas 更多

我正在使用modin.pandas来缩放pandas以适应大型数据集。但是,当使用pd.read_csv加载 5 MB csv 数据集来比较和jupyter notebook的性能时,它会给出意外的执行时间。modin.pandaspandas

modin.pandas所花费的时间比pandas. 为什么?

代码-

import modin.pandas as mpd
df = mpd.read_csv(r"C:\Downloads\annual-enterprise-survey-2019-financial-year-provisional-csv.csv")

import pandas as pd
df = pd.read_csv(r"C:\Downloads\annual-enterprise-survey-2019-financial-year-provisional-csv.csv")
Run Code Online (Sandbox Code Playgroud)

是 CSV 文件的链接。我正在使用 modin 版本0.8.3和 pandas 版本1.1.5

输出截图-

Jupyter 笔记本输出

系统信息-

系统信息

编辑:我尝试使用 500 MB 的 CSV 文件,结果略有改善。modin现在和的执行时间pandas几乎相同。这是常见的吗?

python parallel-processing pandas jupyter-notebook modin

5
推荐指数
1
解决办法
2962
查看次数

无法完全安装和导入 Modin 包

我正在尝试使用该modin包来加速我的 Pandas 数据帧计算。简而言之,安装并不像pip install modin

当简单地运行时,pip install modin一切似乎都很顺利(pip 升级警告除外)。到目前为止一切都很好...

WARNING: You are using pip version 19.3; however, version 19.3.1 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.

(base) C:\Users\Merv Merzoug>pip install modin
Requirement already satisfied: modin in c:\users\merv merzoug\anaconda3\lib\site-packages (0.6.2)
Requirement already satisfied: pandas==0.25.1 in c:\users\merv merzoug\anaconda3\lib\site-packages (from modin) (0.25.1)
Requirement already satisfied: pytz>=2017.2 in c:\users\merv merzoug\anaconda3\lib\site-packages (from pandas==0.25.1->modin) (2019.3)
Requirement already satisfied: python-dateutil>=2.6.1 in c:\users\merv merzoug\anaconda3\lib\site-packages (from …
Run Code Online (Sandbox Code Playgroud)

python-3.x pandas modin

2
推荐指数
1
解决办法
3456
查看次数

str[0:z] 适用于 Pandas,但不适用于 modin:TypeError: 'StringMethods' object is not subscriptable

我在 Python 3.7 上运行 Spyder 并且是 modin 的新手。我想检索字符串中的第一个字符并保存到新列。当我用 Pandas 运行它时,它可以正常工作:

import pandas as pd
data = pd.read_csv('Path/data.csv', dtype=str, encoding='utf-8')
data['FL_x']=data['x'].str[0:3]
Run Code Online (Sandbox Code Playgroud)

但是当我用modin运行同样的代码时,我得到了错误:' TypeError: 'StringMethods' object is not subscriptable'

import modin.pandas as pd
#etc.
Run Code Online (Sandbox Code Playgroud)

我可以通过使用 str.get() 来解决这个问题:

data['FL_x']=data['x'].str.get(0) + data['x'].str.get(1) + data['x'].str.get(2)
Run Code Online (Sandbox Code Playgroud)

但是对于大量数据和检查许多第一个字符是非常耗时的。

有没有一种简单的方法可以像使用熊猫一样使用 modin 立即检索字符串中的前 z 个字符?

python typeerror pandas modin

1
推荐指数
1
解决办法
147
查看次数

Modin 加速 Pandas Apply 功能吗?

我试图在很多地方找到答案,但还没有得到直接的答案。modin Speedup 是否适用于数据帧?是否具有在 Dataframe 中并行化应用功能而不是逐行执行典型的智能?

或者

我们应该使用 Spark Dataframe 来加速应用功能吗?

抱歉,如果有简单的答案可用,我总是会得到关于 modin 阅读速度或某些功能的答案,很少适用。

python dataframe pandas modin

0
推荐指数
1
解决办法
451
查看次数