Dask 的根本区别和主要用例是什么?莫丁 | 数据表
我检查了每个库的文档,它们似乎都为熊猫限制提供了“类似”的解决方案
AWS Lambda 配备 6 个 vCPU。Modin for Pandas 承诺使用核心来提高处理效率。
这是否真的可以在 AWS Lambda 上实现,否则它不支持多线程、多处理等?
# import pandas as pd
import modin.pandas as pd
Run Code Online (Sandbox Code Playgroud) import modin.pandas as pd
Run Code Online (Sandbox Code Playgroud)
我正在 Windows 10 机器中导入 modin.pandas 库但出现错误
“AttributeError:模块‘ray’没有属性‘utils’”
安装 modin 库时遗漏了什么?
由于 Modin 不支持从 s3 上的多个 pyarrow 文件加载,因此我使用 pyarrow 加载数据。
import s3fs
import modin.pandas as pd
from pyarrow import parquet
s3 = s3fs.S3FileSystem(
key=aws_key,
secret=aws_secret
)
table = parquet.ParquetDataset(
path_or_paths="s3://bucket/path",
filesystem=s3,
).read(
columns=["hotelId", "startDate", "endDate"]
)
# to get a pandas df the next step would be table.to_pandas()
Run Code Online (Sandbox Code Playgroud)
如果我知道想要将数据放入 Modin df 中进行并行计算,而不必写入 csv 或从 csv 中读取数据?有没有办法直接从 pyarrow.Table 或至少从 pandas 数据帧构建 Modin df ?
我正在使用modin.pandas来缩放pandas以适应大型数据集。但是,当使用pd.read_csv加载 5 MB csv 数据集来比较和jupyter notebook的性能时,它会给出意外的执行时间。modin.pandaspandas
modin.pandas所花费的时间比pandas. 为什么?
代码-
import modin.pandas as mpd
df = mpd.read_csv(r"C:\Downloads\annual-enterprise-survey-2019-financial-year-provisional-csv.csv")
import pandas as pd
df = pd.read_csv(r"C:\Downloads\annual-enterprise-survey-2019-financial-year-provisional-csv.csv")
Run Code Online (Sandbox Code Playgroud)
这是 CSV 文件的链接。我正在使用 modin 版本0.8.3和 pandas 版本1.1.5。
输出截图-
系统信息-
编辑:我尝试使用 500 MB 的 CSV 文件,结果略有改善。modin现在和的执行时间pandas几乎相同。这是常见的吗?
我正在尝试使用该modin包来加速我的 Pandas 数据帧计算。简而言之,安装并不像pip install modin
当简单地运行时,pip install modin一切似乎都很顺利(pip 升级警告除外)。到目前为止一切都很好...
WARNING: You are using pip version 19.3; however, version 19.3.1 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.
(base) C:\Users\Merv Merzoug>pip install modin
Requirement already satisfied: modin in c:\users\merv merzoug\anaconda3\lib\site-packages (0.6.2)
Requirement already satisfied: pandas==0.25.1 in c:\users\merv merzoug\anaconda3\lib\site-packages (from modin) (0.25.1)
Requirement already satisfied: pytz>=2017.2 in c:\users\merv merzoug\anaconda3\lib\site-packages (from pandas==0.25.1->modin) (2019.3)
Requirement already satisfied: python-dateutil>=2.6.1 in c:\users\merv merzoug\anaconda3\lib\site-packages (from …Run Code Online (Sandbox Code Playgroud) 我在 Python 3.7 上运行 Spyder 并且是 modin 的新手。我想检索字符串中的第一个字符并保存到新列。当我用 Pandas 运行它时,它可以正常工作:
import pandas as pd
data = pd.read_csv('Path/data.csv', dtype=str, encoding='utf-8')
data['FL_x']=data['x'].str[0:3]
Run Code Online (Sandbox Code Playgroud)
但是当我用modin运行同样的代码时,我得到了错误:' TypeError: 'StringMethods' object is not subscriptable'
import modin.pandas as pd
#etc.
Run Code Online (Sandbox Code Playgroud)
我可以通过使用 str.get() 来解决这个问题:
data['FL_x']=data['x'].str.get(0) + data['x'].str.get(1) + data['x'].str.get(2)
Run Code Online (Sandbox Code Playgroud)
但是对于大量数据和检查许多第一个字符是非常耗时的。
有没有一种简单的方法可以像使用熊猫一样使用 modin 立即检索字符串中的前 z 个字符?
我试图在很多地方找到答案,但还没有得到直接的答案。modin Speedup 是否适用于数据帧?是否具有在 Dataframe 中并行化应用功能而不是逐行执行典型的智能?
或者
我们应该使用 Spark Dataframe 来加速应用功能吗?
抱歉,如果有简单的答案可用,我总是会得到关于 modin 阅读速度或某些功能的答案,很少适用。
modin ×8
pandas ×7
python ×5
python-3.x ×2
aws-lambda ×1
dask ×1
dataframe ×1
pyarrow ×1
ray ×1
typeerror ×1