小编alb*_*ero的帖子

向 HuggingFace 数据集添加新列

在数据集中，我有 5000000 行，我想在我的数据集中添加一个名为“嵌入”的列。

dataset = dataset.add_column('embeddings', embeddings)

变量embeddings是一个大小为 (5000000, 512) 的 numpy memmap 数组。

但我收到这个错误：

ArrowInvalidTraceback（最近一次调用最后一次）位于 ----> 1 dataset = dataset.add_column('embeddings', embeddings)

/opt/conda/lib/python3.8/site-packages/datasets/arrow_dataset.py inwrapper(*args, **kwargs) 486 } 487 # 应用实际函数 --> 488 out: Union["Dataset", " DatasetDict"] = func(self, *args, **kwargs) 489 数据集: List["Dataset"] = list(out.values()) if isinstance(out, dict) else [out] 490 # 重新应用格式到输出

/opt/conda/lib/python3.8/site-packages/datasets/fingerprint.py inwrapper(*args, **kwargs) 404 # 调用实际函数 405 --> 406 out = func(self, *args, * *kwargs) 407 408 # 更新就地变换的指纹+更新就地变换的历史记录

/opt/conda/lib/python3.8/site-packages/datasets/arrow_dataset.py in add_column(self, name, column, new_fingerprint) …

python numpy word-embedding pyarrow huggingface-datasets

alb*_*ero

lucky-day

8
推荐指数

1
解决办法

4795
查看次数

在正则表达式中遗漏了什么？

我正在尝试使用这个正则表达式

art\..*[A-Z].*\s

Run Code Online (Sandbox Code Playgroud)

在此处提取粗体文本

一些文字 bla艺术。100 个重要文本其他文本 bla

基本上，我想提取遵循此模式的所有文本：

*art.* *number* *whatever* *first word that starts in uppercase*

Run Code Online (Sandbox Code Playgroud)

但它没有按预期工作。有什么建议吗？

python regex

alb*_*ero

lucky-day

1
推荐指数

1
解决办法

52
查看次数

标签统计

python ×2

huggingface-datasets ×1

numpy ×1

pyarrow ×1

regex ×1

word-embedding ×1

向 HuggingFace 数据集添加新列

在正则表达式中遗漏了什么？

标签 统计

小编alb_ero的帖子

标签统计