小编alb*_*ero的帖子

向 HuggingFace 数据集添加新列

在数据集中,我有 5000000 行,我想在我的数据集中添加一个名为“嵌入”的列。

dataset = dataset.add_column('embeddings', embeddings)

变量embeddings是一个大小为 (5000000, 512) 的 numpy memmap 数组。

但我收到这个错误:

ArrowInvalidTraceback(最近一次调用最后一次)位于 ----> 1 dataset = dataset.add_column('embeddings', embeddings)

/opt/conda/lib/python3.8/site-packages/datasets/arrow_dataset.py inwrapper(*args, **kwargs) 486 } 487 # 应用实际函数 --> 488 out: Union["Dataset", " DatasetDict"] = func(self, *args, **kwargs) 489 数据集: List["Dataset"] = list(out.values()) if isinstance(out, dict) else [out] 490 # 重新应用格式到输出

/opt/conda/lib/python3.8/site-packages/datasets/fingerprint.py inwrapper(*args, **kwargs) 404 # 调用实际函数 405 --> 406 out = func(self, *args, * *kwargs) 407 408 # 更新就地变换的指纹+更新就地变换的历史记录

/opt/conda/lib/python3.8/site-packages/datasets/arrow_dataset.py in add_column(self, name, column, new_fingerprint) …

python numpy word-embedding pyarrow huggingface-datasets

8
推荐指数
1
解决办法
4795
查看次数

在正则表达式中遗漏了什么?

我正在尝试使用这个正则表达式

art\..*[A-Z].*\s
Run Code Online (Sandbox Code Playgroud)

在此处提取粗体文本

一些文字 bla艺术。100 个重要文本其他文本 bla

基本上,我想提取遵循此模式的所有文本:

*art.* *number* *whatever* *first word that starts in uppercase*
Run Code Online (Sandbox Code Playgroud)

但它没有按预期工作。有什么建议吗?

python regex

1
推荐指数
1
解决办法
52
查看次数