在数据集中,我有 5000000 行,我想在我的数据集中添加一个名为“嵌入”的列。
dataset = dataset.add_column('embeddings', embeddings)
变量embeddings是一个大小为 (5000000, 512) 的 numpy memmap 数组。
但我收到这个错误:
ArrowInvalidTraceback(最近一次调用最后一次)位于 ----> 1 dataset = dataset.add_column('embeddings', embeddings)
/opt/conda/lib/python3.8/site-packages/datasets/arrow_dataset.py inwrapper(*args, **kwargs) 486 } 487 # 应用实际函数 --> 488 out: Union["Dataset", " DatasetDict"] = func(self, *args, **kwargs) 489 数据集: List["Dataset"] = list(out.values()) if isinstance(out, dict) else [out] 490 # 重新应用格式到输出
/opt/conda/lib/python3.8/site-packages/datasets/fingerprint.py inwrapper(*args, **kwargs) 404 # 调用实际函数 405 --> 406 out = func(self, *args, * *kwargs) 407 408 # 更新就地变换的指纹+更新就地变换的历史记录
/opt/conda/lib/python3.8/site-packages/datasets/arrow_dataset.py in add_column(self, name, column, new_fingerprint) …
我正在尝试使用这个正则表达式
art\..*[A-Z].*\s
Run Code Online (Sandbox Code Playgroud)
在此处提取粗体文本
一些文字 bla艺术。100 个重要文本其他文本 bla
基本上,我想提取遵循此模式的所有文本:
*art.* *number* *whatever* *first word that starts in uppercase*
Run Code Online (Sandbox Code Playgroud)
但它没有按预期工作。有什么建议吗?