小编Cia*_*ran的帖子

我正在使用 HuggingFace 转换器 AutoTokenizer 来标记小段文本。然而，这种标记化在单词中间错误地分割，并向标记引入了 # 字符。我尝试了几种不同的模型，但结果相同。

以下是一段文本以及根据该文本创建的标记的示例。

CTO at TLR Communications Pty Ltd
['[CLS]', 'CT', '##O', 'at', 'T', '##LR', 'Communications', 'P', '##ty', 'Ltd', '[SEP]']

这是我用来生成令牌的代码

tokenizer = AutoTokenizer.from_pretrained("tokenizer_bert.json")
tokens = tokenizer.tokenize(tokenizer.decode(tokenizer.encode(sequence)))

6
推荐指数

1
解决办法

1940
查看次数

我已经将一个 csv 文件从 S3 下载到内存中，并使用 Boto3 和 Python 编辑了该文件。如何在不将其存储在本地的情况下将该文件重新上传到 S3？

5
推荐指数

2
解决办法

4350
查看次数

小编Cia_ran的帖子