小编Cia*_*ran的帖子

变压器 AutoTokenizer.tokenize 引入额外字符

我正在使用 HuggingFace 转换器 AutoTokenizer 来标记小段文本。然而,这种标记化在单词中间错误地分割,并向标记引入了 # 字符。我尝试了几种不同的模型,但结果相同。

以下是一段文本以及根据该文本创建的标记的示例。

CTO at TLR Communications Pty Ltd
['[CLS]', 'CT', '##O', 'at', 'T', '##LR', 'Communications', 'P', '##ty', 'Ltd', '[SEP]']
Run Code Online (Sandbox Code Playgroud)

这是我用来生成令牌的代码

tokenizer = AutoTokenizer.from_pretrained("tokenizer_bert.json")
tokens = tokenizer.tokenize(tokenizer.decode(tokenizer.encode(sequence)))
Run Code Online (Sandbox Code Playgroud)

python huggingface-transformers huggingface-tokenizers

6
推荐指数
1
解决办法
1940
查看次数

将文件从内存上传到 S3

我已经将一个 csv 文件从 S3 下载到内存中,并使用 Boto3 和 Python 编辑了该文件。如何在不将其存储在本地的情况下将该文件重新上传到 S3?

python amazon-s3 amazon-web-services boto3

5
推荐指数
2
解决办法
4350
查看次数