我正在使用 HuggingFace 转换器 AutoTokenizer 来标记小段文本。然而,这种标记化在单词中间错误地分割,并向标记引入了 # 字符。我尝试了几种不同的模型,但结果相同。
以下是一段文本以及根据该文本创建的标记的示例。
CTO at TLR Communications Pty Ltd
['[CLS]', 'CT', '##O', 'at', 'T', '##LR', 'Communications', 'P', '##ty', 'Ltd', '[SEP]']
Run Code Online (Sandbox Code Playgroud)
这是我用来生成令牌的代码
tokenizer = AutoTokenizer.from_pretrained("tokenizer_bert.json")
tokens = tokenizer.tokenize(tokenizer.decode(tokenizer.encode(sequence)))
Run Code Online (Sandbox Code Playgroud) 我已经将一个 csv 文件从 S3 下载到内存中,并使用 Boto3 和 Python 编辑了该文件。如何在不将其存储在本地的情况下将该文件重新上传到 S3?