我对 Python 比较陌生,在使用 Hugging Face Transformers 对相对较大的数据集进行情感分析时面临一些性能问题。我创建了一个包含 6000 行西班牙语文本数据的 DataFrame,并将情感分析管道应用于每行文本。这是我的代码的简化版本:
import pandas as pd
import torch
from tqdm import tqdm
from transformers import pipeline
data = {
'TD': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
'text': [
# ... (your text data here)
]
}
df_model = pd.DataFrame(data)
device = 0 if torch.cuda.is_available() else -1
py_sentimiento = pipeline("sentiment-analysis", model="finiteautomata/beto-sentiment-analysis", tokenizer="finiteautomata/beto-sentiment-analysis", device=device, truncation=True)
tqdm.pandas()
df_model['py_sentimiento'] = df_model['text'].progress_apply(py_sentimiento)
df_model['py_sentimiento'] = df_model['py_sentimiento'].apply(lambda x: x[0]['label'])
Run Code Online (Sandbox Code Playgroud)
但是,我遇到了一条警告消息,建议我应该使用数据集进行更有效的处理。警告信息如下:
"You seem to be using …Run Code Online (Sandbox Code Playgroud) .xlsx我正在尝试从具有以下路径的网络目录中读取多个文件:
\\181.01.2\Global_Office_Net\Accounting
该文件夹内还有其他几个文件夹(大约 15 个),每个文件夹中都有几个文件,但每个文件夹都有一个名称.xlsx以“overall_counts_123”开头的文件,“123”可以是任何数字,但名称除外文件始终以“overall_counts”开头,我的目标是将所有文件上传到 Rstudio 并使用标签“file1”、“file2”等重命名它们,如果我不清楚,请让我举个例子:
如果目录中有 3 个文件夹,并且每个文件夹都有以“overall_counts”开头的“n”个文件,我只想得到如下内容:
\\181.01.2\Global_Office_Net\Accounting\folder1\overall_counts1.xlsx
\\181.01.2\Global_Office_Net\Accounting\folder2\overall_counts1.xlsx
\\181.01.2\Global_Office_Net\Accounting\folder2\overall_counts15.xlsx
\\181.01.2\Global_Office_Net\Accounting\folder3\overall_counts1008.xlsx
Run Code Online (Sandbox Code Playgroud)
我正在使用这段代码:
file_paths<-fs::dir_ls("\\181.01.2\Global_Office_Net\Accounting")
FILES<-file_paths %>%
map(function(path){
read_xlsx(path)})
Run Code Online (Sandbox Code Playgroud)
但是,不是在每个文件夹中查找以“overall_counts”开头的文件,而是上传所有内容并以某种方式列出它们......当我真正寻找的是将每个所需的文件上传为 file2、file2 等时在单独的数据框中,如果您能参考一篇关于如何根据文件名标准上传文件并单独上传的文章,我将非常感激,非常感谢你们,我真的欠你们这个