小编Ulv*_*ade的帖子

我应该如何将 BM25Okapi 对象值保存到文件中？

我们正在从事信息检索任务，由于查询，我们需要对研究论文进行排名。

清理数据并创建数据框后，我们对纸质文本进行了标记化，需要将结果保存到文件中。

import sys
#tokenized_corpus = [doc.split(" ") for doc in corpus]

corpus = list(df.body_text)

tokenized_corpus1 = [doc.split(" ") for doc in corpus[:20000]]
tokenized_corpus2 = [doc.split(" ") for doc in corpus[20000:40000]]
#tokenized_corpus3 = [doc.split(" ") for doc in corpus[40000:]]

tokenized_corpus = tokenized_corpus1 + tokenized_corpus2 # + tokenized_corpus3

Run Code Online (Sandbox Code Playgroud)

上面的单元格创建标记化的语料库。

with open('file.csv', 'w', newline='', encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerows(tokenized_corpus)

Run Code Online (Sandbox Code Playgroud)

然后我们将数据保存到 .csv 文件。

之后，我们调用 BM25Okapi 方法

bm25 = BM25Okapi(tokenized_corpus)

Run Code Online (Sandbox Code Playgroud)

由于这一步需要太多时间并消耗千兆字节的内存（导致频繁错误），我们希望保存结果，这样我们就不需要每次都调用函数。

为了检索结果，我们使用了以下步骤。

query = "coronavirus origin"
tokenized_query = query.split(" ")

doc_scores = …

Run Code Online (Sandbox Code Playgroud)

python information-retrieval artificial-intelligence ranking

Ulv*_*ade

lucky-day

5
推荐指数

1
解决办法

96
查看次数

标签统计

artificial-intelligence ×1

information-retrieval ×1

python ×1

ranking ×1

我应该如何将 BM25Okapi 对象值保存到文件中？

标签 统计

小编Ulv_ade的帖子

标签统计