关于差异/比较,请参考使用LangChain和问答的具体文件

Cas*_*per 6 openai-api langchain py-langchain

我还没有找到有关基于多个文本文件的问答的文档,同时单独引用文本文件。

示例:我已经file1.txt通过了file20.txtfile1.txt是从 2023 年 4 月开始,file5.txt是从 2023 年 3 月开始。

给定两个文件,我希望 chatGPT 读取这两个文件并回答比较问题,例如:

“从 3 月份的文件到 4 月份的文件,关于 ___ 的情绪有何变化/进展?”
“两个文件在 ___ 的讨论方面有何不同?”
“每个文件中 ___ 被提及多少次?”

这是非工作代码,说明了我想要实现的目标:

from langchain.chains.qa_with_sources import load_qa_with_sources_chain
from langchain.llms import OpenAI

chain = load_qa_with_sources_chain(OpenAI(temperature=0), chain_type="stuff")
query = "How has sentiment regarding medical devices changed/progressed from March to April?"
docs = [March_file, April_file]
chain({"input_documents": docs, "question": query}, return_only_outputs=True)
Run Code Online (Sandbox Code Playgroud)

我遇到的问题:

  1. 分块 - langchain 的 QA 假设将您的所有个人文件分块为许多单独的、但仍然连续的块/ documents。然而,我的任务的性质需要分离文件,因为需要以某种方式通过不同的日期引用它们(并且仍然需要分块,因为文件很大)。

  2. 对特定文件的引用 - 文件很大(~12000 个标记),因此需要分块,但分块后,我需要能够调用特定日期的文档。当文件被分成许多 1000 个令牌块时,我该如何执行此操作?

目前解决这个问题最好的方法是什么?