Cas*_*per 6 openai-api langchain py-langchain
我还没有找到有关基于多个文本文件的问答的文档,同时单独引用文本文件。
示例:我已经file1.txt通过了file20.txt。
file1.txt是从 2023 年 4 月开始,file5.txt是从 2023 年 3 月开始。
给定两个文件,我希望 chatGPT 读取这两个文件并回答比较问题,例如:
“从 3 月份的文件到 4 月份的文件,关于 ___ 的情绪有何变化/进展?”
“两个文件在 ___ 的讨论方面有何不同?”
“每个文件中 ___ 被提及多少次?”
这是非工作代码,说明了我想要实现的目标:
from langchain.chains.qa_with_sources import load_qa_with_sources_chain
from langchain.llms import OpenAI
chain = load_qa_with_sources_chain(OpenAI(temperature=0), chain_type="stuff")
query = "How has sentiment regarding medical devices changed/progressed from March to April?"
docs = [March_file, April_file]
chain({"input_documents": docs, "question": query}, return_only_outputs=True)
Run Code Online (Sandbox Code Playgroud)
我遇到的问题:
分块 - langchain 的 QA 假设将您的所有个人文件分块为许多单独的、但仍然连续的块/ documents。然而,我的任务的性质需要分离文件,因为需要以某种方式通过不同的日期引用它们(并且仍然需要分块,因为文件很大)。
对特定文件的引用 - 文件很大(~12000 个标记),因此需要分块,但分块后,我需要能够调用特定日期的文档。当文件被分成许多 1000 个令牌块时,我该如何执行此操作?
目前解决这个问题最好的方法是什么?
| 归档时间: |
|
| 查看次数: |
958 次 |
| 最近记录: |