Muh*_*ani 5 pdf openai-api chat-gpt-4
ChatGPT 的网络界面可以轻松上传 pdf 文件。openAI 有没有可以接收 pdf 的 API?
我知道有 3rd 方库可以读取 pdf,但考虑到 pdf 中有图像和其他重要信息,如果像 GPT 4 Turbo 这样的模型提供实际的 pdf 可能会更好。
我将陈述我的用例以添加更多上下文。我打算做RAG。这是我的pdf,这是提示。通常我会在提示末尾附加文本。如果我自己提取pdf文件,我仍然可以做到这一点。
这就是我应该做的吗?代码来自此处https://platform.openai.com/docs/assistants/tools/code-interpreter
# Upload a file with an "assistants" purpose
file = client.files.create(
file=open("example.pdf", "rb"),
purpose='assistants'
)
# Create an assistant using the file ID
assistant = client.beta.assistants.create(
instructions="You are a personal math tutor. When asked a math question, write and run code to answer the question.",
model="gpt-4-1106-preview",
tools=[{"type": "code_interpreter"}],
file_ids=[file.id]
)
Run Code Online (Sandbox Code Playgroud)
还有一个上传端点,但这些端点的目的似乎是用于微调和助手。我认为 RAG 用例是一个正常的用例,与助手没有必然关系。
一种解决方案:将 pdf 转换为图像并将其作为多图像输入提供给视觉模型https://platform.openai.com/docs/guides/vision。
具有视觉功能的 GPT-4 并不是一个在文本任务上表现较差的不同模型,因为它具有视觉功能,它只是添加了视觉功能的 GPT-4
由于其具有视觉功能的同一模型,这应该足以进行文本和图像分析。
您还可以选择从 pdf 中提取图像并分别提供这些图像以构建多模型架构。我偏向于第一个。理想情况下,应该进行实验来看看什么能产生更好的结果。
仅文本+仅图像 VS 图像(包含两者)
Pdf 到图像可以在本地用 python 完成,也可以将 img 与 pdf 分开。这并不是一项需要 openAI 这样的人支持的艰巨任务。
| 归档时间: |
|
| 查看次数: |
8037 次 |
| 最近记录: |