使用 API 上传 pdf 到 chat gpt？

Question

使用 API 上传 pdf 到 chat gpt？

ChatGPT 的网络界面可以轻松上传 pdf 文件。openAI 有没有可以接收 pdf 的 API？

我知道有 3rd 方库可以读取 pdf，但考虑到 pdf 中有图像和其他重要信息，如果像 GPT 4 Turbo 这样的模型提供实际的 pdf 可能会更好。

我将陈述我的用例以添加更多上下文。我打算做RAG。这是我的pdf，这是提示。通常我会在提示末尾附加文本。如果我自己提取pdf文件，我仍然可以做到这一点。

这就是我应该做的吗？代码来自此处https://platform.openai.com/docs/assistants/tools/code-interpreter

# Upload a file with an "assistants" purpose
file = client.files.create(
  file=open("example.pdf", "rb"),
  purpose='assistants'
)

# Create an assistant using the file ID
assistant = client.beta.assistants.create(
  instructions="You are a personal math tutor. When asked a math question, write and run code to answer the question.",
  model="gpt-4-1106-preview",
  tools=[{"type": "code_interpreter"}],
  file_ids=[file.id]
)

Run Code Online (Sandbox Code Playgroud)

还有一个上传端点，但这些端点的目的似乎是用于微调和助手。我认为 RAG 用例是一个正常的用例，与助手没有必然关系。

Answer 1

Muh*_*ani 2

一种解决方案：将 pdf 转换为图像并将其作为多图像输入提供给视觉模型https://platform.openai.com/docs/guides/vision。

具有视觉功能的 GPT-4 并不是一个在文本任务上表现较差的不同模型，因为它具有视觉功能，它只是添加了视觉功能的 GPT-4

由于其具有视觉功能的同一模型，这应该足以进行文本和图像分析。

您还可以选择从 pdf 中提取图像并分别提供这些图像以构建多模型架构。我偏向于第一个。理想情况下，应该进行实验来看看什么能产生更好的结果。

仅文本+仅图像 VS 图像（包含两者）

Pdf 到图像可以在本地用 python 完成，也可以将 img 与 pdf 分开。这并不是一项需要 openAI 这样的人支持的艰巨任务。

归档时间：	2 年，8 月前
查看次数：	8037 次
最近记录：	2 年，8 月前