使用 API 上传 pdf 到 chat gpt?

Muh*_*ani 5 pdf openai-api chat-gpt-4

ChatGPT 的网络界面可以轻松上传 pdf 文件。openAI 有没有可以接收 pdf 的 API?

我知道有 3rd 方库可以读取 pdf,但考虑到 pdf 中有图像和其他重要信息,如果像 GPT 4 Turbo 这样的模型提供实际的 pdf 可能会更好。

我将陈述我的用例以添加更多上下文。我打算做RAG。这是我的pdf,这是提示。通常我会在提示末尾附加文本。如果我自己提取pdf文件,我仍然可以做到这一点。

这就是我应该做的吗?代码来自此处https://platform.openai.com/docs/assistants/tools/code-interpreter

# Upload a file with an "assistants" purpose
file = client.files.create(
  file=open("example.pdf", "rb"),
  purpose='assistants'
)

# Create an assistant using the file ID
assistant = client.beta.assistants.create(
  instructions="You are a personal math tutor. When asked a math question, write and run code to answer the question.",
  model="gpt-4-1106-preview",
  tools=[{"type": "code_interpreter"}],
  file_ids=[file.id]
)
Run Code Online (Sandbox Code Playgroud)

还有一个上传端点,但这些端点的目的似乎是用于微调和助手。我认为 RAG 用例是一个正常的用例,与助手没有必然关系。

Muh*_*ani 2

一种解决方案:将 pdf 转换为图像并将其作为多图像输入提供给视觉模型https://platform.openai.com/docs/guides/vision

具有视觉功能的 GPT-4 并不是一个在文本任务上表现较差的不同模型,因为它具有视觉功能,它只是添加了视觉功能的 GPT-4

由于其具有视觉功能的同一模型,这应该足以进行文本和图像分析。

您还可以选择从 pdf 中提取图像并分别提供这些图像以构建多模型架构。我偏向于第一个。理想情况下,应该进行实验来看看什么能产生更好的结果。

仅文本+仅图像 VS 图像(包含两者)

Pdf 到图像可以在本地用 python 完成,也可以将 img 与 pdf 分开。这并不是一项需要 openAI 这样的人支持的艰巨任务。