构建 langchain 问答机器人并提供 python dash 应用程序。
错误:
torch.cuda.OutOfMemoryError:CUDA 内存不足。尝试分配 64.00 MiB(GPU 0;4.00 GiB 总容量;已分配 3.44 GiB;0 字节可用;PyTorch 总共保留 3.44 GiB)
如果保留内存是 >> 已分配内存,请尝试设置 max_split_size_mb 以避免碎片。请参阅内存管理和 PYTORCH_CUDA_ALLOC_CONF 的文档
在CPU上运行良好;尝试让 CUDA 发挥可扩展性。
我尝试过的:
PYTORCH_CUDA_ALLOC_CONF为 512mb。batch_size=1;.上述都没有解决问题。
vector_db = Chroma(
persist_directory = "",
embedding_function = HuggingFaceInstructEmbeddings(
model_name = "hkunlp/instructor-xl",
model_kwargs = {
"device": "cuda"
}))
llm = AzureOpenAI("",batch_size=1)
qa_chain = RetrievalQA.from_chain_type(
llm = llm, chain_type = "map_reduce",
retriever = vector_db.as_retriever(
search_kwargs = {
'k': 1 …Run Code Online (Sandbox Code Playgroud)