上下文:我正在尝试查询 Llama-2 7B,取自 HuggingFace (meta-llama/Llama-2-7b-hf)。我给它一个问题和上下文(我猜有 200-1000 个标记),并要求它根据上下文回答问题(上下文是使用相似性搜索从向量存储中检索的)。这是我的两个问题:
max_new_tokens都是换行符。或者它只是不生成任何文本,整个响应都是换行符。添加repetition_penalty1.1 或更高版本已经解决了无限换行生成问题,但没有给我完整的答案。repetition_penalty=1.1,并且重复惩罚太高会使答案变得毫无意义。我只尝试过使用temperature=0.4和temperature=0.8,但从我所做的来看,调整温度 和repetition_penalty都会导致上下文被复制或产生无意义的答案。
请注意“上下文”:我正在使用存储在 Chroma 矢量存储中的文档,相似性搜索会在将其传递给 Llama 之前检索相关信息。
示例问题: 我的查询是总结某个主题 X。
query = "Summarize Topic X"
Run Code Online (Sandbox Code Playgroud)
从向量存储中检索到的上下文有 3 个源,看起来像这样(我将查询中的源格式化为以换行符分隔的 LLM):
context = """When talking about Topic X, Scenario Y is always referred to. This is due to the relation of
Topic X is a broad topic which covers many aspects of life.
No one knows when …Run Code Online (Sandbox Code Playgroud) python artificial-intelligence huggingface-transformers large-language-model