在我的 Ubuntu 系统上,我安装了 Git LFS 和 Git,并克隆了一个存储库,其中一些文件由 Git LFS 管理。但是这些文件没有下载,除了标记文件。(在我检查文件大小之前,我没有意识到它们不是整个文件,因为它们在我的文件系统中以正确的名称显示在正确的位置。)
我从这个git lfs clone
已被弃用的答案中看到,git clone
应该可以正常工作。但是当我尝试这样做时,我感到困惑。我习惯于运行git clone https://foobar.git
并让它设置目录。但是 Git LFS 将无法工作,除非它已git lfs install
在每个使用它的目录中初始化。(这就是为什么这第一次不起作用,至少现在我知道了。)
所以我设置了目录,RANgit init
和git lfs install
它里面,然后跑去git clone https://foobar.git
。哪个将为嵌套在我创建的目录中的 repo 创建一个目录,不是吗?这在某种程度上似乎是错误的。
克隆这个 repo 需要几个小时,所以我想确信我做对了。查看GitHub上的文档,似乎说上述命令集是正确的 - 如果您阅读整篇文章。信息位由一千个字左右分隔。这是这样做的方式吗?
运行下面的代码下载一个模型 - 有谁知道它下载到哪个文件夹?
!pip install -q transformers
from transformers import pipeline
model = pipeline('fill-mask')
Run Code Online (Sandbox Code Playgroud) 我正在使用 llama-index 基于文档创建一个非常简单的问答应用程序。此前,我曾将其与 OpenAI 一起使用。现在我想尝试不使用外部 API,因此我尝试此链接中的Hugging Face 示例。
它在链接的示例中说:“请注意,为了获得完全私人的体验,还需要设置本地嵌入模型(此处的示例)。” 我假设下面给出的示例是所引用的示例。因此,很自然地,我尝试复制该示例(此处为更完整的示例)。
这是我的代码:
from pathlib import Path
import gradio as gr
import sys
import logging
import os
from llama_index.llms import HuggingFaceLLM
from llama_index.prompts.prompts import SimpleInputPrompt
logging.basicConfig(stream=sys.stdout, level=logging.DEBUG)
logging.getLogger().addHandler(logging.StreamHandler(stream=sys.stdout))
from llama_index import SimpleDirectoryReader, VectorStoreIndex, ServiceContext, load_index_from_storage, StorageContext
storage_path = "storage/"
docs_path="docs"
def construct_index(directory_path):
max_input_size = 4096
num_outputs = 512
#max_chunk_overlap = 20
chunk_overlap_ratio = 0.1
chunk_size_limit = 600
#prompt_helper = PromptHelper(max_input_size, num_outputs, chunk_overlap_ratio, chunk_size_limit=chunk_size_limit)
system_prompt = """<|SYSTEM|># StableLM Tuned …
Run Code Online (Sandbox Code Playgroud) python huggingface-transformers huggingface llama-index large-language-model
默认缓存目录磁盘容量不足,我需要更改默认缓存目录的配置。
我想在 Flask 应用程序中执行文本生成任务并将其托管在 Web 服务器上,但是在下载 GPT 模型时,弹性 beantalk 管理的 EC2 实例崩溃,因为下载需要太多时间和内存
from transformers.tokenization_openai import OpenAIGPTTokenizer
from transformers.modeling_tf_openai import TFOpenAIGPTLMHeadModel
model = TFOpenAIGPTLMHeadModel.from_pretrained("openai-gpt")
tokenizer = OpenAIGPTTokenizer.from_pretrained("openai-gpt")
Run Code Online (Sandbox Code Playgroud)
这些是导致问题的相关线路。GPT 大约为 445 MB。我正在使用变压器库。我没有在这一行下载模型,而是想知道是否可以对模型进行腌制,然后将其捆绑为存储库的一部分。这个图书馆可以吗?否则我如何预加载这个模型以避免我遇到的问题?
machine-learning transformer-model flask amazon-elastic-beanstalk huggingface-transformers