加载检查点分片花费的时间太长

Kha*_*eel 6 h2o huggingface-transformers huggingface-tokenizers huggingface llama

我对生成式人工智能非常陌生。我有 64GB RAM 和 20GB GPU。我使用了 Huggingface 的一些开源模型,并使用 Python 简单地用开箱即用的模型提示并显示结果。我使用将模型下载到本地save_pretrained,然后尝试从本地加载模型。有用。但每次运行 python 文件都需要 10 多分钟才能显示结果。

有一个步骤Loading checkpoint shards每次需要6-7分钟。我做错了什么吗?为什么它每次都必须加载一些东西,即使模型是从本地引用的。

我尝试使用local_files_only=True, cache_dir=cache_dir, low_cpu_mem_usage=True, max_shard_size="200MB",没有解决时间问题。

如何在用户可用的情况下直接提示已保存的模型而不需要太多延迟。任何帮助将不胜感激

小智 2

我遇到了完全相同的问题,我通过safe_serialization=True使用该save_pretrained()方法时的设置修复了它。希望这对你有用。但是,我确实想知道加载普通 .bin 格式的模型时发生了什么。