Meta刚刚发布了LLaMa 2,这是迄今为止ChatGPT最强大的开源竞争对手🤯
10种快速使用Llama2的方法
它的商业使用是免费的。对于开源社区来说,这是一个令人兴奋的新篇章!以下是10种快速使用的方法
-
Perplexity AI https://llama.perplexity.ai/
-
Vercel AI SDK Playground
https://sdk.vercel.ai/s/EkDy2iN- 同时支持Llama 2, Claude 2, gpt-3.5-turbo, and gpt-4
- some Playground: http://llama2.ai Live chat API here: https://replicate.com/a16z-infra/llama13b-v2-chat
-
lmsys Chatbot Arena
Llama 2 、 Claude 2 在线测试: https://huggingface.co/spaces/lmsys/Chat-and-Battle-with-Open-LLMs ! -
LangChain包装使用本地Llama2 Llama-cpp https://python.langchain.com/docs/modules/model_io/models/llms/integrations/llamacpp Llama-2-7B-GGML https://huggingface.co/TheBloke/Llama-2-7B-GGML
-
通过 Inference Endpoints 一键部署属于自己的Llama2 聊天接口 7B:https: //ui.endpoints.huggingface.co/new?repository =meta-llama/Llama-2-7b-chat-hf
13B:https: //ui.endpoints.huggingface.co/new?repository = meta-llama/Llama-2-13b-chat-hf
70B:https: //ui.endpoints.huggingface.co/new?repository =meta-llama/Llama-2-70b-chat-hf -
Hugging Face transformers 方式 https://huggingface.co/blog/llama2#inference
在 Transformers版本 4.31中https://github.com/huggingface/transformers/releases/tag/v4.31.0 ,已经可以使用 Llama 2 并利用 HF 生态系统中的所有工具,例如: - 训练和推理脚本和示例 - 安全文件格式 ( safetensors) - 与bitsandbytes(4位量化)和PEFT(参数高效微调)等工具集成 - 使用模型运行生成的实用程序和助手 - 导出模型以进行部署的机制
``` from transformers import AutoTokenizer import transformers import torch
model = "meta-llama/Llama-2-7b-chat-hf"
tokenizer = AutoTokenizer.from_pretrained(model) pipeline = transformers.pipeline( "text-generation", model=model, torch_dtype=torch.float16, device_map="auto", )
sequences = pipeline( 'I liked "Breaking Bad" and "Band of Brothers". Do you have any recommendations of other shows I might like?\n', do_sample=True, top_k=10, num_return_sequences=1, eos_token_id=tokenizer.eos_token_id, max_length=200, ) for seq in sequences: print(f"Result: {seq['generated_text']}")
```
-
Azure用户可以直接在Azure上部署7B、13B 和 70B 参数的 Llama 2 模型。
-
MacBook上部署GPU推理 https://gist.github.com/adrienbrault/ https://huggingface.co/TheBloke/Llama-2-13B-chat-GGML/blob/main/llama-2-13b-chat.ggmlv3.q4_0.bin
- 断网在iPhone, iPad上跑 Llama2在 iPhone、iPad上原生运行,具有 GPU 加速功能。不需要互联网连接。 https://mlc.ai/mlc-llm/docs/get_started/try_out.html
微调Llama2
- https://huggingface.co/docs/trl/main/en/lora_tuning_peft#finetuning-llama2-model