模型开源不止开源代码,主要是指开源参数
chatgpt参数信息
- GPT: 117M
- GPT-2: 1.5B
- GPT-3: 175B
以下模型信息来源于大模型刮起开源风!九款GPT4平替已开源!-
LLaMA(Meta)
MetaAI推出了大语言模型LLaMA,其不同版本包括70亿、130亿、330亿和650亿的参数,虽然比GPT3还小,但LLaMA在许多任务上的性能都能够追平甚至超越GPT3。
更值得注意的是,作为体量更小的模型,LLaMA不需要太多资源就能流畅运行,且LLaMA的训练成本及训练速度都要优于GPT3.5。
项目地址:/facebookresearch/llama
Alpaca(斯坦福大学)
通过Meta的LLaMA 70亿微调而成的全新模型,仅使用了52k数据,但其性能却基本达到了GPT3.5的水平。而Alpaca的关键优势则在于低到出奇的训练成本——仅需不到600美元。
斯坦福大学的研究人员表示,Alpaca表现出了许多类似于OpenAI的GPT3模型的行为,但相比于GPT3,Alpaca的体积更小且各项能力更易于重现。
开源了微调用到的数据集和代码,数据集包含了5.2万个由OpenAI API生成并人工筛选过后的问题-答案对
项目地址:/tatsu-lab/stanford_alpaca
Dolly2.0(Databricks)
Dolly2.0是业内第一个开源、指令跟随型LLM,其在透明免费的数据集上进行微调,可用于研究和商业用途。此外,Databricks还发布了Dolly 2.0在其上进行微调的数据集,称为databricks-dolly-15k。
Dolly2.0使用了基于 EleutherAI的Pythia模型家族中的120亿参数语言模型
项目链接:/databricks/dolly-v2-12b
BLOOM(Hugging Face)
BLOOM拥有1760亿参数,研究人员表示它提供了与GPT3模型相似的准确性和有毒文本生成水平。
作为目前体量最大的开源大型语言模型之一,BLOOM的训练集包含45种自然语言(含中文)和12种编程语言,1.5TB的预处理文本转化为了350B的唯一token
项目地址:/bigscience/bloom
MiniGPT4(阿卜杜拉国王科技大学)
MiniGPT可以用较少的数据和费用进行训练和微调。虽然由于模型发布较晚,该模型相关测评并未公布,但据GitHub显示,目前该研究团队已将MiniGPT的代码、预训练模型和数据集进行了开源。
支持图片解析
项目地址:/Vision-CAIR/MiniGPT-4
StableLM(Stability AI)
该模型的Alpha版本有30亿和70亿参数,后续还会推出150亿和650亿参数的版本。根据CC BY-SA-4.0许可证的条款,开发人员可以出于商业或研究目的*检查、使用和修改我们的StableLM基本模型
并且StableLM会抓取ChatGPT的输出内容,这会违反OpenAI的使用条款,OpenAI有权在收到通知后终止用户的访问。因此,在进行商用时,该模型依然存在一定的潜在风险。
项目地址:/Stability-AI/StableLM/issues
ChatYuan(元语智能)
hatYuan-large-v2支持在单张消费级显卡、PC甚至手机上进行推理使用。新版本支持中英双语、支持输入输出总长度最长4k,这也是继此前PromptCLUE-base、PromptCLUE- v1-5、ChatYuan-large-v1模型之后,元语智能的再一力作。
技术方面,ChatYuan-large-v2使用了和v1版本相同的方案,并在指令微调、人类反馈强化学习、思维链等方面进行了优化。作为ChatYuan系列模型中的代表,ChatYuan-large-v2仅通过7亿参数量可以实现业界100亿参数模型的基础效果。
项目地址:/clue-ai/ChatYuan
ChatGLM(清华大学)
ChatGLM是由清华技术成果转化的公司智谱AI开发的开源、支持中英双语的对话语言模型,基于General Language Model (GLM) 架构研发,拥有62亿参数,支持在单张消费级显卡上进行推理使用,在保障平民消费能力的情况下,具有小而精的特点。
ChatGLM当前版本模型的能力提升主要来源于独特的千亿基座模型GLM-130B。其不同于BERT、GPT-3以及T5架构,包含多目标函数的自回归预训练模型。研发团队参考了ChatGPT的设计思路,为ChatGLM在基座模型GLM-130B中注入了代码预训练,通过有监督微调等技术实现人类意图对齐。
从具体数据及测试表现来看,ChatGLM具备兼具双语能力;易微调、部署门槛低;支持长对话与应用以及内容输出格式简单等优势。但由于模型容量较小,ChatGLM也不可避免的存在着模型记忆和语言能力较弱;可能产生错误内容和多轮对话能力不足等一些缺点。
项目地址:/THUDM/ChatGLM-6B
万维天工系列模型
昆仑万维发布了昆仑天工系列模型并宣布模型开源,包括天工巧绘SkyPaint、天工乐府SkyMusic、天工妙笔SkyText、天工智码SkyCode,分别涉及AI图像、AI音乐、AI文本、AI编程方面,目前已经有中国移动、咪咕等企业测试使用。
而就在近日,昆仑万维再次发布了最新迭代升级的大语言模型天工3.5。据官方表示,天工3.5是第一个实现智能涌现的国产大语言模型,已“非常接近ChatGPT的智能水平”,可满足文案创作、问答、代码生成、逻辑推理与数理推算等需求。