开源大模型调研

时间:2024-10-04 12:15:50

模型开源不止开源代码,主要是指开源参数

chatgpt参数信息

  • GPT: 117M
  • GPT-2: 1.5B
  • GPT-3: 175B

以下模型信息来源于大模型刮起开源风!九款GPT4平替已开源!-

LLaMA(Meta)

MetaAI推出了大语言模型LLaMA,其不同版本包括70亿、130亿、330亿和650亿的参数,虽然比GPT3还小,但LLaMA在许多任务上的性能都能够追平甚至超越GPT3。

更值得注意的是,作为体量更小的模型,LLaMA不需要太多资源就能流畅运行,且LLaMA的训练成本及训练速度都要优于GPT3.5。

项目地址:/facebookresearch/llama

Alpaca(斯坦福大学)

通过Meta的LLaMA 70亿微调而成的全新模型,仅使用了52k数据,但其性能却基本达到了GPT3.5的水平。而Alpaca的关键优势则在于低到出奇的训练成本——仅需不到600美元。

斯坦福大学的研究人员表示,Alpaca表现出了许多类似于OpenAI的GPT3模型的行为,但相比于GPT3,Alpaca的体积更小且各项能力更易于重现。

开源了微调用到的数据集和代码,数据集包含了5.2万个由OpenAI API生成并人工筛选过后的问题-答案对

项目地址:/tatsu-lab/stanford_alpaca

Dolly2.0(Databricks)

Dolly2.0是业内第一个开源、指令跟随型LLM,其在透明免费的数据集上进行微调,可用于研究和商业用途。此外,Databricks还发布了Dolly 2.0在其上进行微调的数据集,称为databricks-dolly-15k。

Dolly2.0使用了基于 EleutherAI的Pythia模型家族中的120亿参数语言模型

项目链接:/databricks/dolly-v2-12b

BLOOM(Hugging Face)

BLOOM拥有1760亿参数,研究人员表示它提供了与GPT3模型相似的准确性和有毒文本生成水平。

作为目前体量最大的开源大型语言模型之一,BLOOM的训练集包含45种自然语言(含中文)和12种编程语言,1.5TB的预处理文本转化为了350B的唯一token

项目地址:/bigscience/bloom

MiniGPT4(阿卜杜拉国王科技大学)

MiniGPT可以用较少的数据和费用进行训练和微调。虽然由于模型发布较晚,该模型相关测评并未公布,但据GitHub显示,目前该研究团队已将MiniGPT的代码、预训练模型和数据集进行了开源。

支持图片解析

项目地址:/Vision-CAIR/MiniGPT-4

StableLM(Stability AI)

该模型的Alpha版本有30亿和70亿参数,后续还会推出150亿和650亿参数的版本。根据CC BY-SA-4.0许可证的条款,开发人员可以出于商业或研究目的*检查、使用和修改我们的StableLM基本模型

并且StableLM会抓取ChatGPT的输出内容,这会违反OpenAI的使用条款,OpenAI有权在收到通知后终止用户的访问。因此,在进行商用时,该模型依然存在一定的潜在风险。

项目地址:/Stability-AI/StableLM/issues

ChatYuan(元语智能)

hatYuan-large-v2支持在单张消费级显卡、PC甚至手机上进行推理使用。新版本支持中英双语、支持输入输出总长度最长4k,这也是继此前PromptCLUE-base、PromptCLUE- v1-5、ChatYuan-large-v1模型之后,元语智能的再一力作。

技术方面,ChatYuan-large-v2使用了和v1版本相同的方案,并在指令微调、人类反馈强化学习、思维链等方面进行了优化。作为ChatYuan系列模型中的代表,ChatYuan-large-v2仅通过7亿参数量可以实现业界100亿参数模型的基础效果。

项目地址:/clue-ai/ChatYuan

ChatGLM(清华大学)

ChatGLM是由清华技术成果转化的公司智谱AI开发的开源、支持中英双语的对话语言模型,基于General Language Model (GLM) 架构研发,拥有62亿参数,支持在单张消费级显卡上进行推理使用,在保障平民消费能力的情况下,具有小而精的特点。

ChatGLM当前版本模型的能力提升主要来源于独特的千亿基座模型GLM-130B。其不同于BERT、GPT-3以及T5架构,包含多目标函数的自回归预训练模型。研发团队参考了ChatGPT的设计思路,为ChatGLM在基座模型GLM-130B中注入了代码预训练,通过有监督微调等技术实现人类意图对齐。

从具体数据及测试表现来看,ChatGLM具备兼具双语能力;易微调、部署门槛低;支持长对话与应用以及内容输出格式简单等优势。但由于模型容量较小,ChatGLM也不可避免的存在着模型记忆和语言能力较弱;可能产生错误内容和多轮对话能力不足等一些缺点。

项目地址:/THUDM/ChatGLM-6B

万维天工系列模型

昆仑万维发布了昆仑天工系列模型并宣布模型开源,包括天工巧绘SkyPaint、天工乐府SkyMusic、天工妙笔SkyText、天工智码SkyCode,分别涉及AI图像、AI音乐、AI文本、AI编程方面,目前已经有中国移动、咪咕等企业测试使用。

而就在近日,昆仑万维再次发布了最新迭代升级的大语言模型天工3.5。据官方表示,天工3.5是第一个实现智能涌现的国产大语言模型,已“非常接近ChatGPT的智能水平”,可满足文案创作、问答、代码生成、逻辑推理与数理推算等需求。