开源大模型调研

模型开源不止开源代码，主要是指开源参数

chatgpt参数信息

GPT: 117M
GPT-2: 1.5B
GPT-3: 175B

以下模型信息来源于大模型刮起开源风！九款GPT4平替已开源！-

LLaMA（Meta）

MetaAI推出了大语言模型LLaMA，其不同版本包括70亿、130亿、330亿和650亿的参数，虽然比GPT3还小，但LLaMA在许多任务上的性能都能够追平甚至超越GPT3。

更值得注意的是，作为体量更小的模型，LLaMA不需要太多资源就能流畅运行，且LLaMA的训练成本及训练速度都要优于GPT3.5。

项目地址：/facebookresearch/llama

Alpaca（斯坦福大学）

通过Meta的LLaMA 70亿微调而成的全新模型，仅使用了52k数据，但其性能却基本达到了GPT3.5的水平。而Alpaca的关键优势则在于低到出奇的训练成本——仅需不到600美元。

斯坦福大学的研究人员表示，Alpaca表现出了许多类似于OpenAI的GPT3模型的行为，但相比于GPT3，Alpaca的体积更小且各项能力更易于重现。

开源了微调用到的数据集和代码，数据集包含了5.2万个由OpenAI API生成并人工筛选过后的问题-答案对

项目地址：/tatsu-lab/stanford_alpaca

Dolly2.0（Databricks）

Dolly2.0是业内第一个开源、指令跟随型LLM，其在透明免费的数据集上进行微调，可用于研究和商业用途。此外，Databricks还发布了Dolly 2.0在其上进行微调的数据集，称为databricks-dolly-15k。

Dolly2.0使用了基于 EleutherAI的Pythia模型家族中的120亿参数语言模型

项目链接：/databricks/dolly-v2-12b

BLOOM（Hugging Face）

BLOOM拥有1760亿参数，研究人员表示它提供了与GPT3模型相似的准确性和有毒文本生成水平。

作为目前体量最大的开源大型语言模型之一，BLOOM的训练集包含45种自然语言（含中文）和12种编程语言，1.5TB的预处理文本转化为了350B的唯一token

项目地址：/bigscience/bloom

MiniGPT4（阿卜杜拉国王科技大学）

MiniGPT可以用较少的数据和费用进行训练和微调。虽然由于模型发布较晚，该模型相关测评并未公布，但据GitHub显示，目前该研究团队已将MiniGPT的代码、预训练模型和数据集进行了开源。

支持图片解析

项目地址：/Vision-CAIR/MiniGPT-4

StableLM（Stability AI）

该模型的Alpha版本有30亿和70亿参数，后续还会推出150亿和650亿参数的版本。根据CC BY-SA-4.0许可证的条款，开发人员可以出于商业或研究目的*检查、使用和修改我们的StableLM基本模型

并且StableLM会抓取ChatGPT的输出内容，这会违反OpenAI的使用条款，OpenAI有权在收到通知后终止用户的访问。因此，在进行商用时，该模型依然存在一定的潜在风险。

项目地址：/Stability-AI/StableLM/issues

ChatYuan（元语智能）

hatYuan-large-v2支持在单张消费级显卡、PC甚至手机上进行推理使用。新版本支持中英双语、支持输入输出总长度最长4k，这也是继此前PromptCLUE-base、PromptCLUE- v1-5、ChatYuan-large-v1模型之后，元语智能的再一力作。

技术方面，ChatYuan-large-v2使用了和v1版本相同的方案，并在指令微调、人类反馈强化学习、思维链等方面进行了优化。作为ChatYuan系列模型中的代表，ChatYuan-large-v2仅通过7亿参数量可以实现业界100亿参数模型的基础效果。

项目地址：/clue-ai/ChatYuan

ChatGLM（清华大学）

ChatGLM是由清华技术成果转化的公司智谱AI开发的开源、支持中英双语的对话语言模型，基于General Language Model (GLM) 架构研发，拥有62亿参数，支持在单张消费级显卡上进行推理使用，在保障平民消费能力的情况下，具有小而精的特点。

ChatGLM当前版本模型的能力提升主要来源于独特的千亿基座模型GLM-130B。其不同于BERT、GPT-3以及T5架构，包含多目标函数的自回归预训练模型。研发团队参考了ChatGPT的设计思路，为ChatGLM在基座模型GLM-130B中注入了代码预训练，通过有监督微调等技术实现人类意图对齐。

从具体数据及测试表现来看，ChatGLM具备兼具双语能力；易微调、部署门槛低；支持长对话与应用以及内容输出格式简单等优势。但由于模型容量较小，ChatGLM也不可避免的存在着模型记忆和语言能力较弱；可能产生错误内容和多轮对话能力不足等一些缺点。

项目地址：/THUDM/ChatGLM-6B

万维天工系列模型

昆仑万维发布了昆仑天工系列模型并宣布模型开源，包括天工巧绘SkyPaint、天工乐府SkyMusic、天工妙笔SkyText、天工智码SkyCode，分别涉及AI图像、AI音乐、AI文本、AI编程方面，目前已经有中国移动、咪咕等企业测试使用。

而就在近日，昆仑万维再次发布了最新迭代升级的大语言模型天工3.5。据官方表示，天工3.5是第一个实现智能涌现的国产大语言模型，已“非常接近ChatGPT的智能水平”，可满足文案创作、问答、代码生成、逻辑推理与数理推算等需求。

秒客网