书生·浦语大模型全链路开源体系 | shmaur

shmaur

2024-06-02

- 字

书生

专用模型：针对特定任务，一个模型解决一个问题

通用大模型：一个模型对应多种任务、多种模态。

书生浦语2.0的体系包含三个模型版本

InternLM2-Base：高质量和具有很强可塑性的模型基座，是模型进行深度领域适配的高质量起点。

InternLM2：在Base基础上，在多个能力方向进行了强化，在测评中成绩优异，同时保持了很好的通用语言能力，是推荐的大部分应用中考虑选用的基座

InterLM2-Chat：在Base的基础上，经过SFT和RLHF，面向对话交互进行优化，具有很好的指令遵循、公顷聊天和调用工具等能力。

回归语言建模的本质

多维度数据价值评估，基于文本质量、信息质量、信息密度等维度对数据价值进行综合评估

书生浦语2.0的主要亮点

超长上下文：模型在20万的token上下文中，几乎完美实现”大海捞针“

综合性能全面提升：推理、数学、代码提升显著

优秀的对话和创作体验：精准指令跟随、丰富的结构化创作，在AlpacaEval2超越GPT-3.5和Gemini Pro

工具调用能力整体升级：可靠支持工具多轮调用，复杂智能体搭建.

突出的数理能力和使用的数据分析

从模型到应用的流程

书生浦语全链条开源开放体系

数据：2TB数据，涵盖多种模态与任务

预训练：InterLM-Train，并行训练，极致优化

微调：XTuner，支持全参数微调，支持LoRA等低成本微调

部署：LMDeploy，全链路部署，每秒生成2000+ tokens

评测：OpenCompass，性能可浮现100套评测级，50w的题目

应用：LagentAgentLego，支持多种智能体，支持代码解释器多种工具

开放高质量语料数据

书生万卷1.0总数据量有2TB，符合中国价值观的中文语料；数据构成主要包括文本数据5个亿文档，数据量超1T；图像-文本数据集，超2200w个文件，数据量超140G；视频数据：超2200w个文件，数据量超140GB；

书生万卷CC总数据量有400GB，时间跨度长，横跨2013-2023年互联网公开内容；来源丰富，从90个dumps的1300亿原始数据中萃取1.38%内容；安全密度高：唯一在毒性、色情和个人隐私都进行安全加固处理。

预训练

高可扩展：支持从8卡到千卡训练，千卡加速效率达92%

极致性能优化：hybrid zero 独特技术 + 极致优化，加速50%

兼容主流：支持HuggingFace等技术生态，支持各类轻量化技术。

开箱即用：支持多种规格语言模型，修改配置即可训练

微调

大语言模型的下游应用中，增量续训和有监督微调是经常用到的两种方式。

增量续训

使用场景：让基座模型学习到一些新的知识，比如某个垂直领域知识；

训练数据：文章、书籍、代码等

有监督微调

使用场景：让模型学会理解各种指令进行对话，或者注入少量领域知识

训练数据：高质量对话、问答数据

Xtuner 支持多种微调算法、使用多种开源生态、自动优化加速；训练方案覆盖NVIDIA 20 系以上所有显卡，最低下只需8G显存就可以微调7B模型。

评测

CompassRank：性能榜单

CompassKit：大模型评测全站工具链

包含数据污染检查，模型推理借入、长文本能力评测、中英文双语主观评测

CompassHub：评测基准社区

OpenCompass ：获得Meta官方推荐唯一国产大模型评测体系

部署

LMDeploy：提供大模型在GPU上部署的全流程解决方案，包括轻量化、推理和服务。

智能体

轻量级智能体框架Lagent

多模态智能体工具箱 AgentLego

总结

整体听下来，让大模型能够简单化，快速入门；另外从数据预处理到微调在到评测全链路有了一个新的体系认知，希望后面这些工具能够更加的简单化，去编程化，人人均能够快速训练自己垂直领域的模型。

“您的支持是我持续分享的动力”

微信

支付宝