2、LLM的演进之路
2、LLM的演进之路
Twistzp1、大规模语言模型(LLM, Large Language Model)
- 基本定义:LLM 是通过在海量文本上进行无监督学习而得到的模型,能够从文本中学习到语言结构、词汇含义、上下文关系等知识。
- 代表模型:OpenAI 的 GPT 系列、Google 的 BERT、Meta 的 LLaMA 等都是 LLM 的典型代表。
2、GPT(Generative Pre-trained Transformer)
- 模型概述:GPT 属于预训练生成式 Transformer 模型,先利用海量文本进行无监督的语言模型训练,然后在特定任务上进行微调。
- 核心优势:
- 依赖 Transformer 架构(见下文),具有并行计算的能力。
- 通过自回归的方式生成文本,预测下一个词的概率分布。
- 可迁移到各种下游任务,如文本分类、摘要生成、机器翻译等。
3、从 RNN 到 Transformer 的演进
3.1、RNN(循环神经网络)
- 工作方式:按序处理输入序列,每一步的输出依赖于先前的隐藏状态和当前输入。
- 缺点:
- 无法并行计算,因为下一步计算需要等待前一步完成。
- 对长序列的学习能力较弱,距离越远的词语依赖越难捕获。
3.2、LSTM(长短期记忆网络)
- 改进之处:在 RNN 的基础上通过“门控机制”(输入门、遗忘门、输出门)来保留或遗忘信息,缓解了梯度消失或爆炸问题。
- 不足之处:虽然改进了对长序列的记忆能力,但仍然无法并行处理序列。
3.3、Transformer
- 自注意力机制(Self-Attention)
- 能够在处理某个词时,不仅关注它本身,也关注序列中所有其他词,并根据训练学到的注意力权重来衡量词与词之间的关联强度。
- 解决了 RNN 中无法有效捕捉长距离依赖的问题。
- 位置编码(Positional Encoding)
- 自然语言是有序列性的。由于 Transformer 并行处理输入序列,需要在嵌入(Embedding)后加入位置信息,让模型理解每个词在句子中的位置,从而捕获顺序关系。
- 并行处理
- 不再像 RNN/LSTM 依次处理序列,而是可以一次性对整段序列同时进行处理,大幅提高训练速度与效率。
- 应用场景
- 机器翻译、文本摘要、问答系统等,多数自然语言处理任务都能通过 Transformer 架构取得效果提升。
4、主要差异与优势总结
- RNN / LSTM:
- 顺序处理,难以并行
- 对远距离依赖捕捉能力不足
- Transformer:
- 自注意力:同时关注序列中所有位置,捕捉长距离依赖
- 位置编码:显式引入词位置信息
- 高并行度:训练速度远高于 RNN/LSTM
- LLM 依托 Transformer:
- 通过海量文本数据进行预训练,能够学习通用语言表示
- 在特定任务上微调(Fine-tune),在多数自然语言处理任务中取得领先表现
5、补充
- Transformer 的多头注意力(Multi-Head Attention)
- 将注意力机制平行化为多个“头”,分别学习不同的子空间信息,增强模型对不同语义特征的捕捉能力。
- 预训练与微调流程
- 预训练:在海量无标签文本上训练语言模型,使其学习到丰富的词汇与语义知识。
- 微调:将预训练好的模型在特定任务(如文本分类、摘要、翻译等)上进行带有标签的数据训练。
- 未来趋势
- 模型参数规模将进一步扩大(如 GPT-4 等),能处理更多多模态(文本、图像、音频等)的数据。
- 探索更高效、更绿色的训练方案以降低能耗和成本。
[up主专用,视频内嵌代码贴在这]
评论
匿名评论隐私政策
✅ 你无需删除空行,直接评论以获取最佳展示效果