2、LLM的演进之路

发表于2024-12-29更新于2024-12-29

阅读量: 长沙

2、LLM的演进之路

Twistzp2024-12-292024-12-29

1、大规模语言模型（LLM, Large Language Model）

基本定义：LLM 是通过在海量文本上进行无监督学习而得到的模型，能够从文本中学习到语言结构、词汇含义、上下文关系等知识。
代表模型：OpenAI 的 GPT 系列、Google 的 BERT、Meta 的 LLaMA 等都是 LLM 的典型代表。

2、GPT（Generative Pre-trained Transformer）

模型概述：GPT 属于预训练生成式 Transformer 模型，先利用海量文本进行无监督的语言模型训练，然后在特定任务上进行微调。
核心优势：
1. 依赖 Transformer 架构（见下文），具有并行计算的能力。
2. 通过自回归的方式生成文本，预测下一个词的概率分布。
3. 可迁移到各种下游任务，如文本分类、摘要生成、机器翻译等。

3、从 RNN 到 Transformer 的演进

3.1、RNN（循环神经网络）

工作方式：按序处理输入序列，每一步的输出依赖于先前的隐藏状态和当前输入。
缺点：
- 无法并行计算，因为下一步计算需要等待前一步完成。
- 对长序列的学习能力较弱，距离越远的词语依赖越难捕获。

3.2、LSTM（长短期记忆网络）

改进之处：在 RNN 的基础上通过“门控机制”（输入门、遗忘门、输出门）来保留或遗忘信息，缓解了梯度消失或爆炸问题。
不足之处：虽然改进了对长序列的记忆能力，但仍然无法并行处理序列。

3.3、Transformer

自注意力机制（Self-Attention）
- 能够在处理某个词时，不仅关注它本身，也关注序列中所有其他词，并根据训练学到的注意力权重来衡量词与词之间的关联强度。
- 解决了 RNN 中无法有效捕捉长距离依赖的问题。
位置编码（Positional Encoding）
- 自然语言是有序列性的。由于 Transformer 并行处理输入序列，需要在嵌入（Embedding）后加入位置信息，让模型理解每个词在句子中的位置，从而捕获顺序关系。
并行处理
- 不再像 RNN/LSTM 依次处理序列，而是可以一次性对整段序列同时进行处理，大幅提高训练速度与效率。
应用场景
- 机器翻译、文本摘要、问答系统等，多数自然语言处理任务都能通过 Transformer 架构取得效果提升。

4、主要差异与优势总结

RNN / LSTM：
- 顺序处理，难以并行
- 对远距离依赖捕捉能力不足
Transformer：
- 自注意力：同时关注序列中所有位置，捕捉长距离依赖
- 位置编码：显式引入词位置信息
- 高并行度：训练速度远高于 RNN/LSTM
LLM 依托 Transformer：
- 通过海量文本数据进行预训练，能够学习通用语言表示
- 在特定任务上微调（Fine-tune），在多数自然语言处理任务中取得领先表现

5、补充

Transformer 的多头注意力（Multi-Head Attention）
- 将注意力机制平行化为多个“头”，分别学习不同的子空间信息，增强模型对不同语义特征的捕捉能力。
预训练与微调流程
1. 预训练：在海量无标签文本上训练语言模型，使其学习到丰富的词汇与语义知识。
2. 微调：将预训练好的模型在特定任务（如文本分类、摘要、翻译等）上进行带有标签的数据训练。
未来趋势
- 模型参数规模将进一步扩大（如 GPT-4 等），能处理更多多模态（文本、图像、音频等）的数据。
- 探索更高效、更绿色的训练方案以降低能耗和成本。

[up主专用，视频内嵌代码贴在这]

Twistzp

传奇导购

原创 2、LLM的演进之路

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Twistzp！

评论

匿名评论隐私政策

✅ 你无需删除空行，直接评论以获取最佳展示效果