2、LLM的演进之路

1、大规模语言模型(LLM, Large Language Model)

  • 基本定义:LLM 是通过在海量文本上进行无监督学习而得到的模型,能够从文本中学习到语言结构、词汇含义、上下文关系等知识。
  • 代表模型:OpenAI 的 GPT 系列、Google 的 BERT、Meta 的 LLaMA 等都是 LLM 的典型代表。

2、GPT(Generative Pre-trained Transformer)

  • 模型概述:GPT 属于预训练生成式 Transformer 模型,先利用海量文本进行无监督的语言模型训练,然后在特定任务上进行微调。
  • 核心优势
    1. 依赖 Transformer 架构(见下文),具有并行计算的能力。
    2. 通过自回归的方式生成文本,预测下一个词的概率分布。
    3. 可迁移到各种下游任务,如文本分类、摘要生成、机器翻译等。

3、从 RNN 到 Transformer 的演进

3.1、RNN(循环神经网络)

  1. 工作方式:按序处理输入序列,每一步的输出依赖于先前的隐藏状态和当前输入。
  2. 缺点
    • 无法并行计算,因为下一步计算需要等待前一步完成。
    • 对长序列的学习能力较弱,距离越远的词语依赖越难捕获。

3.2、LSTM(长短期记忆网络)

  1. 改进之处:在 RNN 的基础上通过“门控机制”(输入门、遗忘门、输出门)来保留或遗忘信息,缓解了梯度消失或爆炸问题。
  2. 不足之处:虽然改进了对长序列的记忆能力,但仍然无法并行处理序列。

3.3、Transformer

  1. 自注意力机制(Self-Attention)
    • 能够在处理某个词时,不仅关注它本身,也关注序列中所有其他词,并根据训练学到的注意力权重来衡量词与词之间的关联强度。
    • 解决了 RNN 中无法有效捕捉长距离依赖的问题。
  2. 位置编码(Positional Encoding)
    • 自然语言是有序列性的。由于 Transformer 并行处理输入序列,需要在嵌入(Embedding)后加入位置信息,让模型理解每个词在句子中的位置,从而捕获顺序关系。
  3. 并行处理
    • 不再像 RNN/LSTM 依次处理序列,而是可以一次性对整段序列同时进行处理,大幅提高训练速度与效率。
  4. 应用场景
    • 机器翻译、文本摘要、问答系统等,多数自然语言处理任务都能通过 Transformer 架构取得效果提升。

4、主要差异与优势总结

  • RNN / LSTM
    • 顺序处理,难以并行
    • 对远距离依赖捕捉能力不足
  • Transformer
    • 自注意力:同时关注序列中所有位置,捕捉长距离依赖
    • 位置编码:显式引入词位置信息
    • 高并行度:训练速度远高于 RNN/LSTM
  • LLM 依托 Transformer
    • 通过海量文本数据进行预训练,能够学习通用语言表示
    • 在特定任务上微调(Fine-tune),在多数自然语言处理任务中取得领先表现

5、补充

  • Transformer 的多头注意力(Multi-Head Attention)
    • 将注意力机制平行化为多个“头”,分别学习不同的子空间信息,增强模型对不同语义特征的捕捉能力。
  • 预训练与微调流程
    1. 预训练:在海量无标签文本上训练语言模型,使其学习到丰富的词汇与语义知识。
    2. 微调:将预训练好的模型在特定任务(如文本分类、摘要、翻译等)上进行带有标签的数据训练。
  • 未来趋势
    • 模型参数规模将进一步扩大(如 GPT-4 等),能处理更多多模态(文本、图像、音频等)的数据。
    • 探索更高效、更绿色的训练方案以降低能耗和成本。
[up主专用,视频内嵌代码贴在这]