什么是生成式大语言模型?生成式大语言模型(如 GPT)通过预测下一词的概率来生成文本,这类似于搜索引擎的自动补全功能:
输入一个词或句子,模型预测下一个词的概率分布。
选择概率最高的词作为输出,依次重复,直到生成完整的文本。
Transformer 架构的核心生成式大语言模型的基础是 Transformer 架构,它由 2017 年的论文 Attention Is All You Need 提出。自此,Transformer 成为文本领域的主流架构,被广泛应用于 OpenAI 的 GPT、清华的 GLM、百度的 Ernie 等模型中。
Transformer 的两个核心组件:
编码器(Encoder):将输入序列转换为抽象表示。
解码器(Decoder):根据抽象表示生成输出序列。
模型处理流程1. 编码器(Encoder)Token 化
文本被分解为基本单位,称为 Token。
短词通常为一个 Token,长词可能被拆分为多个 Token。
每个 Token 被映射为一个整数 ID,方便计算机处理。
嵌入层(Embedding Layer)
将 Token ID 转 ...
1、大规模语言模型(LLM, Large Language Model)
基本定义:LLM 是通过在海量文本上进行无监督学习而得到的模型,能够从文本中学习到语言结构、词汇含义、上下文关系等知识。
代表模型:OpenAI 的 GPT 系列、Google 的 BERT、Meta 的 LLaMA 等都是 LLM 的典型代表。
2、GPT(Generative Pre-trained Transformer)
模型概述:GPT 属于预训练生成式 Transformer 模型,先利用海量文本进行无监督的语言模型训练,然后在特定任务上进行微调。
核心优势:
依赖 Transformer 架构(见下文),具有并行计算的能力。
通过自回归的方式生成文本,预测下一个词的概率分布。
可迁移到各种下游任务,如文本分类、摘要生成、机器翻译等。
3、从 RNN 到 Transformer 的演进3.1、RNN(循环神经网络)
工作方式:按序处理输入序列,每一步的输出依赖于先前的隐藏状态和当前输入。
缺点:
无法并行计算,因为下一步计算需要等待前一步完成。
对长序列的学习能力较弱,距离越远的词语依赖越 ...
在编写 HTML 页面时,最基本的结构通常由以下四个部分组成:
文档声明(<!DOCTYPE html>)用于告诉浏览器当前文档使用的是 HTML5 标准。
<html></html> 标签对告诉浏览器,整个页面的内容从 <html> 开始到 </html> 结束。通常会在 <html> 标签中添加语言属性(如 lang="zh-CN"),表示这是一个中文网页。
<head></head> 标签对网页的头部,用于定义页面标题、关键字、描述、引用外部文件等信息。通常对浏览器或搜索引擎的行为有影响,但不会直接显示在网页中。
<body></body> 标签对网页的“身体”,绝大部分可见内容都在此标签对中编写,包括文本、图片、表单、按钮等。
下面是一段最简洁的示例代码:
1234567891011<!DOCTYPE html><html lang="zh-CN"><head> &l ...
1. AIGC 与生成式 AI
AIGC(AI Generated Content)
指由人工智能生成的文字、图像、音频、视频等各种形式的原创内容。
示例:ChatGPT 生成的文本、GitHub Copilot 生成的代码、Midjourney 生成的图片等。
生成式 AI(Generative AI)
国外更常用的术语,与 AIGC 本质上含义相近。
通过深度学习模型(如扩散模型、GAN、Transformer 等)自动生成新的内容。
由于在国内 “AIGC” 一词更流行,部分场景下 AIGC 也被用来指代生成式 AI。
结论:“生成式 AI” 生成的内容就是 “AIGC”,而 “AIGC” 也通常泛指 “生成式 AI” 及其生成的成果。
2. AI、机器学习与深度学习的层级关系
人工智能(AI)
计算机科学的一个分支,始于 1956 年,核心目标是让计算机模拟或超越人类智能来解决问题。
机器学习(Machine Learning)
AI 的一个子集,强调让计算机通过数据与算法自行学习模式、做出决策,而非显式硬编码逻辑。
包含 监督学习、无监督学习、强化学习 ...












