什么是大语言模型（LLM）？

一句话解释

大语言模型（Large Language Model, LLM）本质上是一个超级强大的”下一个词预测器”。

给它一段文字，它会预测接下来最可能出现的词是什么。就这么简单的原理，当模型足够大、训练数据足够多时，涌现出了令人惊叹的能力。

想象你在手机上打字，输入法会给你提示下一个词。LLM 做的事情本质上一样，只是：

当今大多数 LLM 都基于 Transformer 架构（2017 年由 Google 提出）。它的核心创新是注意力机制（Attention）：

比如在这句话中：

“那只猫很饿，所以它跑向了食盆”

模型需要理解”它”指的是”猫”，而不是其他东西。注意力机制让这种理解成为可能。

研究发现，当模型参数达到一定规模后，会出现涌现能力（Emergent Abilities）——一些在小模型中完全不存在的能力突然出现：

这就是为什么大家都在追求更大的模型。

LLM 的本质并不复杂——预测下一个词。但规模化带来了质变，让它从一个简单的文本补全工具，变成了能理解、推理、创作的通用 AI。

在后续文章中，我会深入聊聊如何更好地使用 LLM（Prompt Engineering），以及如何基于 LLM 构建自己的应用。