切分与上下文窗口：理解人工智能中的长度限制

在人工智能的领域中，特别是在大型语言模型（LLMs）和生成性 AI 中，切分和上下文窗口的概念在这些系统的运作中起着至关重要的作用。本文深入探讨了这些概念的复杂性、为何存在这些概念及其对 AI 应用的影响。

什么是切分？

切分是将文本转换为更小的部分，称为 tokens 的过程。这些 tokens 可以是单词、子单词，甚至是字符，具体取决于所采取的方法。切分的主要目标是将人类语言转换为机器可以理解和有效处理的格式。

例如，句子 "AI 正在改变世界" 可以被切分为单独的单词，如 ["AI", "正在", "改变", "世界"]. 或者，采用子单词切分的方法，它可能会分解成更小的组成部分，使得模型能够更有效地处理未知单词。这种灵活性对于 LLMs 来说至关重要，因为它们必须在多个领域和上下文中理解和生成文本。

上下文窗口是指模型在生成文本或进行预测时可以同时考虑的 tokens 范围。这个窗口是至关重要的，因为它决定了模型可以利用多少信息来理解对话或文本的当前状态。上下文窗口通常由固定数量的 tokens 定义，这在不同的模型之间有所不同。

在实践中，具有 512 个 tokens 上下文窗口的模型只能使用最近的 512 个输入 tokens 来生成后续文本。这个限制对于保持性能至关重要，因为一次性处理过多数据可能导致效率低下并降低输出质量。

多个因素促成了切分和上下文窗口长度限制的存在：

内存限制：LLMs 需要大量的计算资源来处理数据。输入长度增加时，所需的内存和计算能力也随之增加。这可能导致性能降低和更高的运营成本。
处理效率：通过限制上下文窗口，模型可以集中于最相关的信息。这提高了处理速度，并允许从提供的数据中进行更有效的学习。
模型架构：许多 LLM 的架构，如变换器，设计用于处理特定数量的 tokens。这些模型利用诸如自注意力等机制，随着 tokens 数量的增加，计算成本也在增加。因此，设定实际的限制以确保模型的最佳功能。
训练数据限制：在训练过程中，模型接触到各种长度的文本。然而，大部分训练数据的 tokens 长度限制在一定范围内，这影响了模型在推理过程中处理更长序列的能力。

为了进一步说明这些概念，考虑以下示例：

切分示例：单词 "不快乐" 可能被切分为 ["不", "快乐"]，采用子单词方法，允许模型推断出意义，即使它在训练中没有遇到完整的单词。
上下文窗口示例：在对话系统中，如果上下文窗口为 256 个 tokens，而对话超出此长度，模型将仅考虑最后 256 个 tokens 的对话来生成其下一个响应。这意味着对话的较早部分可能不会影响模型的输出，可能导致交互的连贯性下降。