词汇表

LLM

LLM（大型语言模型），例如 Mistral AI 模型，是经过大量文本数据训练的 AI 模型，用于预测句子中的下一个词。它们能够以类似于人类交流的方式理解和生成文本。它们可以回答问题、起草文档、总结文本、提取信息、翻译语言、编写代码等等。

文本生成

大型语言模型中的文本生成是根据给定的输入提示生成连贯且具有上下文相关性的文本的过程。这些模型，例如 Mistral AI，经过海量文本数据训练，以便在给定前文的情况下预测句子中的下一个词。这项能力使它们能够生成与人类交流相似的文本，并可用于各种应用，包括回答问题、起草文档、总结文本、翻译语言和编码。

Tokens（词元）

Tokens（词元）是语言模型处理的最小独立单元，通常代表常见的字符序列，例如词或子词。为了使语言模型理解文本，必须将其转换为数值表示。这是通过将文本编码成一系列 tokens 来实现的，其中每个 token 被分配一个唯一的数值索引。将文本转换为 tokens 的过程称为分词（tokenization）。一种广泛使用的分词算法是字节对编码（Byte-Pair Encoding, BPE），它最初将文本中的每个字节视为一个单独的 token。然后，BPE 迭代地为语料库中最常出现的 token 对向词汇表添加新的 token，并将该 token 对的出现替换为新的 token，直到无法进行更多替换为止。这使得语言模型能够以紧凑有效的方式表示文本进行处理。

混合专家（Mixture of Experts）

混合专家（Mixture of Experts, MoE）是 Mixtral 8x7b 和 Mixtral 8x22b 的底层架构。它是一种神经网络架构，在 Transformer 块中集成了专家层，允许模型以更少的计算资源进行预训练，同时保持与密集模型相同的质量。这是通过用稀疏的 MoE 层替换密集的前馈网络（FFN）层实现的，这些 MoE 层包含多个“专家”（即 FFN）。一个门控网络或路由器决定将哪些输入 tokens 发送到哪个专家进行计算。MoE 提供了高效预训练和更快推理等优势，但也带来了微调过程中过拟合和高内存需求等挑战。尽管如此，MoE 是一种有价值的方法，通过动态地将输入 tokens 分配给专业专家进行处理，以较低的计算成本实现改进的模型质量。

RAG

检索增强生成（Retrieval-augmented generation, RAG）是一种人工智能框架，它结合了 LLM 和信息检索系统的能力。RAG 主要包括两个步骤：1) 检索：从知识库中检索相关信息，知识库中的文本嵌入存储在向量存储中；2) 生成：将相关信息插入到提示中，供 LLM 生成信息。RAG 对于回答问题或利用外部知识（包括最新信息和特定领域信息）生成内容非常有用。RAG 使模型能够访问和利用其训练数据之外的信息，从而减少幻觉并提高事实准确性。有关详细信息，请查阅我们的基础 RAG 指南。

微调（Fine-tuning）

微调（Fine-tuning）是大型语言模型中用于使预训练模型适应特定任务或领域的过程。它涉及在一个较小的、特定任务的数据集上继续训练过程，并调整模型的参数以优化其在新数据集上的性能。这使得模型能够学习特定任务的语言模式并提高其在目标任务上的性能。微调对于使模型适应特定格式或语调、特定领域任务以及通过从大型模型蒸馏来提高性能非常有利。与从头开始训练模型相比，这种方法可以使用更少的数据和计算资源达到最先进的性能。

函数调用（Function calling）

函数调用（Function calling）允许 Mistral 模型连接到外部工具并调用外部函数或 API 来执行超出模型能力范围的任务。这使得模型能够访问和利用外部工具和资源，从而提高其性能并提供更准确的响应。函数调用可用于检索实时数据、执行计算、访问数据库以及与其他系统或服务交互等任务。它提高了模型的准确性、效率和通用性。请查阅我们的函数调用指南以了解更多信息。

嵌入（Embeddings）

嵌入（Embeddings）是文本的向量表示，通过它们在高维向量空间中的位置来捕获段落的语义意义。这些向量捕获文本的语义意义和上下文，使模型能够更有效地理解和生成语言。Mistral AI Embeddings API 为文本提供前沿的、最先进的嵌入，可用于许多自然语言处理（NLP）任务。请查阅我们的嵌入指南以了解更多信息。

温度（Temperature）

温度（Temperature）是 LLM 中一个基础的采样参数，用于控制生成输出的随机性和多样性。较低的 Temperature 值会产生更确定和准确的响应，而较高的值则会引入更多的创造性和随机性。这个参数影响 softmax 函数，该函数将 logits 归一化为概率分布。较高的 Temperature 使分布变平，使得不太可能出现的 tokens 变得更可能，而较低的 Temperature 使分布变尖，偏向于最可能出现的 tokens。调整 Temperature 可以根据不同的应用定制模型的行为，例如在数学或分类等任务中需要高准确性，或在头脑风暴或小说写作等任务中增强创造性。平衡创造性和连贯性至关重要，因为增加 Temperature 也可能引入不准确性。一些模型，例如 pixtral-12b、ministral-3b-2410、ministral-8b-2410 和 open-mistral-nemo 通过我们的服务使用时，Temperature 的因子为 0.43，以便更好地与其他模型的影响对齐，并统一模型行为。

LLM​

文本生成​

Tokens（词元）​

混合专家（Mixture of Experts）​

RAG​

微调（Fine-tuning）​

函数调用（Function calling）​

嵌入（Embeddings）​

温度（Temperature）​

LLM