自部署

Mistral AI 模型可以通过各种推理引擎在您自己的基础设施上进行自部署。我们推荐使用 vLLM，这是一个高度优化的纯 Python 服务框架，可以提供与 OpenAI 兼容的 API。

其他推理引擎替代方案包括 TensorRT-LLM 和 TGI。

您还可以利用特定的工具来简化基础设施管理，例如 SkyPilot 或 Cerebrium。