RTP-LLM 文档

RTP-LLM 文档#

RTP-LLM 是一个面向大语言模型和视觉语言模型的高速服务框架。通过后端运行时与前端语言的协同设计，它使您与模型的交互更快速、更可控。其核心功能包括：

高速后端运行时：通过 RadixAttention 实现前缀缓存、零开销 CPU 调度器、prefill-decode 拆分、推测解码、连续批处理、分页注意力、张量并行、流水线并行、专家并行、结构化输出、分块 prefill、量化（FP8/INT4/AWQ/GPTQ）以及多 LoRA 批处理，提供高效的模型服务。
灵活的前端语言：为编程 LLM 应用提供直观的接口，支持生成调用链、高级提示工程、控制流、多模态输入、并行处理以及与外部系统的交互。
广泛的模型支持：支持多种生成式模型（如 Llama、Gemma、Mistral、Qwen、DeepSeek、LLaVA 等）和嵌入模型（如 e5-mistral、gte、mcdse），并具备良好的可扩展性，便于集成新模型。
活跃的社区支持：RTP-LLM 是开源项目，拥有活跃的开发者社区，并已在工业界广泛应用。

安装

Install RTP-LLM

发布版本

RTP-LLM 0.2.0

基本用法

后端教程

高级后端配置

支持的模型

高级功能

RTP-LLM 路由器

FlexLB (Flexible Load Balancer) - Master Role

Benchmark

RTP-LLM Performance Benchmark Tool

参考文献