RTP-LLM 文档#
RTP-LLM 是一个面向大语言模型和视觉语言模型的高速服务框架。通过后端运行时与前端语言的协同设计,它使您与模型的交互更快速、更可控。其核心功能包括:
高速后端运行时:通过 RadixAttention 实现前缀缓存、零开销 CPU 调度器、prefill-decode 拆分、推测解码、连续批处理、分页注意力、张量并行、流水线并行、专家并行、结构化输出、分块 prefill、量化(FP8/INT4/AWQ/GPTQ)以及多 LoRA 批处理,提供高效的模型服务。
灵活的前端语言:为编程 LLM 应用提供直观的接口,支持生成调用链、高级提示工程、控制流、多模态输入、并行处理以及与外部系统的交互。
广泛的模型支持:支持多种生成式模型(如 Llama、Gemma、Mistral、Qwen、DeepSeek、LLaVA 等)和嵌入模型(如 e5-mistral、gte、mcdse),并具备良好的可扩展性,便于集成新模型。
活跃的社区支持:RTP-LLM 是开源项目,拥有活跃的开发者社区,并已在工业界广泛应用。
发布版本
基本用法
高级后端配置
高级功能
RTP-LLM 路由器
Benchmark