RTP-LLM 文档

RTP-LLM 文档#

RTP-LLM 是一个面向大语言模型和视觉语言模型的高速服务框架。通过后端运行时与前端语言的协同设计,它使您与模型的交互更快速、更可控。其核心功能包括:

  • 高速后端运行时:通过 RadixAttention 实现前缀缓存、零开销 CPU 调度器、prefill-decode 拆分、推测解码、连续批处理、分页注意力、张量并行、流水线并行、专家并行、结构化输出、分块 prefill、量化(FP8/INT4/AWQ/GPTQ)以及多 LoRA 批处理,提供高效的模型服务。

  • 灵活的前端语言:为编程 LLM 应用提供直观的接口,支持生成调用链、高级提示工程、控制流、多模态输入、并行处理以及与外部系统的交互。

  • 广泛的模型支持:支持多种生成式模型(如 Llama、Gemma、Mistral、Qwen、DeepSeek、LLaVA 等)和嵌入模型(如 e5-mistral、gte、mcdse),并具备良好的可扩展性,便于集成新模型。

  • 活跃的社区支持:RTP-LLM 是开源项目,拥有活跃的开发者社区,并已在工业界广泛应用。

发布版本

后端教程