Tag: LLM Serving - Tianyu Guo's homepage

Posted 2026-06-13Updated 2026-06-13Technology22 minutes read (About 3241 words)

gLLM 推出编码器分离（Encoder-Disaggregation）：多模态推理吞吐再上台阶

开源分布式 LLM 推理系统 gLLM 新增「编码器分离」能力，将视觉编码器与语言模型解耦部署，在相同 GPU 预算下显著提升多模态服务的吞吐与延迟表现。