gLLM 推出编码器分离(Encoder-Disaggregation):多模态推理吞吐再上台阶
开源分布式 LLM 推理系统 gLLM 新增「编码器分离」能力,将视觉编码器与语言模型解耦部署,在相同 GPU 预算下显著提升多模态服务的吞吐与延迟表现。
gLLM 推出编码器分离(Encoder-Disaggregation):多模态推理吞吐再上台阶
开源分布式 LLM 推理系统 gLLM 新增「编码器分离」能力,将视觉编码器与语言模型解耦部署,在相同 GPU 预算下显著提升多模态服务的吞吐与延迟表现。