vLLM及相关内容

2025年3月4日 1.25k次阅读共2284个字 0条评论 0人点赞 Alan

文章目录[x]

1:什么是vLLM
2:vLLM vs Ollama
3:DeepSeek-R1-Distill-Qwen-32B模型对比
4:使用魔搭ModelScope下载模型
5:安装vLLM
5.1:依赖环境
5.2:使用pip安装
6:PyTorch、cuDNN、CUDA、NVIDIA驱动和NVIDIA GPU之间的关系

什么是vLLM

vLLM（Vectorized Large Language Model Serving System）是由加州大学伯克利分校团队开发的高性能、易扩展的大语言模型推理引擎。它专注于通过创新的内存管理和计算优化技术，实现高吞吐、低延迟、低成本的模型服务。

核心特点：

高性能推理：支持分布式推理，能高效利用多机多卡资源。
显存优化：采用PagedAttention内存管理技术，显著提升GPU显存利用率。
多场景适配：无论是低延迟的在线服务，还是资源受限的边缘部署，vLLM都能提供卓越的性能表现。

中文站点：https://vllm.hyper.ai/docs/
英文站点：https://docs.vllm.ai/en/latest/index.html

vLLM vs Ollama

对比维度	Ollama	vLLM	备注
量化与压缩策略	默认采用4-bit/8-bit量化，显存占用降至25%-50%	默认使用FP16/BF16精度，保留完整参数精度	Ollama 牺牲精度换显存，vLLM 牺牲显存换计算效率
优化目标	轻量化和本地部署，动态加载模型分块，按需使用显存	高吞吐量、低延迟，预加载完整模型到显存，支持高并发	Ollama 适合单任务，vLLM 适合批量推理
显存管理机制	分块加载 + 动态缓存，仅保留必要参数和激活值	PagedAttention + 全量预加载，保留完整参数和中间激活值	vLLM 显存占用为 Ollama 的 2-5 倍
硬件适配	针对消费级GPU（如RTX 3060）优化，显存需求低	依赖专业级GPU（如A100/H100），需多卡并行或分布式部署	Ollama 可在 24GB 显存运行 32B 模型，vLLM 需至少 64GB
性能与资源平衡	显存占用低，但推理速度较慢（适合轻量级应用）	显存占用高，但吞吐量高（适合企业级服务）	量化后 Ollama 速度可提升，但仍低于 vLLM
适用场景	个人开发、本地测试、轻量级应用	企业级API服务、高并发推理、大规模部署	根据显存和性能需求选择框架

总结：Ollama更适合个人开发和轻量级应用，而vLLM则更适合企业级服务和高并发场景。

DeepSeek-R1-Distill-Qwen-32B模型对比

DeepSeek-R1-Distill-Qwen-32B模型在Ollama和vLLM框架下的显存占用、存储需求及性能对比

指标	Ollama (4-bit)	vLLM (FP16)	说明
显存占用	19-24 GB	64-96 GB	Ollama通过4-bit量化压缩参数，vLLM需保留完整FP16参数和激活值
存储空间	20 GB	64 GB	Ollama存储量化后模型，vLLM存储原始FP16精度模型
推理速度	较低（5-15 tokens/s）	中高（30-60 tokens/s）	Ollama因量化计算效率降低，vLLM通过批处理和并行优化提升吞吐量
硬件门槛	高端消费级GPU（≥24GB）	多卡专业级GPU（如2×A100 80GB）	Ollama勉强单卡运行，vLLM需多卡并行或分布式部署

使用魔搭ModelScope下载模型

ModelScope是由阿里巴巴集团推出的开源模型即服务（MaaS）平台，旨在简化模型应用的过程，为AI开发者提供灵活、易用、低成本的一站式模型服务产品。

核心功能：

汇集多种最先进的机器学习模型，涵盖NLP、CV、语音识别等领域。
提供丰富的API接口和工具，方便开发人员集成和使用模型。
支持模型的下载、部署和推理，降低开发门槛。

安装与使用：

安装modelscrop

pip install modelscope -i https://pypi.tuna.tsinghua.edu.cn/simple

mkdir -p /data/deepseek-ai/models/deepseek-70b

下载DeepSeek-R1-Distill-Llama-70B模型

modelscope download --local_dir /data/deepseek-ai/models/deepseek-70b --model deepseek-ai/DeepSeek-R1-Distill-Llama-70B

安装vLLM

参考官网文档：https://vllm.hyper.ai/docs/getting-started/installation
vLLM 是一个 Python 库，包含预编译的 C++ 和 CUDA (12.1) 二进制文件。

依赖环境

操作系统：Linux
Python：3.8 - 3.12
GPU：计算能力 7.0 或更高（例如 V100、T4、RTX20xx、A100、L4、H100 等）

使用pip安装

#（推荐）创建一个新的 conda 环境。 
conda create -n myenv python=3.10 -y 
conda activate myenv 

# Install vLLM with CUDA 12.1. 
# 安装带有 CUDA 12.1 的 vLLM。 
pip install vllm

PyTorch、cuDNN、CUDA、NVIDIA驱动和NVIDIA GPU之间的关系

由上到下依次为

PyTorch
作为应用层，调用cuDNN和CUDA提供的接口来加速计算。
cuDNN
作为加速库层，依赖于CUDA提供的GPU计算能力，优化了深度学习任务。
CUDA
作为计算平台层，依赖于NVIDIA驱动与GPU硬件通信，提供了通用的GPU计算接口。
NVIDIA驱动
作为驱动层，管理着NVIDIA GPU的硬件资源，允许上层软件与GPU进行交互。
NVIDIA GPU
作为硬件层，执行实际的计算任务，提供了强大的并行计算能力。

在安装pytorch、cuda的时候需要注意gpu型号、驱动版本等

骏&鹏 Alan

vLLM及相关内容

什么是vLLM

vLLM vs Ollama

DeepSeek-R1-Distill-Qwen-32B模型对比

使用魔搭ModelScope下载模型

安装vLLM

依赖环境

使用pip安装

PyTorch、cuDNN、CUDA、NVIDIA驱动和NVIDIA GPU之间的关系

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

发表回复取消回复

骏&鹏 Alan

什么是vLLM

vLLM vs Ollama

DeepSeek-R1-Distill-Qwen-32B模型对比

使用魔搭ModelScope下载模型

安装vLLM

依赖环境

使用pip安装

PyTorch、cuDNN、CUDA、NVIDIA驱动和NVIDIA GPU之间的关系

本作品采用 知识共享署名-相同方式共享 4.0 国际许可协议 进行许可

发表回复 取消回复

本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可

发表回复取消回复