- DeepSeek R1-Mobile 1.5B :适用于移动端/嵌入式设备如手机、树莓派、Jetson Nano等,使用ONNX Runtime、TensorFlow Lite可实现实时响应(<500ms)。
- DeepSeek R1-Lite :适用于个人PC/边缘服务器,搭配RTX 3090/4090等显卡,使用Ollama、vLLM、Transformers等工具,显存占用8-12GB,可实现高吞吐(100+tokens/s)。
- DeepSeek R1-Standard :用于企业级服务/科研计算,需要2×A6000/A100等硬件,搭配vLLM、DeepSpeed,显存占用48-64GB,可进行专业级推理。
- 蒸馏定制版 0.5-7B :适用于垂直领域(金融/医疗),可按需选择硬件,通过Hugging Face+LoRA实现领域任务优化。
- 一般要求 :
- 对于最低配置,使用1.5B模型时,最低需要3.5G显存。
- 使用72B模型时,即使显卡显存较小(如22G),也可以实现较低的吞吐率(1 token/min)。
- 对于24G显存的显卡,可以使用32B模型。
- 特定显卡支持 :
- AMD显卡需要支持ROCm和ROCmLibs。
- 对于NVIDIA显卡,推荐使用RTX 3090/4090等高性能显卡,以实现高吞吐率。
建议
- 个人用户 :如果预算有限,可以选择使用较低版本的DeepSeek模型(如1.5B),并确保有足够的显存(至少3.5G)。
- 边缘服务器 :可以考虑使用RTX 3090/4090等显卡,以实现高吞吐率和高性能。
- 企业级应用 :需要更高性能的硬件,如2×A6000/A100,以支持大规模并行推理。