DeepSeek은 오픈소스로 제공되는 대형 언어 모델(LLM)로, ChatGPT 및 Claude와 같은 AI 챗봇과 유사한 성능을 제공합니다. 이를 로컬 환경에서 실행하면 데이터 프라이버시를 보호하고, 인터넷 연결 없이 AI 모델을 활용할 수 있습니다.
본 가이드에서는 DeepSeek 모델을 로컬에서 실행하는 방법을 단계별로 설명합니다.
📌 목차
- DeepSeek 모델 개요
- DeepSeek 로컬 설치 환경 준비
- DeepSeek 모델 다운로드 및 실행
- DeepSeek API 설정 및 활용
- 성능 최적화 및 GPU 가속
- 결론 및 추가 참고 사항
1. DeepSeek 모델 개요
DeepSeek은 대규모 언어 모델(LLM)로, 주로 자연어 처리(NLP) 작업에 활용됩니다.
✅ DeepSeek의 특징
- 텍스트 생성, 요약, 번역, 코드 생성 등 다양한 작업 수행 가능.
- GPU 또는 CPU 환경에서 실행 가능.
- Hugging Face 또는 공식 저장소에서 모델 다운로드 가능.
✅ DeepSeek을 로컬에서 실행하는 이유
- 데이터 보안 강화: 인터넷 연결 없이 내부 시스템에서 실행 가능.
- 비용 절감: 클라우드 기반 AI API보다 운영 비용이 저렴.
- 커스터마이징 가능: 특정 도메인에 맞게 모델 튜닝 가능.
2. DeepSeek 로컬 설치 환경 준비
🔹 1) 필수 요구 사항
DeepSeek을 실행하기 위해서는 다음과 같은 하드웨어 및 소프트웨어 환경이 필요합니다.
✅ 하드웨어 요구 사항
- GPU 환경 (권장): NVIDIA CUDA 지원 그래픽 카드 (VRAM 16GB 이상)
- CPU 환경 (가능하지만 성능 저하): 최소 8코어, RAM 16GB 이상
- 스토리지: 최소 50GB 이상의 여유 공간
✅ 소프트웨어 요구 사항
- Python 3.8 이상
- PyTorch (CUDA 지원 필수)
- Transformers 라이브러리 (Hugging Face)
- Hugging Face
datasets
및tokenizers
- CUDA 및 cuDNN (NVIDIA GPU 사용 시)
🔹 2) 환경 설정
1️⃣ Python 가상 환경 생성 (권장)
<bash># Python 가상 환경 생성 및 활성화
python3 -m venv deepseek_env
source deepseek_env/bin/activate # (Windows: deepseek_env\Scripts\activate)
2️⃣ 필수 패키지 설치
<bash>pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers accelerate huggingface_hub
✅ 설치 패키지 설명
torch
,torchvision
,torchaudio
→ PyTorch 프레임워크 (CUDA 지원 가능)transformers
→ Hugging Face에서 모델 다운로드 및 실행accelerate
→ 멀티-GPU 최적화huggingface_hub
→ Hugging Face 모델 다운로드 및 관리
3. DeepSeek 모델 다운로드 및 실행
DeepSeek은 Hugging Face에서 공개된 모델을 다운로드하여 실행할 수 있습니다.
🔹 1) DeepSeek 모델 다운로드
<bash>from transformers import AutoModelForCausalLM, AutoTokenizer
# 모델 이름 지정 (DeepSeek 7B 모델 예시)
MODEL_NAME = "deepseek-ai/deepseek-llm-7b"
# 토크나이저 및 모델 불러오기
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype="auto", device_map="auto")
# GPU 메모리 최적화 옵션
model = model.half().cuda()
✅ DeepSeek 모델 선택
모델명 | 매개변수 크기 | 권장 VRAM |
---|---|---|
deepseek-ai/deepseek-llm-7b | 7B | 16GB |
deepseek-ai/deepseek-llm-13b | 13B | 24GB |
deepseek-ai/deepseek-llm-67b | 67B | 80GB |
🔹 2) DeepSeek 로컬 실행
<bash>import torch
# 입력 프롬프트
prompt = "DeepSeek 모델을 로컬에서 실행하는 방법을 설명해줘."
# 토큰 변환
input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to("cuda")
# 모델 실행
output = model.generate(input_ids, max_length=200)
# 결과 변환
print(tokenizer.decode(output[0], skip_special_tokens=True))
✅ 설명
- 사용자의 입력(
prompt
)을 토큰으로 변환 후 모델에 전달. - AI 모델이 응답을 생성(
generate()
). - 응답을 디코딩하여 텍스트 출력.
4. DeepSeek API 설정 및 활용
🔹 1) FastAPI를 활용한 API 서버 구축
<bash>pip install fastapi uvicorn
🔹 2) FastAPI 서버 코드
<python>from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
app = FastAPI()
# DeepSeek 모델 로드
MODEL_NAME = "deepseek-ai/deepseek-llm-7b"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype="auto", device_map="auto")
@app.post("/generate/")
async def generate_text(prompt: str):
input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to("cuda")
output = model.generate(input_ids, max_length=200)
response = tokenizer.decode(output[0], skip_special_tokens=True)
return {"response": response}
# 서버 실행
if __name__ == "__main__":
import uvicorn
uvicorn.run(app, host="0.0.0.0", port=8000)
✅ API 실행 및 사용
<bash>uvicorn filename:app --host 0.0.0.0 --port 8000 --reload
➡️ 브라우저에서 http://localhost:8000/docs
로 접속하면 API 테스트 가능.
5. 성능 최적화 및 GPU 가속
🔹 1) bitsandbytes
를 이용한 모델 경량화
<bash>pip install bitsandbytes
<python>from transformers import BitsAndBytesConfig
quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_use_double_quant=True,
bnb_4bit_compute_dtype=torch.float16
)
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=quantization_config
)
✅ 효과
- 4-bit 양자화(Quantization) 적용으로 VRAM 사용량 50% 절감.
6. 결론 및 추가 참고 사항
✅ DeepSeek 모델을 로컬에서 실행하면?
- 데이터 프라이버시 보호 (외부 API 필요 없음).
- 클라우드 비용 절감 (서버 없이 자체 운영 가능).
- AI 챗봇, 문서 요약, 코드 생성 등 다양한 활용 가능.
✅ 추가 고려 사항
- GPU 사용이 어려운 경우
bitsandbytes
로 모델을 최적화하여 실행 가능. - API 서버를 구축하여 다른 애플리케이션과 연동 가능.
- Docker 및 Kubernetes로 배포하면 대규모 AI 시스템 운영 가능.
🚀 이제 DeepSeek을 로컬에서 실행하여 AI 모델을 직접 활용해 보세요! 😊