DeepSeek 로컬 설치 가이드: AI 언어 모델을 직접 실행하는 방법

DeepSeek은 오픈소스로 제공되는 대형 언어 모델(LLM)로, ChatGPT 및 Claude와 같은 AI 챗봇과 유사한 성능을 제공합니다. 이를 로컬 환경에서 실행하면 데이터 프라이버시를 보호하고, 인터넷 연결 없이 AI 모델을 활용할 수 있습니다.

본 가이드에서는 DeepSeek 모델을 로컬에서 실행하는 방법을 단계별로 설명합니다.


📌 목차

  1. DeepSeek 모델 개요
  2. DeepSeek 로컬 설치 환경 준비
  3. DeepSeek 모델 다운로드 및 실행
  4. DeepSeek API 설정 및 활용
  5. 성능 최적화 및 GPU 가속
  6. 결론 및 추가 참고 사항

1. DeepSeek 모델 개요

DeepSeek은 대규모 언어 모델(LLM)로, 주로 자연어 처리(NLP) 작업에 활용됩니다.

DeepSeek의 특징

  • 텍스트 생성, 요약, 번역, 코드 생성 등 다양한 작업 수행 가능.
  • GPU 또는 CPU 환경에서 실행 가능.
  • Hugging Face 또는 공식 저장소에서 모델 다운로드 가능.

DeepSeek을 로컬에서 실행하는 이유

  • 데이터 보안 강화: 인터넷 연결 없이 내부 시스템에서 실행 가능.
  • 비용 절감: 클라우드 기반 AI API보다 운영 비용이 저렴.
  • 커스터마이징 가능: 특정 도메인에 맞게 모델 튜닝 가능.

2. DeepSeek 로컬 설치 환경 준비

🔹 1) 필수 요구 사항

DeepSeek을 실행하기 위해서는 다음과 같은 하드웨어 및 소프트웨어 환경이 필요합니다.

하드웨어 요구 사항

  • GPU 환경 (권장): NVIDIA CUDA 지원 그래픽 카드 (VRAM 16GB 이상)
  • CPU 환경 (가능하지만 성능 저하): 최소 8코어, RAM 16GB 이상
  • 스토리지: 최소 50GB 이상의 여유 공간

소프트웨어 요구 사항

  • Python 3.8 이상
  • PyTorch (CUDA 지원 필수)
  • Transformers 라이브러리 (Hugging Face)
  • Hugging Face datasetstokenizers
  • CUDA 및 cuDNN (NVIDIA GPU 사용 시)

🔹 2) 환경 설정

1️⃣ Python 가상 환경 생성 (권장)

<bash>

# Python 가상 환경 생성 및 활성화
python3 -m venv deepseek_env
source deepseek_env/bin/activate # (Windows: deepseek_env\Scripts\activate)

2️⃣ 필수 패키지 설치

<bash>

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers accelerate huggingface_hub

설치 패키지 설명

  • torch, torchvision, torchaudio → PyTorch 프레임워크 (CUDA 지원 가능)
  • transformers → Hugging Face에서 모델 다운로드 및 실행
  • accelerate → 멀티-GPU 최적화
  • huggingface_hub → Hugging Face 모델 다운로드 및 관리

3. DeepSeek 모델 다운로드 및 실행

DeepSeek은 Hugging Face에서 공개된 모델을 다운로드하여 실행할 수 있습니다.

🔹 1) DeepSeek 모델 다운로드

<bash>

from transformers import AutoModelForCausalLM, AutoTokenizer

# 모델 이름 지정 (DeepSeek 7B 모델 예시)
MODEL_NAME = "deepseek-ai/deepseek-llm-7b"

# 토크나이저 및 모델 불러오기
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype="auto", device_map="auto")

# GPU 메모리 최적화 옵션
model = model.half().cuda()

DeepSeek 모델 선택

모델명매개변수 크기권장 VRAM
deepseek-ai/deepseek-llm-7b7B16GB
deepseek-ai/deepseek-llm-13b13B24GB
deepseek-ai/deepseek-llm-67b67B80GB

🔹 2) DeepSeek 로컬 실행

<bash>

import torch

# 입력 프롬프트
prompt = "DeepSeek 모델을 로컬에서 실행하는 방법을 설명해줘."

# 토큰 변환
input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to("cuda")

# 모델 실행
output = model.generate(input_ids, max_length=200)

# 결과 변환
print(tokenizer.decode(output[0], skip_special_tokens=True))

설명

  • 사용자의 입력(prompt)을 토큰으로 변환 후 모델에 전달.
  • AI 모델이 응답을 생성(generate()).
  • 응답을 디코딩하여 텍스트 출력.

4. DeepSeek API 설정 및 활용

🔹 1) FastAPI를 활용한 API 서버 구축

<bash>

pip install fastapi uvicorn

🔹 2) FastAPI 서버 코드

<python>

from fastapi import FastAPI
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

app = FastAPI()

# DeepSeek 모델 로드
MODEL_NAME = "deepseek-ai/deepseek-llm-7b"
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
model = AutoModelForCausalLM.from_pretrained(MODEL_NAME, torch_dtype="auto", device_map="auto")

@app.post("/generate/")
async def generate_text(prompt: str):
input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to("cuda")
output = model.generate(input_ids, max_length=200)
response = tokenizer.decode(output[0], skip_special_tokens=True)
return {"response": response}

# 서버 실행
if __name__ == "__main__":
import uvicorn
uvicorn.run(app, host="0.0.0.0", port=8000)

API 실행 및 사용

<bash>

uvicorn filename:app --host 0.0.0.0 --port 8000 --reload

➡️ 브라우저에서 http://localhost:8000/docs로 접속하면 API 테스트 가능.


5. 성능 최적화 및 GPU 가속

🔹 1) bitsandbytes를 이용한 모델 경량화

<bash>

pip install bitsandbytes
<python>

from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_use_double_quant=True,
bnb_4bit_compute_dtype=torch.float16
)

model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
quantization_config=quantization_config
)

효과

  • 4-bit 양자화(Quantization) 적용으로 VRAM 사용량 50% 절감.

6. 결론 및 추가 참고 사항

DeepSeek 모델을 로컬에서 실행하면?

  • 데이터 프라이버시 보호 (외부 API 필요 없음).
  • 클라우드 비용 절감 (서버 없이 자체 운영 가능).
  • AI 챗봇, 문서 요약, 코드 생성 등 다양한 활용 가능.

추가 고려 사항

  • GPU 사용이 어려운 경우 bitsandbytes로 모델을 최적화하여 실행 가능.
  • API 서버를 구축하여 다른 애플리케이션과 연동 가능.
  • Docker 및 Kubernetes로 배포하면 대규모 AI 시스템 운영 가능.

🚀 이제 DeepSeek을 로컬에서 실행하여 AI 모델을 직접 활용해 보세요! 😊