데이터 사이언스 실습을 위한 개발 환경 준비(Python, Anaconda, CUDA, Torch)

- 이번 포스팅으로는 앞으로 제가 정리할 데이터 분석 분야 정리글의 실습을 위한 환경설정 방법을 정리하겠습니다.

- 먼저 데이터 분석 정리글의 방향성에 대해 먼저 정리하자면,

https://github.com/RaillyLinker/Python_DataScience

저는 현재 위 출처의 Git Repository 에 제가 공부한 내용을 하나씩 올리며 데이터 분석 분야를 공부중입니다.

저의 학습 목표는 현재 제 전공인 백엔드 개발 능력과 합쳐 실용적 서비스를 만드는 것이며,

공부의 중간 중간 제가 얻은 지식을 정리하는 동시에 블로그 글로서 공유하려고 합니다.

고로 코드 중심의 지식 공유가 주가 될 것이며,

위에 공유드린 프로젝트 내의 코드에는

위와 같이 제가 공부한 내용을 요약한 주석이 상세히 적혀있으므로 참고하셔도 좋을 것 같습니다.

(인공지능 개론에서부터 현재는 LMM 입문 초반이라 할 수 있는 Transformer 모델의 직전까지 진행된 상태로, 이후에는 스스로 LLM 을 근본적으로 튜닝하고 연구할 수준까지 가는 것이 목표.)

- 실습 환경 구축 방법

환경 구축 방법은 아래와 같습니다.

먼저, Python 설치 및 Anaconda 설치를 진행합니다.

Jupyternotebook 으로 개발을 진행해도 무방하지만,

IDE 로 저와 같이 PyCharm 을 사용하는 것도 추천드립니다.

[Anaconda 버전 확인 및 업데이트]
1. 버전 확인
    >> conda --version

2. 업데이트
    >> conda update conda

[Anaconda 가상환경 설정 방법]
1. Anaconda Prompt 실행

2. 가상 환경 생성
    >> conda create -n forTorch python=3.11.8

3. 생성된 가상환경 리스트 확인
    >> conda env list

4. 가상 환경 활성화
    >> conda activate forTorch

5. 가상 환경 비활성화
    >> conda deactivate

6. 가상환경 삭제
    >> conda remove -n forTorch --all

[Torch & CUDA 설치법]
- Torch 에서 CUDA 를 사용하려면 먼저 CUDA 가 설치되어 있어야 합니다.
먼저 CUDA 설치법 부터 설명하는데,
CUDA 를 사용하지 않을 것이라면 해당 부분은 스킵하고 Torch 설치 부분에서 진행하면 됩니다.

- CUDA 를 설치하기 전에 먼저 자신의 NVIDIA 그래픽카드 사양을 파악해야합니다.
    https://en.wikipedia.org/wiki/CUDA
    위 링크에서
    Compute Capability, GPU semiconductors and Nvidia GPU board products
    부분의 리스트에서 본인의 GeForce 제품명을 찾고,
    그에 해당하는 Compute capability(version) 을 확인합니다.
    예를들어 7.5라고 합시다.
    그러면 이 수치를 가지고 Compute Capability (CUDA SDK support vs. Microarchitecture) 항목의 표를 확인하여,
    본인이 어느 구간에 속하는지를 확인합니다.
    7.5라면, 현재 지원하는 것이 CUDA 10.0 부터 최신버전까지 호환이 되네요.

- CUDA 사양을 파악했다면 바로 최신버전을 설치하는것이 아닙니다.
    Torch 라이브러리에서 지원하는 버전을 또 확인해야 합니다.
    https://pytorch.org/get-started/locally/
    위 링크에서 Compute Platform 에서 지원하는 CUDA 버전을 확인하세요.
    여기에 포함되지 않은 버전은 지원하지 않습니다.
    현재는 CUDA 11.8, CUDA 12.1 이 지원이 됩니다.
    최신버전인 CUDA 12.1 을 설치하면 됩니다.
    torch 설치시에도 여기서 선택해서 나온 설치 명령어를 사용하면 되는데, 일단 CUDA 부터 설치하도록 합시다.

- CUDA Toolkit 을 설치합시다.
    https://developer.nvidia.com/cuda-toolkit-archive
    위 링크에서 원하는 버전을 선택하고 다음 페이지에서 설치를 진행하면 됩니다.

    다음으로 CuDNN 역시 설치해야합니다.
    https://developer.nvidia.com/rdp/cudnn-archive
    위 링크에서 본인이 설치한 CUDA 버전에 맞는 항목을 선택하고 파일을 다운받은 후,
    압축을 해제하여 bin, include 등의 내용물들을 동일한 디렉토리가 존재하는 CUDA 설치 경로로 붙여넣어주면 됩니다.
    (Windows11 에서 설치 경로는 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.1 위와 같습니다.)

    마지막으로 CUDA 설치 경로의,
    /bin
    /extras/CUPTI/lib64
    /include
    경로를 환경변수로 등록하면 됩니다.

- 이제 Torch 를 설치합니다.
    먼저 conda update 를 위해
    >> conda update -n base -c defaults conda
    를 입력하고,

    앞서 언급한 https://pytorch.org/get-started/locally/ 사이트에서,
    본인이 설치한 CUDA 등의 정보를 선택하여 나온 명령어,
    저의 경우는
    >> conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
    를 입력하면 됩니다.

[필요 라이브러리 모음]
>> pip install numpy
>> pip install matplotlib
>> pip install pandas seaborn scipy
>> pip install scikit-learn xgboost

- 보시다시피 CUDA 를 이용한 GPU 가속을 사용한 실습 환경입니다.

만약 CUDA 가 사용 불가능한 OS 나 디바이스 환경이라면 MPS 와 같은 기술도 존재하므로 그 부분은 따로 검색하여 설정해야만 합니다.

필요 라이브러리는 딥러닝 개발에 핵심이 되는 pytorch 이외에도, 데이터 포멧을 담당하는 numpy 와 행렬 연산용 matplotlib, 데이터 시각화를 위한 여러 툴과, 머신러닝용 scikit-learn 도 추가하였습니다.

저작자표시 비영리 변경금지 (새창열림)

'Study > Data Science' 카테고리의 다른 글

고차원 데이터에서 차원의 저주란? (딥러닝 학습시 데이터 특징을 제한하는 이유와 빅데이터 기술의 중요성) (구 블로그 글 복구) (0)	2025.04.10
정보이론 기초 정리(정보량 + 정보 엔트로피) (구 블로그 글 복구) (0)	2025.04.09
딥러닝 Optimizer 종류 정리 (1)	2025.04.09
마할라노비스 거리(Mahalanobis Distance) 개인정리 (구 블로그 글 복구) (0)	2025.04.01
최대 우도 추정법(MLE : Maximum Likelihood Estimation)이란? (0)	2024.10.14

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

데이터 사이언스 실습을 위한 개발 환경 준비(Python, Anaconda, CUDA, Torch)

'Study > Data Science' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역