수정하기 - GPU와 메모리의 관계: 7가지 이해하기!

닉네임

비밀번호

제목

내용 [이미지 업로드는 권한이 있는 사람만 가능. 하단 카톡으로 연락]

GPU와 메모리는 서로 뗄 수 없는 관계입니다. GPU가 높은 연산 성능을 발휘하려면 메모리 대역폭, 레이턴시, 용량, 계층 구조 등 여러 요소가 최적화되어야 하죠. 아래에서는 GPU 성능과 직결되는 일곱 가지 메모리 관련 핵심 개념을 표 없이 글로 풀어 설명합니다.    1. 메모리 종류와 인터페이스    GPU에 장착되는 메모리는 크게 GDDR(Graphics Double Data Rate) 계열과 HBM(High <a href='https://sangseek.com/sangseeks/Bandwidth/ko'>Bandwidth</a> Memory) 계열로 나뉩니다. GDDR5/6는 상대적으로 저렴하면서도 10∼16Gbps급 데이터 전송 속도를 제공하고, HBM2/HBM2e는 256GB/s 이상의 초고대역폭을 좁은 폼팩터로 구현합니다. 메모리 칩은 GPU 코어 옆에 패키징되며, HBM은 TSV(Through‐Silicon Via) 기술을 통해 칩을 수직 적층해 전력 소모와 레이턴시를 낮춘 대신 제조 단가가 높습니다. 이러한 인터페이스 특성은 그래픽 렌더링뿐 아니라 딥러닝, 과학 계산 워크로드 선택에 중요한 기준이 됩니다.    2. 메모리 대역폭의 중요성    GPU는 매 사이클 수천~수만 개의 스레드를 동시에 실행하기 때문에, 단일 명령으로 처리할 데이터가 매우 큽니다. 이때 메모리 대역폭이 병목이 되면 연산 유닛이 아이들(idle) 상태에 머물기 쉽죠. 예컨대 GTX 1660 Ti의 GDDR6 대역폭(288GB/s)과 Radeon VII의 HBM2 대역폭(1TB/s)을 비교하면, 후자는 대용량 데이터 처리에서 세 배 이상 빠른 속도를 내줄 수 있습니다. 이미지 필터링·벡터 연산·신경망 추론 등 메모리 집약적 작업일수록 이 차이는 더욱 커집니다.    3. 메모리 용량과 작업 크기    GPU에 탑재된 VRAM(Video RAM) 용량은 애플리케이션이 한 번에 다룰 수 있는 데이터 크기를 결정합니다. 고해상도 텍스처, 복잡한 3D 씬, 대규모 신경망 모델 등을 로드할 때 VRAM이 부족하면 스와핑(swap)이 발생해 PCIe 대역폭에 의존하게 되고, 이는 수백 밀리초의 지연을 초래할 수 있습니다. 따라서 8GB, 16GB, 24GB 이상 등 용량별 제품을 쓰는 목적이 분명해야 합니다. 예를 들어 4K 게임은 최소 8∼10GB, 3D 렌더링·머신러닝 훈련은 16GB 이상이 권장됩니다.    4. 메모리 계층 구조와 레이턴시    GPU 메모리 구조는 CPU보다 계층이 더 복잡합니다. 가장 빠른 레지스터(Register)와 스레드별 공유 메모리(Shared Memory), L1·L2 캐시, 그 다음 전역(Global)·텍스처(Texture) 메모리로 이어지며, 최하단에 호스트(Host) 메모리까지 연결됩니다. 계층이 깊어질수록 한 번 접근하는 데 걸리는 레이턴시가 증가합니다. 예컨대 L1 캐시 접근은 수십 사이클, 전역 메모리는 수백 사이클, 호스트 메모리 접근(PCIe 전송 포함)은 수천~수만 사이클에 이릅니다. 따라서 공유 메모리에 자주 쓰이는 데이터를 배치하거나 캐시 효율을 높이는 최적화가 매우 중요합니다.    5. 메모리 접근 패턴 최적화    GPU는 워프(warp) 단위로 메모리를 읽고 쓰는데, 이때 메모리 연속 영역에 접근하면 하드웨어가 이를 한 번에 처리해 throughput을 극대화합니다. 이를 ‘coalesced access’라고 부르죠. 반대로 비연속적이면 여러 번 나눠서 요청하고, 워프 내 동시 접근이 겹치면 bank conflict가 발생해 대기 시간이 길어집니다. 예를 들어 32스레드가 일렬로 배열된 데이터에 한 칸씩 순차 접근하면 한 번에 처리되지만, 16×2 패턴으로 접근하면 두 번 나눠 처리하면서 속도가 절반으로 떨어질 수 있습니다. 따라서 메모리 정렬(alignment)과 배열 설계를 신중하게 해야 합니다.    6. 호스트-디바이스 메모리 전송    GPU 메모리와 시스템 메모리(Host RAM)는 PCIe, NVLink, CXL 등의 인터커넥트로 연결됩니다. PCIe 4.0 x16은 대략 32GB/s, PCIe 5.0은 64GB/s 대역폭을 제공하지만, GPU 내부 메모리에 비하면 여전히 낮은 수준이죠. 데이터 전송을 최소화하려면 연산 전용 데이터를 미리 GPU에 올려두거나, CUDA의 Unified Memory(통합 메모리) 기능을 활용해 필요한 페이징만 자동으로 수행하게 할 수 있습니다. NVLink를 지원하는 고급 GPU 간에는 100GB/s 이상으로 공유 메모리처럼 접근할 수도 있습니다.    7. 메모리 관리와 가상화    고성능 컴퓨팅 환경에서는 여러 프로세스·컨테이너가 하나의 GPU를 공유하기도 합니다. 이때 메모리 가상화 기술이 필요하죠. NVIDIA의 Multi-Instance GPU(MIG)나 AMD의 SR-IOV 같은 기능을 쓰면 물리적 메모리를 논리적으로 분할하여 여러 사용자에게 할당할 수 있습니다. 또한 CUDA나 ROCm에서는 동적 메모리 할당·해제, 메모리 풀(pool) 관리, 페이징(page migration) 등을 지원해 개발자가 직접 <a href='https://sangseek.com/sangseeks/세세한/ko'>세세한</a> 튜닝을 할 수 있습니다. 메모리 단편화(Fragmentation)를 줄이고, 응답성을 확보하는 것이 고부하 환경에서 안정적인 성능을 내는 <a href='https://sangseek.com/sangseeks/비결/ko'>비결</a>입니다.    이상 일곱 가지 관점에서 본 GPU와 메모리의 관계를 살펴보았습니다. GPU 아키텍처마다 세부 구현은 다르지만, 대역폭·레이턴시·계층 구조·용량을 균형 있게 고려해 최적화하는 원칙은 언제나 동일합니다.