GPU의 진화: 5가지 거대한 변화!

_____

Q1: 고정 파이프라인 GPU와 프로그래머블 셰이더 전환
A1:
– 고정 파이프라인(fixed-function)은 정해진 순서(vertex transform → rasterization → pixel shading)대로만 처리 가능
– 2001년 마이크로소프트의 셰이더 모델 도입으로 GPU 내 연산 단위를 프로그래머가 직접 제어·확장할 수 있게 됨
– 복잡한 조명·쉐이딩·효과를 자유롭게 구현, 그래픽 품질 극대화와 다양한 비주얼 이펙트(물리 기반 렌더링 등) 실현이 가능해짐

Q2: 통합 셰이더(Unified Shader) 아키텍처
A2:
– 이전 세대는 버텍스 셰이더와 픽셀 셰이더를 별도로 처리하는 고정비율 구조
– 2006년 엔비디아의 G80 시리즈에서 통합 셰이더 코어 도입, 셰이더 유닛이 버텍스·픽셀·지오메트리 연산 모두를 동적으로 분배
– 하드웨어 활용률 및 유연성 대폭 향상, 워크로드 편차에 따른 자원 낭비 최소화

Q3: GPGPU(General‐Purpose GPU)와 병렬 컴퓨팅
A3:

– 본래 그래픽 처리를 위해 설계되었으나 2007년 NVIDIA CUDA, 2009년 OpenCL 등장으로 범용 연산 플랫폼으로 진화
– 수천 개의 코어를 활용한 대규모 병렬 처리로 과학 계산, 머신러닝, 빅데이터 분석 등 고성능 컴퓨팅 분야에서 CPU 대비 수십 배 속도 향상
– GPU 메모리 아키텍처와 스레드 동기화 모델이 범용 연산에 특화되면서 HPC·클라우드·엣지 컴퓨팅에 광범위 적용

Q4: 실시간 레이 트레이싱(RT 코어)
A4:
– 전통적 래스터라이제이션 방식은 간접조명·굴절·섀도우를 근사 계산, 복잡한 연산 시 품질 저하나 계산량 폭증 문제 발생
– 2018년 NVIDIA 튜링 아키텍처에서 RT 코어 도입, 광선-삼각형 교차 테스트를 전용 하드웨어로 가속
– 실시간으로 물리적으로 정확한 반사·굴절·그림자를 구현, 게임·시뮬레이션·시각화 퀄리티 혁신적 향상

Q5: AI 특화 가속기(텐서 코어)
A5:
– 2017년 튜링, 2020년 암페어 아키텍처에서 도입된 행렬 곱셈 전용 하드웨어 유닛
– 딥러닝 연산의 핵심인 대규모 매트릭스 곱·합 연산을 FP16·INT8·TF32 등 다양한 정밀도로 초고속 처리
– 인퍼런스·트레이닝 성능 대폭 강화, DLSS·AI 노이즈 제거·음성 인식·자율주행 등 AI 워크로드에 최적화

GPU의 멀티 GPU 설정의 장단점은 무엇인가요?

GPU의 중요성을 알아야 하는 7가지 이유!

GPU(Graphics Processing Unit)는 지난 수십 년간 그래픽 처리 성능을 비약적으로 끌어올리며, 단순한 화면 렌더링 장치를 넘어 인공지능·고성능 컴퓨팅(HPC)·실시간 레이 트레이싱(ray tracing) 등 다양한 분야의 핵심 가속기로 자리매김했다. 이 과정에서 GPU 아키텍처는 다섯 가지 거대한 변화를 겪으며 진화를 거듭해왔다. 아래에서는 각 변화를 시간 순으로 살펴보고, 그 배경과 의미를 자세히 설명한다.

1. 고정 기능 칩셋에서 프로그래머블 셰이더로의 전환 1990년대 중·후반까지만 해도 GPU는 주로 정해진 그래픽 파이프라인(고정 기능, fixed-function)으로 동작했다. 텍스처 매핑, 래스터화, 조명 계산 등 각 단계가 하드웨어에 하드코딩되어 있어 개발자가 개별 연산을 수정하거나 응용하기 어려웠다. 그러던 중 2001년 엔비디아의 GeForce 3와 ATI(당시)의 Radeon 8500이 DirectX 8 기반의 ‘프로그램 가능 셰이더(programmable shader)’를 지원하기 시작했다. 버텍스 셰이더(vertex shader)와 픽셀 셰이더(pixel shader)를 통해 개발자는 자체 알고리즘으로 버텍스 변환·광원 처리·픽셀 단위 효과를 주입할 수 있게 되었다. 이 전환은 GPU를 단순한 동영상·게임 보조 장치가 아닌 범용 연산 플랫폼으로 확장하는 첫걸음이었다.

2. 통합 셰이더 아키텍처(unified shader architecture)의 도입 프로그램 가능 셰이더가 도입된 직후, GPU 내부에는 버텍스·픽셀 셰이더 전용 유닛이 별도로 존재했다. 그러나 워크로드에 따라 버텍스 셰이더가 놀고 픽셀 셰이더가 바쁘거나 그 반대가 되는 비효율이 잦았다. 이를 해결하기 위해 2006년 엔비디아의 G80(GeForce 8800 시리즈)과 AMD(구 ATI)의 R600(Radeon HD 2000 시리즈)이 ‘통합 셰이더’ 아키텍처를 채택했다. 모든 셰이더 유닛이 버텍스·픽셀·지오메트리 셰이더 연산을 유동적으로 처리할 수 있도록 한 것. 덕분에 GPU 자원을 실시간으로 균형 있게 배분해 처리량을 극대화했고, DirectX 10·11 시대의 복잡한 그래픽 효과를 구현하는 토대를 마련했다.

3. 범용 병렬 컴퓨팅(GPGPU) 지원으로의 확장 2000년대 중반 이후 GPU는 그래픽 외에도 물리 시뮬레이션, 과학 계산, 딥러닝 훈련 등 높은 수준의 병렬 계산을 요구하는 분야로 영역을 확대했다. 2006년 엔비디아가 CUDA(Compute Unified Device Architecture)를 발표하며 ‘GPU를 범용 병렬 계산에 활용하라’는 패러다임을 제시했다. 동시에 Khronos Group의 OpenCL도 산업 표준으로 자리 잡아, GPU 연산을 언어·플랫폼에 독립적으로 활용할 수 있는 기반을 제공했다. 이를 통해 수천 개의 코어가 동시에 단순·유사한 연산을 수행하는 GPU의 본질적인 강점을 오프로드·가속 영역으로 연결함으로써, 머신러닝·빅데이터 분석·유체역학·암호 해독 등 다양한 분야의 성능 혁신을 이끌었다.

4. 메모리 구조와 인터커넥트 혁신 GPU가 처리해야 할 데이터 규모와 연산 복잡도가 폭증하면서, 메모리 대역폭과 시스템 연동 방식의 혁신이 필수 과제로 떠올랐다. 전통적인 GDDR3·GDDR5에서 2013년부터 HBM(High Bandwidth Memory)을 도입해 칩과 패키지를 3D 스택(적층) 방식으로 설계함으로써, 동일한 면적 대비 대역폭을 획기적으로 늘렸다. 뒤이어 HBM2, HBM2e로 발전하며 최대 수백 GB/s에 달하는 전송 속도를 실현했다. 또 GPU 간, GPU와 CPU 간 데이터 병목을 줄이는 NVLink, PCIe Gen4·5 인터페이스, AMD의 Infinity Fabric 등 고속 인터커넥트 기술이 등장해 멀티 GPU 시스템이나 CPU와의 협업 성능을 대폭 향상시켰다.

5. 레이트레이싱·AI 전용 코어의 통합 2018년 엔비디아 튜링(Turing) 아키텍처는 GPU 진화의 또 다른 분수령이 되었다. 전통적 셰이더 코어 외에 실시간 레이트레이싱 처리를 위한 RT 코어(ray-tracing core)와, AI 기반 연산을 위한 텐서 코어(tensor core)를 별도 탑재해 하드웨어 차원의 가속을 구현했다. RT 코어는 광선 투사·반사·굴절 등 복잡한 빛의 경로를 병렬로 계산하고, 텐서 코어는 딥러닝 추론·훈련을 위한 대규모 행렬 연산을 효율적으로 처리한다.

이들 전용 코어 덕분에 게임·엔터테인먼트 분야에서는 물리 기반 렌더링(PBR)과 AI 업스케일링(DLSS) 같은 혁신적 그래픽 효과가 실시간으로 가능해졌고, 데이터센터·자율주행·로봇공학에서도 GPU 활용 범위가 급격히 확대되었다. 결론적으로 GPU는 단순한 3D 렌더링 가속기를 넘어, 프로그래머블 셰이더·통합 아키텍처·범용 병렬 컴퓨팅·메모리 혁신·전용 가속 코어라는 다섯 가지 관점에서 거대한 진화를 이루어 왔다. 이 과정에서 게임·영상·디자인 등 소비자용 애플리케이션은 물론, AI·과학연구·자동차·의료 등 산업 전반이 GPU의 발전에 힘입어 새로운 패러다임을 맞이하고 있다.

앞으로도 칩 설계, 회로 공정, 메모리 기술, 인터커넥트 혁신이 조화를 이루며 GPU는 더욱 강력하고 똑똑한 연산 플랫폼으로 진화할 것이다.

작성자: 정다희 [비회원] | 작성일자: 10개월 전
조회수: 140 | 댓글: 0 | 좋아요: 0 | 싫어요: 0

내용이 부정확하다면 싫어요를 클릭해주세요.

수정