Loading...

GPU가 마약보다 구하기 어렵다? GPU 부족한 대한민국…GPU 사와도 문제인 이유 [스프]

[오그랲]
오그랲
 

세상 복잡한 이야기들, 5가지 그래프로 명쾌하게 풀어내는 오그랲입니다.
 

6월 대통령 선거를 앞두고 대선 후보들이 저마다의 공약을 내세우고 있습니다. 시대의 화두가 된 AI 관련 정책도 빠지지 않고 있죠. 후보들이 얘기하는 걸 들어보면 AI 투자를 늘리겠다, GPU 더 많이 사겠다 뭐 이런 식의 이야기들이 공통적으로 나오고 있어요.

오늘 오그랲에서는 이러한 공약을 듣기 앞서서 알아두면 좋을 지식들을 정리해보려고 합니다. 도대체 AI에 그래픽카드에 들어가는 GPU가 왜 필요한 건지, 또 GPU만 우리가 확보하게 된다면 AI 개발할 수 있는 환경이 조성되는 건지, 5가지 그래프를 통해 하나하나 따져보도록 하겠습니다.


왜 AI에는 GPU가 필요할까?
아마 CPU, GPU라는 단어는 많이 들어보셨을 겁니다. 특히 컴퓨터 게임을 즐겨하는 게이머 입장에선 그래픽카드와 GPU가 더 익숙할 테고요. CPU와 GPU의 단어를 풀어보면 중앙처리장치, 그리고 그래픽처리장치 이렇게 됩니다. 이름에서 알 수 있듯이 CPU는 컴퓨터의 두뇌 역할을 하고요, GPU는 그래픽을 처리하죠.

이 GPU라는 단어가 탄생한 곳, 바로 엔비디아입니다. 1999년 엔비디아가 세계 최초의 그래픽 특화 장치인 지포스 256을 출시하는데, 이때 엔비디아의 마케팅 책임자가 GPU라는 이름을 붙였어요. 사실 엔비디아는 CPU를 만들고 싶었지만 워낙 CPU에는 인텔같은 강자들이 꽉 잡고 있었던지라 CPU 시장 대신, 당시 비디오 게임으로 인해 수요가 높아진 그래픽 쪽으로 눈길을 돌렸던 거죠.

GPU가 어떤 식으로 작동하는지 보기 위해 한 번 예시를 들어보도록 할게요.

우리가 컴퓨터로 보는 화면은 아주아주 작은 픽셀들로 이뤄져 있어요. 가령 FHD 해상도라면 1920 X 1080로 표시되는데 이 말은 가로엔 1,920개의 픽셀이, 세로엔 1,080개의 픽셀이 있다는 거죠. 곱해보면 FHD에는 모두 207만 3,600개의 픽셀이 존재합니다. 그런데 만약 이 화면으로 돌아가는 게임이 1초에 60장의 프레임으로 돌아간다면 어떻게 될까요? 그렇다면 컴퓨터는 1초에 1억 2,441만 6,000개의 픽셀을 처리해야 합니다.

개수만 해도 1억 개가 넘는데, 이 1억 개의 픽셀에 들어가는 정보량은 더 많습니다. 만약 3D 게임이라면 3D 모델링 정보를 2D로 바꿔서 위치 정보를 넣어줘야 하고요. 또 조명에 따른 효과나 텍스처에 따른 색상의 변화값도 계산되어야 하죠.

아주 짧은 시간에 수많은 계산을 처리하기에 기존의 CPU는 한계가 있습니다. 왜냐하면 CPU는 복잡한 정보를 순차적으로 계산하는 데 특화되어 있거든요. 그래서 CPU보다는 덜 똑똑하더라도 수많은 정보를 한꺼번에 계산할 장치가 필요했습니다. 그래서 엔비디아는 GPU를 만들었습니다.

왼쪽이 CPU고 오른쪽이 GPU입니다. 여기서 초록색으로 표시된 ALU가 연산을 하는 장치인데요. CPU에는 소수의 똑똑한 계산기가 들어있는 반면, GPU에는 CPU에는 못 미치지만 훨씬 더 많은 계산기가 들어있어요. 이렇게 다른 구조 때문에 계산량이 크게 차이나 납니다. 오그랲 첫 번째 그래프를 통해 CPU와 GPU의 차이를 살펴보겠습니다.

CPU와 GPU의 초당 계산 횟수를 나타내보면 이렇습니다. GPU에선 수많은 계산기가 한꺼번에 연산을 하기 때문에 CPU보다 연산량이 압도적으로 높죠.

엔비디아의 GPU는 90년대 3D 게임의 유행과 함께 승승장구했습니다. 그런 와중에 젠슨 황은 그래픽이 아닌 다른 곳에 주목했는데, 그건 바로 GPU의 슈퍼컴퓨팅 능력이었어요. 젠슨 황은 GPU의 병렬 계산 능력을 잘 살린다면 과학 연구라든지 날씨 시뮬레이션 같은 복잡한 연구에 충분히 활용할 수 있겠다는 생각을 갖고, 프로젝트를 시작합니다. 바로 CUDA입니다.

엔비디아가 2006년 말에 CUDA를 출시한 직후 시장 반응은 냉담했습니다. "게임과 그래픽에 집중해도 모자랄 판에 갑자기 슈퍼컴퓨팅?"이라는 반응이었죠. 그 영향이었는지 2008년까지 엔비디아 주가는 꾸준히 하락합니다. 하지만 그럼에도 불구하고 젠슨 황은 물리학, 경제학 등 학계를 가리지 않고 CUDA를 꾸준히 세일즈 했죠.

그러다가 2012년 사건이 터진 겁니다. 엔비디아의 월드모델 편에서 다루었던 제프리 힌턴 팀의 '알렉스 넷' 쇼크가 바로 그겁니다. 당시 구글이 AI 신경망 훈련에 CPU를 약 1만 6,000천 개를 사용했는데 이들은 단 2개의 엔비디아 GPU만 사용해서 세상을 놀라게 했어요. 딥러닝에 필요한 수많은 연산을 GPU를 이용해 처리하니 기존보다 훨씬 더 효율도 좋고, 성능이 좋다는 걸 증명해 낸 거죠.

이후 엔비디아는 머신러닝과 AI에 집중해 GPU를 생산합니다. 페르미, 케플러, 맥스웰, 파스칼 등 과학사에 족적을 남긴 학자들의 이름을 붙인 AI 전용 GPU를 생산했고, 암페어 이후부터는 그래픽 기능은 더 줄여서 GPU의 범용성은 낮추고, 대신 병렬 컴퓨팅 능력을 더 높인 AI 특화 GPU를 출시하기 시작합니다. 이 암페어 시리즈가 바로 뉴스에 자주 나오는 A100 GPU입니다. 암페어 다음 시리즈는 컴퓨터에서 '버그'라는 개념을 창시한 그레이스 호퍼의 이름을 딴 H 시리즈이고요.

왜 AI 영역에 GPU가 필요한지 어느 정도 감이 오셨나요? 참고로 GPU의 병렬 처리에 관심을 둔 또 다른 사람들이 있었으니 바로 코인 채굴러들입니다. 비트코인 채굴은 단순한 계산을 계속해서 반복하는 과정인데, 이 역시 GPU가 능력을 발휘한 겁니다.


"GPU, 마약보다 구하기 어렵다"
코인 광풍에도 GPU가 핵심이고, 또 AI 발전 속도가 점점 빨라지면서 GPU 수요는 천정부지로 올랐습니다.

미국과 중국같이 AI 리더 국가들 입장에선 세계 최고의 자리를 지키기 위해 GPU를 확보해서 모델 고도화에 나서야 하고요. 또 우리나라같이 후발 국가들은 뒤처지지 않기 위해선 AI 모델 개발에 나서야 하는 만큼 GPU가 절실합니다. 하지만 엔비디아가 공급하는 GPU 물량엔 한계가 있을 수밖에 없죠. 지난 2023년에 있었던 월스트리트저널의 CEO 카운슬 서밋에서 일론 머스크는 이렇게 얘기하기도 했습니다. "GPU가 마약보다 훨씬 구하기 어렵다"고요.

하지만 그럼에도 불구하고 글로벌 빅테크들은 엔비디아의 H100 GPU를 속속들이 사모으고 있어요. 오그랲 두 번째 그래프를 통해 살펴보도록 하겠습니다.

지난해 엔비디아의 최대 고객은 마이크로소프트였습니다. 마이크로소프트는 2024년 엔비디아가 판매한 전체 GPU 가운데 20% 넘게 쓸어 버렸습니다. 모두 48만 5,000개나 구매했죠. 뒤이어 메타가 22만 4천 장, 아마존이 19만 6천 장, 구글이 16만 9천 장을 기록했는데, 마이크로소프트 구매량의 절반도 되질 않아요.

마이크로소프트가 엔비디아에 사용한 자금이 310억 달러, 우리나라 돈 43조 원이 넘습니다. 우리나라 2025년 국방부 예산이 45조 원인데 이 금액을 GPU 사는 데에만 쓴 거죠.

이렇게 구하기도 어렵고, 또 사려니 가격도 문제인 엔비디아의 GPU. 기업들은 엔비디아 GPU 대신 쓸 무언가를 고민하기 시작합니다. GPU의 병렬처리능력이 AI 모델 개발에 좋다는 건 알겠는데, 태생이 GPU는 그래픽 처리하는 장치 아니겠어요? 이 태생이 주는 한계도 있기 때문에 기업들은 AI 연산 전용 칩의 필요성을 느끼기 시작합니다.

그래서 머신러닝 특화된 칩이 등장하니 그게 바로 Neural Processing Unit, NPU입니다. 인공신경망의 '신경', Neural이 이름에 들어가 있죠. NPU는 GPU와는 다르게 AI 추론을 처리하는 용도로만 설계한 겁니다.

왼쪽이 GPU고 오른쪽이 NPU입니다. GPU와 마찬가지로 NPU에도 연산처리장치가 여러 개가 들어가 있죠. 차이점은 GPU엔 메모리가 이렇게 따로 있지만, NPU엔 연산처리장치에 붙어 있다는 겁니다. GPU의 태생적인 한계는 이렇게 메모리와 연산장치와의 거리가 멀리 있다는 겁니다. 메모리에 저장된 데이터를 빼오는 과정에 전력이 크게 발생해서 전력 소모가 심하다는 한계가 있어요. NPU에선 이걸 해결하려고 연산장치에 메모리를 붙여버린 거고요. 전력 소모도 덜하고, 또 메모리와의 거리가 가까워진 만큼 NPU는 GPU처럼 제어회로를 쓸 필요도 없어서 회로 배선이 단순합니다. 그래서 소형화하는 데에도 NPU가 강점이 있죠.

빅테크들은 자체 NPU를 꾸준히 개발하면서 탈 엔비디아를 준비하고 있습니다. 가장 열심히 준비한 기업은 바로 구글입니다. 구글은 TPU라는 걸 만들어서 쓰고 있어요. TPU가 어디에 쓰였냐면요, 바로 바둑 AI 알파고입니다. 알파고가 판 후이 2단과의 대결 당시에는 176개의 GPU를 사용해 학습했었어요. 하지만 이세돌 9단과의 세기의 대결 시점에는 구글의 자체 칩인 TPU 48장을 활용했습니다.

꾸준히 구글 자체의 AI 칩을 고도화한 덕분에 구글은 엔비디아 GPU에 목맬 필요가 없습니다. 구글의 AI를 개발하는 데엔 자체 TPU를 사용하고 다른 범용 처리엔 엔비디아 GPU를 사용하면 되니까요.

구글뿐 아니라 다른 빅테크들도 AI 전용 칩 개발에 뛰어들었습니다. 엔비디아의 두 거물급 회원인 메타와 마이크로소프트도 마찬가지죠. 메타는 MTIA를 출시했고, MS도 MAIA 100을 내놓았습니다. 애플에겐 ANE가 있고요, 테슬라도 D1이라는 전용 칩을 개발했습니다. 오픈AI도 늦었지만 자체 AI 반도체 개발을 위해 무려 7조 달러를 투자할 것이라고 발표하기도 했고요.


전 세계는 지금 AI 인프라 전쟁
빅테크들은 GPU도 수십만 장씩 구매하고 자체 AI 칩도 개발해서 자생력을 기르고 있습니다. 그렇다면 우리나라 상황은 어떨까요?

우리나라는 GPU가 없어서 연구를 못한다는 얘기가 나옵니다. 그 말의 근원이 되었던 건 바로 이 보고서입니다.

소프트웨어정책연구소가 2023년 기준으로 국내 AI 기업을 상대로 설문조사를 했는데요. 당시 우리 기업이 보유한 H100 GPU가 1,961개로 나옵니다. 우리나라엔 H100 GPU 2,000장도 없어서 제대로 된 AI 연구도 못 한다는 말이 그래서 나온 겁니다.

다만 이 수치는 일단 2년이라는 시차도 있고요, 일각에서는 너무 과소 집계되었다는 지적이 있습니다. 하지만 실제 2,000장 보다 더 많더라도 우리나라 AI 개발 인프라가 부족한 건 사실이죠.

AI 경쟁의 본질은 AI 모델의 성능인데, 결국엔 AI를 학습시킬 수 있는 연산 능력으로 귀결됩니다. 즉 GPU를 얼마나 확보했는지, 또 이를 수용할 데이터센터가 얼마나 되는지가 AI 경쟁력의 척도라는 거죠. 하지만 우리나라는 턱없이 부족합니다. 이미 세계 각국은 AI 산업을 육성하기 위해 열을 올리고 있는데 말이죠.

데이터센터의 상황을 볼까요? 엄청난 양의 데이터를 실시간으로 처리하는 AI를 구현하는 데에 데이터센터는 핵심 인프라입니다. AI 모델 성능을 높이고 또 안정적인 서비스를 제공하기 위해서도 데이터센터가 필요한 만큼 그 중요성은 더욱 커지고 있죠. 오그랲 세 번째 그래프를 통해 데이터센터 인프라 현황을 살펴보겠습니다.

2024년 3월 기준으로 전 세계엔 1만 1,800개의 데이터센터가 운영 중입니다. 그중 절반에 가까운 45.6%가 미국에 있죠. 미국 뒤로는 독일이 521개, 영국이 514개로 유럽 국가들이 상위권을 차지하고 있습니다. 중국은 449개로 4위를 차지했고요. 우리나라는 153개의 데이터센터가 운영되고 있습니다.

최근에 대한상공회의소에서 우리나라가 AI 글로벌 3위 안에 들어가려면 충분한 AI 기반이 갖춰져야 한다고 조언하기도 했는데요, 그중에서도 첫째로 꼽은 게 바로 AI 데이터센터입니다. 데이터센터 중에서도 AI에만 특화된 AI데이터센터는 전 세계에선 이미 시장 규모가 크게 늘어나고 있지만 우리나라는 이제 시장이 형성되는 단계입니다.

2019년부터 2025년까지 AI 데이터센터 성능을 분석해 보면 AI 데이터센터의 연산 능력은 9개월마다 두 배씩 증가하고 있습니다. 연 단위로 보면 매년 2.5배 증가하는 셈이죠. 현재 가장 뛰어난 성능의 AI 데이터센터가 xAI의 콜로서스인데요. 이거 만드는데 70억 달러, 우리 돈으로 9조가 넘게 들었습니다. 이 시설엔 H100 GPU 10만 장이 탑재되어 있고요. 참고로 우리나라 광주에도 AI 데이터센터가 있는데, 여기에는 H100 GPU가 880장 들어 있고요. 연산량은 콜로서스의 2천 분의 1 수준입니다.

미국의 빅테크들이야 이렇게 수 조원의 돈을 들여서 AI 인프라를 갖추고 있지만, 이건 천조국 미국의 얘기고요. 우리나라는 민간에서 이 정도의 인프라를 갖추기는 쉽지 않습니다. 그렇다면 정부가 역할을 해줘야 할 텐데요. 우리나라도 대책이 없는 건 아닙니다. 다만 그 속도가, 다른 국가와 비교해서 그렇게 빠르다는 인상을 주진 못하고 있어요.

정부에서 처음 발표한 계획에선 2030년까지 GPU 3만 장을 확보하는 게 목표였습니다. 하지만 이 계획이 너무 느리다는 지적이 나오자 목표를 수정했죠. 일단 과학기술정보통신부에선 올해 1조 4,600억을 투입해서 신속하게 GPU 1만 장을 연내에 확보할 계획입니다. 그리고 목표 시점을 앞당겨서 이르면 2026년, 늦어도 2027년 초에는 3만 장을 확보하려고 하고 있고요. 지금 당장은 엔비디아의 GPU를 사 오겠지만, 점진적으로는 국산 AI 칩을 활용할 계획입니다. 삼성전자와 퓨리오사AI가 열심히 만들고 있는 국산 NPU가 그 대상이 될 수 있습니다.


'AI 기반'에 빠져서는 안 될 두 가지, 전력과 물
그렇다면 이제 계획대로 설비 갖추고 GPU도 구하면 AI를 제대로 만들 수 있게 되는 걸까요? 아직 더 신경 써야 할 게 있습니다.

위의 이미지는 미국 테네시 주에 있는 메타의 데이터센터입니다. 데이터센터 옆에 딱 붙어 있는 이 시설은 뭘까요? 바로 변전소와 발전소 같은 전력 시설이라는 겁니다.

AI 인프라와 함께 신경 써야 할 문제, 바로 전력입니다. AI 데이터센터는 전기를 먹고 자란다는 말이 있을 정도로 전력 문제와 AI는 떼어 놓고 볼 수 없습니다. GPU가 워낙 전력을 많이 먹기 때문에 어떻게 에너지를 가져오고 운영할지가 매우 중요하거든요.

2020년에 발표되었던 GPT-3 모델을 학습하는 데 최대 1,287 메가와트시의 전력이 소모된 걸로 알려져 있는데요. 이건 테슬라 모델3를 17,000번 이상 충전할 수 있는 전력량입니다. 총 주행거리를 따지면 지구 215바퀴를 돌 수 있는 에너지예요. 5년 전 GPT-3가 이 정도인데, 앞으로는 더 많은 전력이 소비되겠죠? 오그랲 네 번째 그래프에선 데이터센터의 전력량을 살펴보겠습니다.

2020년에만 하더라도 전 세계 데이터센터에 사용된 전기는 300 테라와트시 정도였어요. 하지만 2030년엔 1,048 테라와트시로 늘어날 것으로 전망됩니다. 이건 2023년 일본의 총 전기 소비량보다 많은 에너지 규모죠. 국제에너지기구 IEA에서는 현재 에너지 상황을 고려해 본다면 계획된 데이터센터의 20% 정도는 전력난을 겪을 것이라 전망했어요.

이미 일부 지역에선 데이터센터의 전력 문제로 골머리를 앓고 있습니다. 대표적인 사례가 아일랜드입니다. 아일랜드는 온도도 선선하고, 지정학적으로 미국과 유럽에 대한 접근성이 좋아서 데이터센터 성지로 떠올랐습니다. 그런데 최근엔 아일랜드가 데이터센터 건설 허가를 막고 있어요. 왜냐고요? 에너지 공급이 어려워서요.

2023년에 데이터센터가 사용한 전력량이 아일랜드 전체의 21%를 차지할 정도로 상당합니다. 아일랜드의 국영 전력회사인 얼그리드는 이런 흐름이라면 2032년이면 아일랜드 전력의 30%가 오롯이 데이터센터에만 쓰일 것으로 예측했죠.

미국의 상황도 마찬가지입니다. 미국 데이터센터 중 많은 시설이 북부 버지니아에 몰려 있는데요. 버지니아 주의 데이터센터들의 전력 소비가 주 전체의 25%를 차지하고 있습니다. 데이터센터에 원활한 에너지를 공급하기 위해 화석연료인 석탄발전을 다시 돌리는 걸 검토하기도 했어요.

AI 데이터센터를 이제 막 지으려는 우리나라 입장에선 앞선 사례들을 잘 참고해서 AI 인프라와 전력망을 설계할 필요가 있습니다. 이미 서울대, 숭실대에서 AI 데이터센터를 지으려 했지만 변전소 설비 부족 문제로 한전이 추가 전력 공급에 난색을 표한 사례가 있는 만큼 마냥 미래의 이야기도 아닙니다.

또 우리나라는 수도권 집중도가 심각해서 비수도권에서 생산된 전력이 해당 지역에서 소비되지 않고 있다는 점도 고려할 필요가 있어요. 오그랲 마지막 그래프를 통해 살펴보겠습니다.

서울 경기권, 나아가 충청권까지는 소비량보다 발전량이 적어서 전력 자급률이 떨어집니다. 반면 영남과 호남, 강원 지역은 발전량이 소비량보다 더 많아서 전력이 남고 있죠. 하지만 수도권에 첨단산업 단지가 집중되어 있는 탓에 비수도권에서 생산된 전력은 긴 송전선을 타고 수도권으로 옮겨지고 있습니다. 안 그래도 지금도 국내 데이터센터 중 60% 가까이가 수도권에 몰려 있는데, 추후 건설될 대규모 데이터센터들 마저 수도권에 짓는 건 바람직하지 않다는 지적이 그래서 나오는 겁니다.

특정 지역에만 전력 소비가 몰리면 정전 가능성도 올라가고, 만에 하나 정전 사고가 발생할 경우에도 집중된 시스템이 한꺼번에 다운이 돼버리면 사회가 마비될 수도 있기 때문에 전력망과 설비를 고르게 분배할 필요가 있다는 거죠.

그래서 일단 2030년 목표로 달려 나가고 있는 국가 AI 컴퓨팅센터는 비수도권에 세우는 걸 계획하고 있습니다.

데이터센터의 물 소비도 따져봐야 할 지점입니다. 데이터센터는 전기뿐 아니라 물도 엄청나게 먹거든요. 데이터센터에서 발생하는 열을 식히기 위해 물이 사용되는데요, 100 메가와트 이상의 큰 규모의 데이터센터에는 하루에만 200만 리터가 넘는 물이 필요합니다. 6,500 가구가 사용하는 것과 같은 규모죠.

데이터센터가 이렇게나 많은 물을 사용하면서, 주민들과의 갈등도 점차 많아지고 있습니다.

2023년 최악의 가뭄을 겪었던 우루과이의 이야기입니다. 당시 우루과이 사람들은 먹을 물이 없어서 궁여지책으로 소금기가 있는 물을 생활 용수로 사용했는데요. 우루과이에 새롭게 지어질 구글의 데이터센터엔 깨끗한 물이 사용된다는 소식을 듣고 많은 사람들이 반발을 하고, 시위에 나섰어요.

기후위기로 극한의 폭염과 가뭄이 잦아지면서 데이터센터에 사용될 물을 두고 생기는 갈등은 국가를 가리지 않고 있습니다. 우루과이뿐 아니라 네덜란드, 미국에서도 비슷한 논란이 이어지고 있죠.

지금까지 AI 기반의 핵심이 되는 GPU와 NPU, 또 데이터센터를 살펴봤습니다. AI는 이제 선택이 아닌 필수인 시대가 왔습니다. 이에 대응하기 위해선 부족한 인프라를 신속히 갖춰야 할 겁니다. 하지만 GPU 3만 장을 확보하고, AI 데이터센터를 짓는 것만으로는 AI 경쟁력을 갖출 수 없습니다. 그 많은 GPU를 돌릴 전력은 어디서 조달할 것인지, 또 발생하는 열을 식히기 위한 물은 어떻게 확보할 것인지 종합적인 계획이 필요하죠.

(남은 이야기는 스프에서) 더 깊고 인사이트 넘치는 이야기는 스브스프리미엄에서 보실 수 있습니다.
이 콘텐츠의 남은 이야기가 궁금하다면 하단 버튼 클릭! | 스브스프리미엄 바로가기 버튼
Copyright Ⓒ SBS. All rights reserved.
무단 전재, 재배포 및 AI학습 이용 금지
댓글 아이콘댓글
>