
안녕하세요 데이터를 만지고 다루는 안혜민 기자입니다. AI 수요가 폭발적으로 늘어나면서 AI를 돌릴 전력이 점점 화두에 오르고 있습니다. 미래 AI 경쟁의 키가 GPU 같은 '칩'이 아니라 '전력'이 쥐고 있다는 얘기까지 들려올 정도죠. 오늘 오그랲에서는 AI 패권을 잡기 위해 전력 문제를 해결하려는 기업들의 이야기를 준비해 봤습니다. 폭증하는 AI 전력 수요에 '효율성'으로 맞서고 있는 빅테크들과, 효율성 경쟁을 가능케 하는 그들 뒤에 숨어있는 핵심 플레이어를 그래프를 통해 분석해 보겠습니다.
AI 패권 전쟁의 새로운 전선... "칩이 아니라 전력이 문제"

지난 11월 파이낸셜 타임스가 주최한 AI 서밋에서 젠슨 황이 한 발언이 꽤 논란이 되었습니다. 젠슨 황은 이 자리에서 중국이 AI 전쟁에서 승리할 것이라고 강력하게 경고했죠. 젠슨 황이 이런 과격한 발언을 한 배경에는 트럼프 정부가 엔비디아의 최고급 GPU를 중국에 판매하지 못하게 한 제재 조치 때문이 아니냐는 해석도 있긴 합니다.
하지만 젠슨 황이 정말 지적하고자 했던 건 전력 문제였습니다. 중국에서는 다양한 정책을 통해 데이터센터용 전기를 무료에 가깝게 제공해주고 있는데 미국과 유럽은 그러지 못하고 있다는 거죠. 그 사이 중국의 경쟁력은 쭉쭉 올라가고 있는 거고요.
참고로 미국이 GPU 판매를 제한하는 것과 별개로 중국 역시 기술 자립을 위해 미국의 칩 사용을 점진적으로 금지하고 있어요. 로이터 통신에 따르면 현재 중국에서 완공률이 30% 미만인 데이터센터에는 모든 외국산 칩을 빼라고 명령했다고 하죠.

당연히 중국의 AI 기업들도 불만이 많습니다. 성능 좋은 미국산 GPU를 못쓰고 중국산 칩을 쓰면 전기도 많이 사용하게 되고 그러면 그게 다 돈이니까요.
이러한 기업들의 불만을 잠재우고 자국의 AI 성장을 가속화하기 위해, 중국 정부는 전력 보조금 제도를 시행하고 있습니다. 간쑤성, 구이저우성, 네이멍구 자치구 등 데이터센터가 몰려있는 지역에서 AI 데이터센터에 기존 산업용 전력 요금보다 훨씬 저렴한 요금으로 제공해주고 있는 거죠. 당연히 엔비디아나 AMD 같은 미국산 칩을 사용하는 시설은 지원해주지 않고 있고요. 일부 지방에선 데이터센터 1년 치 운영비에 버금가는 현금 인센티브까지 지급한다고 하죠.
중국 정부는 데이터센터뿐 아니라 AI 기업들에 대한 직접적인 지원도 병행하고 있습니다. 틱톡의 모회사인 바이트댄스, 알리바바, 텐센트 등 AI 기업에게도 에너지 보조금을 늘려주고 있어요. 이렇게 흘러가다 보니 젠슨 황이 미국 정부를 향해 경고장을 던진 겁니다.
사실 우리나라야 이제 막 GPU 26만 장을 확보하면서 AI 경쟁에 본격적으로 뛰어들었지만 이미 GPU가 수두룩한 미국 입장에서는 더 이상 칩이 문제가 아닙니다. 그들이 걱정하는 것은 칩 다음에 닥쳐올 파도가 문제인 거죠.
최근 미국에서는 변압기 수요가 크게 늘어나면서 공급이 따라가지 못하는 변압기 대란이 벌어지고 있습니다. 데이터센터가 늘어나면서 전력망의 핵심장비인 변압기를 여기저기서 요구하고 있지만 생산이 그만치 되고 있지 않거든요. 일론 머스크는 일찍부터 AI 산업의 병목이 칩에서 변압기, 그리고 최종적으로 전력으로 옮겨갈 것이라 경고한 바 있습니다.

이런 전망이 나올 수밖에 없는 이유는 머스크의 xAI를 비롯해 빅테크들이 점점 더 큰 규모의 데이터센터를 건설하고 있기 때문입니다. 아래 그래프를 통해 AI 데이터센터 전력 소비량 전망치를 살펴보도록 하겠습니다.

2010년대 미국의 AI 데이터센터에서 소비되는 전력량은 총수요의 1.9% 수준에 불과했습니다. 하지만 2023년엔 전력 소비가 전체의 4.4%로 증가했고 2028년에는 최대 12%까지 증가할 것으로 예측되고 있어요.

사실 이런 경고는 머스크만 한 게 아닙니다. 구글의 전 CEO였던 에릭 슈미트는 자신의 SNS에 AI의 한계는 전력이지 칩이 아니라고 지적했었고요. 메타의 마크 저커버그 역시 작년부터 에너지 제약이 IT 산업의 병목 현상이 될 것이라 경고했죠.
AI는 전기를 '엄청 많이' 먹으며 자란다
빅테크 리더들이 하나같이 전력 문제를 입에 올리는 이유는 AI가 전력을 엄청나게 먹기 때문입니다. AI가 전력이고 전력이 곧 AI라는 말이 나올 정도로 AI는 전력을 엄청나게 소비하며 성장합니다.
모델을 발전시키는 학습 과정에서도 막대한 전력이 소비되고, 학습에 사용되는 GPU의 발열을 잡기 위해 데이터센터 냉각하는 데도 전력이 들어갑니다. 모델을 만들면 전력 소비는 끝이 나는 걸까요? 아닙니다. 우리가 AI 모델과 상호작용을 하는 과정에서도 전력이 많이 들어갑니다. 챗GPT나 제미나이, 클로드에 수십 억 명이 질문을 던지고 그에 따라 AI가 결과물을 뱉어내는 과정, 이른바 추론 과정에서도 엄청난 전력이 소비됩니다.
문제는 각 기업들이 훈련, 추론 과정에 어떤 GPU를 사용해 얼마나 전력이 소비되고 있는지 구체적인 데이터를 제대로 공개하고 있지 않는다는 겁니다. 이러한 수치들이 자신들의 모델 경쟁력이라고 볼 수 있기 때문에 기업 입장에서는 영업 비밀이라고 꽁꽁 감추고 있는 거죠. 하지만 AI 시장에서 전력 소비량이 점점 늘어나고 책임 있는 기업의 운영이 필요하다는 목소리가 높아지면서 관련 데이터를 공개하라는 압박은 커지고 있습니다.
그 와중에 올해 구글에서 처음으로 자신들의 제미나이가 추론 과정에서 얼마나 에너지를 소비하는지를 공개했습니다.

제미나이에게 한 번 질문을 던질 때마다 사용되는 평균 전력량은 0.24와트시입니다. 0.24와트시 가운데 58%는 구글의 TPU 즉, AI 가속기가 실제 추론하고 연산하는 데 사용됩니다. 25%는 TPU를 구동하는 서버의 CPU와 메모리 전력으로 쓰이고요. 그 외에 대기하고 있는 리소스에서도 10%를 먹고, 냉각 등 인프라 관리에 8%를 쓰고 있습니다.
구글이 공개한 0.24와트시는 일반 가정용 TV를 9초 정도 켜 놓는 수준이지만 이건 한 번의 프롬프트 입력만을 상정한 경우입니다.만약 이걸 전체 이용자 수준으로 확대해 본다면 어떨까요?

이번 3분기 실적발표에서 구글은 제미나이의 월 이용자수가 6억 5천만 명을 기록했다고 밝혔습니다. 6억 5천만 명이 하루에 5번씩 그러니까 월간 150회의 프롬프트를 입력한다면 총 97억 5천만 개의 프롬프트가 모델이 들어갈 겁니다. 이걸로 계산해 보면 월간 23.4 기가와트시의 전력이 사용되죠. 이 전력량은 테슬라 모델3를 약 39만 번 충전할 수 있는 에너지 규모입니다.

게다가 이건 구글 제미나이만 따져봤을 때이고, 점유율에서 현재 제미나이를 크게 앞서고 있는 오픈AI는 훨씬 더 많은 에너지를 쓰고 있을 겁니다. 미국에는 챗GPT와 제미나이뿐 아니라 클로드, 퍼플렉시티, 그록도 있죠. 거기에 중국의 딥시크, Qwen, Kimi 같은 다른 모델까지 확장한다면요? 아마 쉽게 상상하기 어려울 정도로 거대한 규모의 전력 소비가 있을 겁니다.
그리고 그 전력 소비량은 앞으로 더 크게 늘어나겠죠.

2024년 기준 전 세계 데이터센터 전력 소비량은 415테라와트시입니다. 전 세계 전력 소비량의 1.5%를 차지하는 수준이죠. 국제에너지기구에서는 2030년까지 전력 소비량이 두 배로 늘어날 것으로 예측하고 있어요. 이 945테라와트시라는 예측치는 일본의 연간 전력 소비량보다 더 많은 규모입니다.
에너지 효율 전쟁의 숨은 플레이어들... 대한민국이 웃는다?
이렇게나 전력을 많이 쓰고 앞으로는 더 쓸 것으로 예측되는 AI 일단 전력 문제를 해결할 가장 기본적인 방법은 전력 생산량을 늘리는 겁니다. 하지만 무작정 석탄 같은 화석 연료로 에너지 생산량을 늘릴 순 없어요. 기후위기 대응을 위해서 탈탄소 노력도 함께 가야 하기 때문이죠.

그러다 보니 데이터센터의 늘어나는 전력을 충당할 핵심 에너지원으로 탄소 배출이 적은 원자력 발전이 떠오르고 있습니다. 그래서 미국에선 가동을 중단했던 스리마일 원전을 부활시켰고 차세대 원전인 SMR을 열심히 개발하고 있는 거죠.
중국도 마찬가지입니다. 중국은 2022년 이후 매년 10곳씩 신규 원자로 건설을 승인하고 있어요. 이런 흐름이 지속되면 2030년엔 중국의 원자력 발전량이 미국을 추월할 것이라는 전망도 나오고 있죠.
이런 노력과 함께 전력을 덜 쓰게 만드는 것도 중요합니다. 그래서 많은 AI 기업들이 한정된 전력 아래에서 더 많은 AI 성능을 뽑아내기 위한 '효율성' 전쟁을 치르고 있죠.
과거에는 반도체 칩의 에너지 효율을 높이는 가장 대표적인 방법이 작게, 더 작게 만드는 거였습니다. 반도체를 구성하는 트랜지스터 수가 약 2년마다 2배씩 증가한다는 '무어의 법칙'이 대표적이죠. 이렇게 트랜지스터를 작게 만들면 해당 트랜지스터에 들어가는 전압과 전류도 같이 줄일 수 있었으니까요.

동일한 사이즈에 더 많은 트랜지스터를 집어넣어도 각각에 트랜지스터에 들어가는 전력도 함께 줄어들기 때문에 비슷한 전력으로도 더 높은 성능을 뽑아내는 게 가능했던 거죠.

1970년대부터 2000년대 초까지는 트랜지스터를 평면에서 계속 작게 만들기만 해도 성능이 쭉쭉 상승했습니다. 연간 최대 50% 가까이 튀어 오를 정도로요. 하지만 2000년대 중반 이후에는 상승폭이 크게 줄어듭니다. 작아진 트랜지스터가 전류를 잡아두지 못하는 문제가 발생했거든요. 게다가 연산하면서 발생하는 발열량도 크게 늘어나고, 데이터가 메모리를 왔다 갔다 하면서 전력을 꽤나 소비한다는 것도 해결해야 할 과제로 등장하게 됩니다.

일단 크기가 워낙 작아지니까 전류의 시작점과 도착지점이 너무 짧아졌고 그러다 보니 게이트를 닫더라도 통제를 무시하고 전류가 그냥 새어나갔어요. 그 당시 반도체 기업들이 이 문제를 해결하기 위해 선택한 건 트랜지스터를 평면이 아닌 입체로 만드는 거였습니다. 기존엔 전류가 흐르는 길이 평면이었다면 물고기 지느러미처럼 3D로 세워서 게이트가 세 면을 감싸게 되면서 통제력을 강하게 한 거죠.

아예 여기서 더 나가서 전류가 흐르는 길을 얇은 선이나 판으로 만들어 사방의 모든 면을 게이트가 감싸도록 만들어 나갔어요.
또한 데이터가 메모리까지 이동하는 거리를 최소화하기 위해 칩과 메모리의 거리를 좁히고 위로 쌓아 올려 버렸습니다. HBM과 3D 패키징 같은 기술이 대표적입니다. 우리에게 익숙한 GPU, 이를테면 엔비디아의 H100과 구글의 자체 NPU인 TPU는 지느러미를 올린 핀펫 기반으로 만들어졌습니다. 또한 HBM과 3D 패키징을 통해 GPU, TPU와 메모리 사이의 거리를 극단적으로 줄여 전력 효율을 높였죠.
그러다 보니 최근 두 기업의 발표자료들을 보면 '전력 효율'이 가득 채우고 있습니다.
(남은 이야기는 스프에서)





동영상 기사

동영상 기사