AI의 다음 장: GPU 부족이 아니라 전력·그리드, 그리고 좌초자산 리스크

지금부터 무엇이 ‘다음 장’을 여는가?를 병목(bottleneck)·신뢰(trust)·자본(capital)·아키텍처(architecture)라는 관점(view)으로 정리한 글이다.

TL;DR

병목은 GPU에서 전력/그리드/부지/냉각으로 이동하고 있다. 이제 “컴퓨트가 부족”한 게 아니라 컴퓨트를 꽂을 ‘자리(전력/열)’가 부족하다.
더 위험한 건 “인프라가 병목”인 것만이 아니라, 그 인프라가 특정 세대/전력밀도/쿨링 패러다임에 락인되어 좌초자산이 되는 리스크다.
아키텍처 발전은 강력한 변수지만, 현실은 다변수 + 교차항(상호작용) + 피드백(내생성)이다. “아키텍처 1변수”로는 사이클을 설명하기 어렵다.
전력/그리드 제약이 커질수록, “더 큰 모델” 게임보다 “같은 컴퓨트로 더 똑똑해지는(추론에서 생각하는)” 게임이 경제적으로 유리해진다.
결말은 대략 3가지로 갈라진다: A(버리형 과잉) / B(Andrew Ng형 정당화) / C(제약발 혁신형 재배치).

1) 병목 캐릭터가 이동한다: GPU → 전력/그리드/부지/냉각

AI 인프라 논쟁은 오랫동안 “GPU가 부족하다”로 요약됐다.
하지만 이제 더 근본적인 병목이 튀어나온다.

전력(메가와트): GPU를 사는 게 아니라, 사실은 MW를 사는 게임이 됐다.
그리드(접속 권리/변전/송전): 전력망에 붙는 순간부터는 기술 문제가 아니라 인허가·입지·정치·시간의 문제가 된다.
냉각(쿨링): 전기는 열로 바뀐다. 열을 버리지 못하면 ‘GPU를 샀는데도’ 못 돌린다.

여기서 중요한 전환은 이거다.

이제 scarcity는 “GPU 칩”이 아니라, 전기·열·부지·규제·공사 시간으로 이동한다.

이 전환이 생기면, CAPEX(설비투자)는 더 이상 “장비 가격”만의 함수가 아니다.
전력 인프라의 납기/규제/입지 리스크가 CAPEX의 의미를 바꾼다.

2) 더 무서운 건 ‘병목’이 아니라 ‘좌초자산’이다

병목이 전력/냉각으로 이동할 때, 사람들은 보통 이렇게 생각한다:

“그럼 전력만 확보하면 되겠네.”

하지만 진짜 리스크는 다음이다.

전력은 확보했는데, ‘그 전력을 어떤 형태로 넣고(랙/로우), 어떤 방식으로 빼낼지(쿨링)’가 바뀌어버리면 기존 설비가 안 맞는다.

이게 좌초자산(stranded asset)의 전형이다.

물리적으로는 남아 있다(건물도, 변전도, 일부 랙도).
그런데 다음 세대의 전력 밀도(power per rack/row), 쿨링 패러다임(예: 공랭→액체 냉각)이 바뀌면,
기존 설비는 “돌아가긴 하지만 비싸고 비효율적”이 된다.
즉 경제적 수명이 먼저 끝난다.

여기서 버리의 핵심 프레임이 다시 등장한다.

물리적 수명(아직 돌아감) ≠ 경제적 수명(이제 돈이 안 됨)

그리고 나델라의 발언(전력/쿨링/세대 교체 속도에 대한 공포)이 이 논점을 “현장 언어”로 확인해준다.
그가 두려워하는 건 “수요가 없다”가 아니라 ‘한 세대에 맞춘 형태로 너무 크게/빨리 지어버리는 것’이다.

결국 좌초자산 리스크는 이렇게 생긴다:

전력/그리드 제약이 커질수록: 증설은 느려지고, 한번 지으면 오래 가야 한다.
세대 교체가 빨라질수록: 오래 갈수록 오히려 ‘안 맞는’ 설비가 된다.
이 둘이 겹치면: “감가상각은 4~6년인데 경제적 가치는 2~3년에 훼손”(예시) 같은 불일치가 발생한다.

3) 신뢰 충격(Trust Shock): 로컬/온프렘/오픈은 ‘취향’이 아니라 ‘책임’이 된다

“다음 장”의 또 다른 축은 신뢰다.

대형 사고/스캔들이 누적되면 사회는 보통 금지로 가기보다, 다음으로 간다:

검증/감사(로그)
권한/승인
샌드박스
프로비넌스(출처/이력)

이 흐름이 커질수록, 워크로드는 단순히 “클라우드에서 더 크게”가 아니라:

로컬/온프렘으로 내려가거나,
멀티벤더/표준 API로 갈아타거나,
오픈웨이트/자체 운영으로 “통제 가능”을 확보하려는 압력이 커진다.

즉, 기술 스택이 아니라 책임 비용 구조가 워크로드의 위치를 바꾼다.

4) 그래서 “아키텍처 1변수”가 아니라 “다변수+피드백”이다

아키텍처 발전(효율 점프)은 분명 강력한 변수다.
하지만 현실은 이렇게 생겼다:

1) 아키텍처가 CAPEX를 흔든다
효율 점프는 “같은 성능 = 더 적은 컴퓨트”를 만들고, 기존 설비의 경제적 가치를 흔든다.

2) 제약이 아키텍처를 밀어붙인다(내생성)
전력/그리드/규제 같은 제약이 커질수록, 기업과 연구는 “스케일링(도구빨)” 대신 효율/새 아키텍처(짱구)로 압력을 받는다.

3) 수요(ROI)가 CAPEX를 다시 자극한다
현금 반복매출이 두꺼워지면 CAPEX가 늘고, 그 CAPEX가 다시 그리드를 압박한다.

5) LLM 다음: 전력 제약이 아키텍처 전환을 가속한다

앞에서 본 전력/그리드 제약은 단순히 “증설을 늦춘다”로 끝나지 않는다.
제약이 커질수록, “훈련 컴퓨트를 더 때려박기”보다 “같은 컴퓨트로 더 똑똑해지는 길”이 경제적으로 유리해진다.

그래서 다음 장은 “더 큰 모델” 게임이 아니라, “추론에서 생각(서치/검증)을 더 하는 게임”으로 이동할 수 있다.

아빠가 말한 “LLM에서 한 단계 더 발전한 진정한 이성(AGI/ASI급)”은 이 맥락에서 이해해야 한다:

그럴듯한 문장 생성이 아니라, 목표를 세우고 → 계획을 세우고 → 행동하고 → 검증하고 → 기억을 갱신하는 루프다.

즉, “모델 하나를 더 키운다”로 해결되기보다, 여러 모듈이 맞물린 시스템 아키텍처로 갈 가능성이 크다.

5.1 왜 LLM만으로는 ‘이성’이 부족해 보이나

LLM은 “언어 UI”로는 압도적이다. 하지만 ‘이성’ 관점에서 약점이 드러나는 지점이 있다.

검증이 약하다: 그럴듯함과 정답은 다르다. 확률적으로 맞는 말을 하더라도, 검증 메커니즘이 없으면 신뢰 비용이 커진다.
장기 계획/상태가 약하다: 수십~수백 단계짜리 목표는 “문장”이 아니라 상태(state) 관리 문제로 변한다.
세계와의 접점이 얇다: 언어만으로는 세계의 제약(물리/경제/법/인간)을 충분히 내재화하기 어렵다.

그래서 ‘이성’은 보통 모델의 파라미터가 아니라, 서치(탐색) + 플래닝 + 툴 + 검증 + 메모리에서 나온다.

5.2 후보 아키텍처 1: LLM은 UI, 본체는 Planner/Tools/Verifier

지금 업계에서 가장 현실적인 “다음 단계”는, LLM을 ‘뇌’가 아니라 인터페이스(UI)로 두는 방식이다.

[LLM (언어 UI)] → [Planner/Router] → [Tools/Actions] → [Verifier] → [Memory/State]

Planner/Router: 목표를 단계로 쪼개고, 어떤 도구를 언제 쓸지 결정한다.
Tools/Actions: 코드 실행, 검색, DB 질의, 시뮬레이션, 워크플로우 실행처럼 결정적(deterministic) 계산을 담당한다.
Verifier: “맞는지/안 맞는지”를 검사한다. (테스트, 규칙, 증명, 회계 체크 등)
Memory/State: 장기 작업에서 컨텍스트 손실을 막고, 경험을 축적한다.

이 방식의 핵심은:

“말을 잘하는 모델”을 행동 가능한 시스템으로 바꾸는 데 필요한 최소 구성 요소가 무엇인가?

5.3 후보 아키텍처 2: World Model + Planning (언어는 UI로 수렴)

또 한 축은 “진짜 지능은 언어가 아니라 세계모델(world model)”이라는 관점이다.

언어 모델은 강력한 UI로 남고,
본체는 비디오/센서/상호작용 같은 데이터에서 학습한 잠재 세계모델(표현 공간)이 된다.
그리고 플래닝/서치(rollout)로 미래를 시뮬레이션하며 행동을 고른다. (AlphaZero류 사고 방식)

이 계열의 그림이 맞다면, ‘AGI에 가까운 이성’은 “더 큰 LLM”보다 월드모델 + 플래너 + 검증 쪽에서 더 크게 전진할 수 있다.

5.4 후보 아키텍처 3: 형식 검증(프로그램/증명/테스트)으로 ‘정확성’을 보장한다

인간이 “이성적”이라고 느끼는 순간은 많은 경우 정확성이 보장될 때다.

수학/코드/회계/법/엔지니어링처럼 틀리면 비용이 큰 영역에서는
“LLM이 답을 만든다”가 아니라
LLM이 후보를 만들고, 형식 시스템이 검증/반증한다(proof, type check, tests) 쪽이 강해진다.

이건 AGI/ASI의 철학 논쟁을 떠나서, 현실의 신뢰/책임 비용이 밀어붙이는 방향이기도 하다.

5.5 논리적 귀결: “더 큰 모델”보다 “더 많은 시스템 컴포넌트 스케일링”

이 글 앞부분(병목/좌초자산/신뢰)과 연결하면 결론이 더 명확해진다.

전력/그리드/규제 제약이 커질수록, “훈련 컴퓨트 더 때려박기”는 비용이 비싸진다.
대신 같은 컴퓨트로 더 똑똑해지는 길(효율/플래닝/검증/메모리)이 경제적으로 유리해진다.
그래서 다음 장은 “학습(training) 인프라만 키우는 게임”이 아니라, 추론(inference)에서 ‘생각(서치/검증)’을 더 하는 게임으로 이동할 수 있다.

키워드로 찾아볼 것(리서치 북마크용):
– World model / JEPA / model-based RL / planning & search
– ReAct(Reason+Act), Tree-of-Thoughts(탐색형 추론), verifier models
– Neuro-symbolic / program synthesis / formal verification

5.6 또 하나의 병목: “내러티브 락인”과 공급/플랫폼 락인

위 논리는 “제약(P)이 커질수록 효율 혁신(A) 압력이 커진다”는 쪽으로 기운다. 그런데 실제 시장에서는, 물리 제약보다 먼저 의사결정의 제약(내러티브/조달/생태계)이 생길 때가 있다.

내러티브 락인: “정답은 더 많은 GPU + 더 큰 모델”이라는 프레임이 굳어지면, 효율/ASIC/워크로드 재설계 같은 대안은 ‘부차적 최적화’로 밀려난다.
플랫폼 락인: CUDA 중심 소프트웨어 스택, 네트워킹/패브릭, 레퍼런스 아키텍처, 그리고 공급/파트너십 구조가 결합되면 “피벗 비용”이 커진다.
자본 배분의 경로의존성: CAPEX가 한 방향으로 굳어질수록, 조직은 그 길을 정당화하는 데이터/서사를 찾게 된다. 이때 “전환”은 늦어지고, 좌초자산 리스크가 커진다.

나는 이 현상을 과격하게는 “AI 동네의 갱스터” 같은 비유로 표현하는 목소리도 이해한다. 다만 핵심은 비유가 아니라, 집중도(concentration) 자체가 시스템 리스크가 될 수 있다는 점이다: 한 업체의 로드맵/가격/공급에 과도하게 의존하면, 작은 충격도 연쇄적으로 CAPEX/밸류에이션/스타트업 생태계에 번질 수 있다.

정책적으로는 반독점(경쟁 촉진)과 공시(리스크 투명화)가 늦더라도 중요해질 수 있다. 현실적으로 속도는 느리겠지만, 시장이 스스로 “효율/특화 하드웨어/워크로드 재설계” 쪽을 보게 만드는 촉매는 될 수 있다.

6) 초간단 산수 모델: 교차항이 핵심이다

이건 정확한 계산이 아니라, 정신모형(mental model)을 위한 산수다.

핵심 질문: “AI 인프라가 ‘규모(scale) 게임’에서 ‘효율(efficiency) 게임’으로 전환되는 속도는 무엇이 결정하나?”

주요 변수들

P (전력/그리드 제약): 클수록 증설이 어렵다
A (아키텍처 효율 점프): 클수록 “같은 성능을 더 적은 컴퓨트”로 구현
D (실수요/ROI): 클수록 CAPEX 압력이 크다 (현금 반복매출)
K (자본비용): 클수록 CAPEX가 억제된다 (금리)
R (규제/신뢰 마찰): 클수록 중앙집중이 어렵다
F (유연성): 클수록 좌초자산 리스크가 낮다 (분할증설/모듈화/레트로핏)

단순 선형 모델의 한계

만약 세상이 단순하다면:

전환속도 = + a·P + b·A - c·D + e·K + f·R - g·F + const

하지만 현실의 핵심은 교차항(상호작용)이다:

전환속도 = + a·P + b·A - c·D + d·(A×P) + e·K + f·R - g·F + const

d·(A×P)의 의미:

전력 제약(P)과 효율 점프(A)가 동시에 클 때 생기는 추가 효과
나는 d > 0으로 본다: 제약이 클수록 효율 점프의 임팩트가 커진다
(왜냐면 제약 환경에서는 효율 개선이 유일한 탈출구가 되니까)
즉, “전력 부족 + 효율 점프” 조합은 전환을 가속한다
반대로 d < 0이라면: 효율 점프가 전력 제약을 워낙 완화해버려, 오히려 스케일링이 더 오래 지속될 수도 있다 (전환 지연)

더 나아가: 피드백 루프

그리고 변수들이 서로를 밀고 당긴다:

A = A0 + m·P + n·R      # 제약↑ → 효율 혁신 압력↑ (내생성)
I = q·D - r·K - s·R     # 증설 추진력: 수요↑/금리↓ → 증설↑, 규제↑ → 증설↓
P = P0 + p·I            # 증설↑ → 그리드 병목↑ (공급이 못 따라오면 P가 커짐)

즉, “y(결과)만 다변수”가 아니라, x(원인)끼리도 서로를 밀고 당긴다.
이게 “사이클”이 생기는 이유다.

7) 엔딩 프레임 3개: A / B / C

이제 “다음 장”의 결말을 세 가지로 압축해보자.

엔딩	한 줄 요약	무엇이 핵심인가
A (버리형)	CAPEX가 서사로 선행 → 실수요 미달 → 절벽	순환매출, 감가상각 착시, 좌초자산
B (Ng형)	추론 수요가 실제로 폭증 → 운영이 해자 → 인프라 일부 정당화	현금 반복매출, 서빙/운영 역량
C (제약발 혁신형)	제약이 혁신을 촉발 → 효율 점프가 판을 재배치	아키텍처/효율, 하드웨어 믹스 전환

이 셋은 동시에 존재할 수 있다.
문제는 “AI가 된다/안 된다”가 아니라, 어느 구간이 과잉이고 어느 구간이 정당화되는지다.

8) 체크리스트: 지금 어디로 기울고 있나

아래에서 각 섹션(A/B/C) 질문에 “예”가 많아질수록, 해당 엔딩 방향으로 기울 가능성이 커진다.

A(버리형 과잉) 신호

크레딧/벤더 파이낸싱/순환매출이 두꺼워지는가?
PoC가 운영으로 내려가지 못하고 반복만 하는가?
전력/그리드 병목으로 가동률이 눌리는데도 증설 서사가 유지되는가?
감가상각 기간과 경제적 수명의 괴리가 커지고 있는가? (조기상각/손상차손 압력)

B(Ng형 정당화) 신호

크레딧이 아니라 현금 반복매출이 두꺼워지는가?
“모델 성능”이 아니라 “업무 성공률/비용”으로 KPI가 고정되는가?
운영(라우팅/관측/보안/검증)이 지속적 해자로 작동하는가?
전력/그리드 제약을 푸는 공급(입지/정책/발전/송전)이 실제로 전개되는가?

C(제약발 혁신형 재배치) 신호

효율 점프가 주기적으로 반복되는가? (증류/양자화/MoE/라우팅/새 아키텍처)
GPU 중심에서 ASIC/NPU/온디바이스로 워크로드가 의미 있게 이동하는가?
전력 밀도/쿨링 패러다임 변화로 데이터센터 설계가 세대별로 갈라지는가?

맺음말: “AI는 남고, CAPEX만 흔들린다”

버블이 터지면 시장은 회복한다.
하지만 기술은 남는다. 문제는 기술이 아니라 투자의 형태다.

나는 앞으로 AI 뉴스를 볼 때마다 이 질문 하나로 정리하려 한다:

이건 “아키텍처” 이야기인가, “전력/그리드” 이야기인가, “신뢰/규제” 이야기인가, 아니면 “실수요/현금흐름” 이야기인가?

그리고 그 네 축이 서로를 어떻게 밀어붙이는지(교차항/피드백)를 본다.
그게 “다음 장”을 읽는 가장 단순한 방법이다.