1. 현재 AI 데이터센터 GPU 규모 지금 대형 AI 학습 클러스터는 보통 약 1만 GPU 수준이다. 큰 프로젝트는 2만~3만 GPU까지 가는 경우도 있다. 이 정도 규모의 데이터센터에서는 GPU들을 연결하기 위해 수천 개 정도의 광모듈과 네트워크 장비가 사용된다.
2. 앞으로 GPU 규모 증가 엔비디아는 AI 데이터센터가 앞으로 훨씬 커질 것이라고 설명했다. 현재: 약 1만 GPU 클러스터 다음 단계: 10만 GPU 규모(2026년 빅테크 일반화예상) 장기 목표: 100만 GPU 규모 즉 AI 데이터센터는 앞으로 지금보다 10배~100배까지 커질 가능성이 있다.
3. GPU 증가 광통신 부품 증가 GPU가 많아질수록 GPU끼리 데이터를 교환하는 통신량이 급증한다. 그래서 GPU를 연결하는 네트워크 장비와 광통신 부품도 크게 늘어난다. 대략적인 규모 변화는 이렇게 볼 수 있다. 현재 1만 GPU 클러스터 광모듈 수천 개 사용 앞으로 10만 GPU 클러스터 광모듈 수만 개 수준 필요 장기적으로 100만 GPU 클러스터 광모듈 수십만 개 수준 필요 즉 GPU가 10배 늘어나면 광통신 부품 수요도 대략 20~30배 이상 증가할 수 있다.
"큰 클러스터를 연결하려면 기존 네트워크 방식으로는 부족하고 광 기반 네트워크가 필요하다"고 설명했다. "GPU가 많아질수록 네트워크가 병목이 된다 이를 해결하려면 광 네트워크 기술이 중요하다"
4. 광통신 기술 방향 엔비디아는 대규모 GPU 클러스터를 연결하기 위해 실리콘 포토닉스 기반 광 네트워크를 강조했다. 대표적으로 발표된 네트워크 플랫폼 Spectrum-X Photonics Quantum-X Photonics 이 기술은 데이터센터 네트워크를 광통신 기반으로 확장하기 위한 구조다.
젠슨 황은 AI 데이터센터 네트워크에서 실리콘 포토닉스가 중요한 기술이 될 것이라고 설명했다.
AI 클러스터가 커질수록 데이터 이동이 병목 이를 해결하려면 광 기반 인터커넥트가 필요 그래서 엔비디아는 실리콘 포토닉스 기반 네트워크 스위치를 공개했다.
5. 구리와 광 혼용 구조 하지만 엔비디아는 당분간 구리와 광을 같이 사용하는 구조가 올해는 계속될 것이라고 설명했다. 현재 데이터센터 연결 방식은 다음과 같다. GPU 보드 내부 / 랙 내부 구리 케이블 랙과 랙 사이 네트워크 광통신 즉 기존 장비를 단기간에 모두 교체하기 어렵기 때문에 최소 2026년까지는 구리와 광 혼용 구조가 유지될 가능성이 높다.
AI 데이터센터는 GPU가 많아질수록 GPU끼리 데이터 교환이 폭발적으로 늘어나서 네트워크가 병목이 된다. 이 문제 때문에 데이터센터 네트워크는 점점 광통신을 많이 쓰게 된다. 현재는 랙 내부는 구리, 랙과 랙 사이 네트워크는 광통신을 쓰는 구리+광 혼용 구조다. 네트워크 속도는 지금 800G 확산 단계이고, 2026년부터 1.6T가 도입되고 2027~2028년에 본격 확대될 가능성이 크다. 젠슨 황은 스위치 칩 옆에 광통신을 붙이는 CPO 구조도 설명했다. 목적 전력 감소 속도 증가 대규모 GPU 클러스터 연결 즉 기존 구조 GPU 전기 신호 광모듈 에서 스위치 칩 바로 옆에 광 인터커넥트를 넣는 방향이다.
젠슨황 "AI 데이터센터가 커질수록 네트워크 병목이 생기고, 이를 해결하기 위해 실리콘 포토닉스와 광통신 기반 네트워크가 중요해진다.
<핵심 정리> 현재 AI 데이터센터는 약 1만 GPU 규모 앞으로 10만 GPU 100만 GPU 클러스터로 확대 가능 GPU가 늘수록 네트워크 트래픽이 폭증 그래서 광통신 부품과 네트워크 장비 수요도 크게 증가
[출처] https://www.teamblind.com/kr/post/GTC-%EC%A0%A0%EC%8A%A8%ED%99%A9-%EA%B4%91%ED%86%B5%EC%8B%A0%EC%96%B8%EA%B8%89-%EB%B0%9C%EC%96%B8-%EC%9A%94%EC%95%BD%EB%B3%B8-sbcvjzu7#google_vignette |