머신러닝이나 딥러닝 연산이 오래걸리는 이유는 계산이 복잡해서가 아니라 계산량이 많기 때문이다. 계산량이 많기 때문에 GPU 같이 수천개의 프로세서가 연산을 돌려서 계산을 해야 그나마 기다릴만한 속도가 나오게 된다. 그럼 GPU의 성능이 계속 증가하고 빨라지면 AI연산속도도 계속 빨라지게 될까?
초등학생 천명을 모아놓고 구몬 사칙연산을 풀게한다고 해보자. 아이들이 많을 수록 더 빨리 풀게 될 것이다. 하지만 아이들에게 문제를 가져다 주려면 자리에 앉혀서 책상과 연필을 줘야하고(CPU의 작업할당) 학생에게 문제를 출력해서 줘야한다(DRAM). 프린터가 많을수록 (DRAM용량) 좋겠지만 프린터가 많아도 문제가 내려오지 않으면 병목이 생긴다(대역폭) 이 대역폭을 늘리기 위해 DRAM을 차곡차곡 쌓아놓은게 HBM이다.
빠르고 대역폭도 크고 데이터가 오고가는 물리적 경로가 짧아져 에너지소모도 적다. 작업메모리가 크고 게다가 대역폭도 크면 딥러닝 연산에선 Batch사이즈를 키울 수 있다. 그렇다는건 더 많은 하이퍼파라미터와 모델 데이터를 한번에 처리할 수 있다는 것이다. 더 크고 복잡한 모델을 다룰 수 있게 되고 이는 AI 서비스에서 큰 경쟁력이 된다. (Open AI의 GPT-3모델은 수십억개의 하이퍼파라미터를 가지고 있다)
HBM3가 처음 적용된 건 엔디비아의 hopper H100 GPU이다. 제품설명에 보면 최대 900Gbps의 대역폭을 가지고 있다고 나오는데 HBM3를 적용함으로서 기존 서버용 GPU보다 최대 30배높은 경쟁력을 제공해준다고 한다.
고성능AP에 적용되던 FinFET구조와 high-K metal gate 등의 공정을 적용해 누설전류를 줄이고 작동전압을 줄여 전력소모를 줄였다.
문제는 열이다
HBM은 DRAM을 차곡차곡 쌓은 형태이다. 지금까지는 메모리에서 열이 난다는 개념이 생소했지만 DRAM을 세로축으로 쌓다보니 아랫층에서는 열이 빠져나갈 구멍이 없다. 열문제로 인해 HBM2E 규격까지만해도 12단이 한계라고 했지만 HBM3은 16단을 쌓아올렸다.
https://semiengineering.com/improving-performance-and-power-with-hbm3/
미세공정에서 마주하는 걸림돌 : Thermal-Induced Stress (0) | 2023.02.18 |
---|---|
3D NAND의 한계가 오고있는가? : 4D NAND의 상용화가 말해주는것 (0) | 2023.02.16 |
전자가 물처럼 흐르게 되는 금속을 발견했다 (2021년 9월 6일) (0) | 2021.09.08 |
잠을 더 많이 자야한다는 다섯가지 신호 ( 5 Sings That You Need More Sleep) (0) | 2021.09.06 |
암모니아 전기분해로 수소를 대량생산하는게 물을 전기분해보다 효율적이다 (UNIST 2021.05.21) (2) | 2021.08.25 |