Hot Chips 2023에서 삼성의 메모리 기술 처리
Hot Chips 2023(35)에서 삼성은 새로운 연구와 새로운 변형을 통해 PIM(프로세싱 인 메모리)에 대해 다시 이야기하고 있습니다. 예를 들어 Hot Chips 33 Samsung HBM2-PIM 및 Aquabolt-XL에서 이 내용을 이전에 다루었습니다. 이제 삼성은 이를 AI의 맥락에서 보여주고 있다.
강당에서 실시간으로 진행되기 때문에 오타가 있는 점 양해 부탁드립니다. Hot Chips는 미친 속도입니다.
컴퓨팅에서 가장 큰 비용 중 하나는 데이터를 다양한 스토리지 및 메모리 위치에서 실제 컴퓨팅 엔진으로 이동하는 것입니다.
현재 기업에서는 다양한 유형의 메모리에 대해 더 많은 레인이나 채널을 추가하려고 합니다. 그것은 한계가 있습니다.
삼성은 CXL을 논의하고 있습니다. CXL은 더 많은 메모리 대역폭을 제공하기 위해 PCIe용 와이어 용도 변경과 같은 작업을 허용하므로 도움이 됩니다. 우리는 앞으로 STH에서 CXL Type-3 장치에 대해 더 자세히 논의할 예정이며 이에 대해 몇 차례 다루었습니다.
삼성은 GPT 병목 현상에 대해 논의하고 있습니다.
삼성은 GPT의 컴퓨팅 할당량과 메모리 바인딩된 워크로드를 프로파일링하고 있습니다.
다음은 활용도 및 실행 시간 측면에서 프로파일링 작업에 대해 좀 더 설명합니다.
Samsung은 컴퓨팅 파이프라인의 일부를 PIM(Processing-In-Memory) 모듈로 오프로드할 수 있는 방법을 보여줍니다.
가속기 대신 메모리 모듈에서 처리를 수행하면 데이터 이동이 줄어들어 전력 소비와 상호 연결 비용이 절감됩니다.
SK하이닉스가 자사 솔루션으로 GDDR6를 거론하는 동안 삼성은 고대역폭 메모리 HBM-PIM을 선보이고 있다. 우리는 다음 주쯤 STH에서 Intel Xeon MAX CPU에 대한 HBM을 선보일 예정이지만, 이는 이 새로운 메모리 유형을 사용하지 않습니다.
분명히 삼성과 AMD는 표준 PIM 대신 HBM-PIM이 포함된 MI100을 사용하여 클러스터를 구축하여 새로운 메모리를 시험하기 위한 12노드 8가속기 클러스터와 같은 소리를 가질 수 있었습니다.
T5-MoE 모델이 클러스터에서 HBM-PIM을 사용하는 방법은 다음과 같습니다.
성능 및 에너지 효율성 향상은 다음과 같습니다.
이것의 큰 부분은 PIM 모듈이 유용한 작업을 수행하도록 하는 방법이기도 합니다. PIM 모듈을 프로그래밍하고 활용하려면 소프트웨어 작업이 필요합니다.
삼성은 이 표준 프로그래밍 모듈이 내장되기를 희망하고 있습니다.
여기에 메모리 결합 컴퓨팅의 미래 상태에 대한 OneMCC가 있지만 이는 현재 상태라기보다는 미래처럼 들립니다.
삼성은 HBM-PIM뿐만 아니라 LPDDR-PIM도 선보이고 있는 것으로 보입니다. 오늘날의 모든 것과 마찬가지로 Generative AI 레이블이 필요합니다.
이는 클러스터의 AMD MI100에서 사용되는 HBM-PIM이라기보다는 개념에 더 가까운 것 같습니다.
이 LPDDR-PIM은 내부 대역폭이 102.4GB/s에 불과하지만, 메모리 모듈에서 컴퓨팅을 유지한다는 것은 데이터를 CPU나 xPU로 다시 전송할 필요가 없기 때문에 전력을 낮추는 것을 의미한다는 것입니다.
다음은 모듈에 PIM 뱅크와 DRAM 뱅크가 있는 아키텍처입니다.
가능한 LP5-PIM 모듈의 성능 및 전력 분석은 다음과 같습니다.
HBM-PIM과 LPDDR-PIM만으로는 충분하지 않다면 삼성은 PNM-CXL의 CXL 모듈에 컴퓨팅을 적용하는 방안을 검토하고 있습니다.
여기서의 아이디어는 단지 CXL Type-3 모듈에 메모리를 배치하는 것이 아닙니다. 대신 삼성은 CXL 모듈에 컴퓨팅을 적용할 것을 제안하고 있습니다. 이는 CXL 모듈에 컴퓨팅 요소를 추가하고 표준 메모리를 사용하거나 모듈의 PIM과 보다 표준적인 CXL 컨트롤러를 사용하여 수행할 수 있습니다.
물론 이것이 GPT 측면에서 생성 AI에 어떻게 도움이 되는지 보여주었습니다.
삼성은 최대 1.1TB/s의 대역폭을 갖춘 512GB CXL-PNM 카드 컨셉을 보유하고 있습니다.
다음은 삼성이 제안한 CXL-PNM 소프트웨어 스택입니다.
대규모 LLM 워크로드에 대해 예상되는 에너지 절감 및 처리량은 다음과 같습니다. CXL은 일반적으로 PCIe에도 사용되는 전선을 사용하므로 데이터 전송에 드는 에너지 비용이 매우 높습니다. 결과적으로 해당 데이터 전송을 피할 수 있어 큰 이점이 있습니다.
삼성전자 역시 이를 바탕으로 배출가스 저감에 주력하고 있다.
Google은 오늘 오전 AI 컴퓨팅의 CO2 배출에 관해 큰 강연을 했습니다. 이번 주 후반에 STH에서 이에 대해 다룰 계획입니다.