자료실-통신관련

뒤로가기
제목

128 DGX H100으로 클러스터를 구축하는 방법

작성자 박상우(ip:)

작성일 2024-03-14 14:41:13

조회 20

평점 0점  

추천 추천하기

내용

NVIDIA DGX H2022에는 NDR 8Gb/s 대역폭을 지원하는 7개의 단일 포트 ConnectX-400 네트워크 카드와 IB/이더넷 네트워크를 지원할 수 있는 2개의 듀얼 포트 Bluefield-3 DPU(200Gb/s)가 장착되어 있습니다. . 외관은 다음 그림과 같습니다.

대역 내 시스템 관리

DGX H100에는 스토리지 네트워크 및 대역 내 관리 네트워크용 QSFP4 포트 56개가 있습니다. 또한 원격 호스트 OS 관리용 10G 이더넷 포트 1개와 원격 시스템 관리용 XNUMXG 이더넷 포트 XNUMX개가 있습니다.

서버의 내부 네트워크 토폴로지 그림에서 컴퓨팅 네트워크 연결을 위한 4개의 OSFP 포트(보라색)가 있으며 파란색 블록은 네트워크 카드 역할을 할 수 있고 PCIe 스위치 확장 역할도 수행할 수 있는 네트워크 카드입니다. , CPU와 GPU 사이의 다리가 됩니다.

CPU

NVIDIA SuperPOD NVLink 클러스터 상호 연결 방식을 채택하면 32개의 H100이 외부 NVLink 스위치를 통해 상호 연결됩니다. 서버 내부의 8개의 GPU는 4개의 NVSwitch 모듈에 연결되며, 각 NVSwitch 모듈은 4-5에 해당합니다. OSFP 광학 모듈, 총 18개의 OSFP가 있으며, OSFP는 18개의 외부 NVLink 스위치에 연결됩니다. (현재 시중에 나와 있는 H100에는 이러한 18개의 OSFP 모듈이 없습니다.) 이 기사에서는 NVLink 네트워킹 방식에 대해 설명하지 않고 IB 네트워킹 방식에 중점을 둡니다. NVIDIA 참조 디자인 문서에 따르면 DGX H100 서버 클러스터에서는 DGX H32 100개마다 SU가 구성되며 DGX H4 100개마다 별도의 랙에 배치됩니다(각 랙의 전력은 40KW에 가까운 것으로 추정). 다양한 스위치가 두 개의 독립된 랙에 배치됩니다. 따라서 각 SU에는 10개의 랙(서버 배치용 8개, 스위치 배치용 2개)이 포함됩니다. 컴퓨팅 네트워크는 Spine-Leaf 9700레이어 스위치(Mellanox QMXNUMX)만 사용해야 하며, 네트워크 토폴로지는 다음 그림에 나와 있습니다.

등뼈

스위치 사용법: 클러스터에서는 DGX H32 100개마다 SU를 구성하고(SU당 리프 스위치는 8개), 4개의 H128 서버 클러스터에는 SU가 100개 있으므로 총 32개의 리프 스위치가 있습니다. SU의 각 DGX H100은 8개의 리프 스위치 모두와 연결되어야 합니다. 각 서버에는 컴퓨팅 네트워크 연결을 위한 OSFP 포트가 4개만 있으므로 각 포트에 800G 광 모듈을 연결한 후 확장 포트를 통해 OSFP 포트 100개를 QSFP 포트 8개로 확장하여 각 DGX H16을 16개의 리프 스위치로 연결합니다. 각 리프 스위치에는 XNUMX개의 스파인 스위치에 연결되는 XNUMX개의 업링크 포트가 있습니다.


첨부파일

비밀번호
수정

비밀번호 입력후 수정 혹은 삭제해주세요.

댓글목록

등록된 댓글이 없습니다.

댓글 수정

이름

비밀번호

내용

/ byte

수정 취소
비밀번호
확인 취소
댓글 입력

이름

비밀번호

영문 대소문자/숫자/특수문자 중 2가지 이상 조합, 10자~16자

내용

/ byte

평점

관리자에게만 댓글 작성 권한이 있습니다.


WORLD SHIPPING

PLEASE SELECT THE DESTINATION COUNTRY AND LANGUAGE :

GO
close