[ AI ] 머신 러닝

[ AI ] 머신 러닝

--------------------------------------------------------------------------

1. 보유한 센서를 이용한 데이터 셋 구축 ( 만장이상 필요함. )

JRDB : 주행 로봇
nuScenes : 차량 자율 주행

2. Annotation Tool을 이용하여 바운딩 박스 그리기 ( 라벨링 )

3. 다중 데이터 셋을 이용하여 트레이닝 알고리즘 개발하기

4. 다중 웨이트 데이터를 이용하여 가속으로 추론하기

NVIDIA Jetson AGX Xavier Series: 20 ~ 32 TOPS ( INT8 )
NVIDIA TensorRT 하이퍼스케일 추론 플랫폼은 최신 Tesla T4 인퍼런스 가속기와 TensorRT 5 고성능 딥러닝 인퍼런스 최적기 및 실행시간, TensorRT 인퍼런스 서버가 모두 통합된 완전한 추론 솔루션임

※ TOPS : trllion operations per second ( Thousnad / Million / Billion / Trillion, 1000씩 증가함. 1T )

※ Tensor : n차 이상의 배열

--------------------------------------------------------------------------

딥러닝,

Dataset

JRDB
nuScenes

Annotation Tools

네비게이션,

SLAM

--------------------------------------------------------------------------

로봇 청소기 산업

--------------------------------------------------------------------------

테슬라의 자율 주행 전략

테슬라 AI Day 1편

8대의 카메라 데이터를 하나의 백터 공간으로 재 배치하여 next job을 수해한다.

테슬라 AI Day 2편

Planning, Data Labeling, Simulation
Nueural Rendering On
3억개의 이미지와 5억개 가량의 레이블을 사용

테슬라 AI Day 3편

D1칩, DOJO 슈퍼컴퓨터, 데슬라봇
레이턴시는 최소와, 프레임 레이트는 최대로 늘리기

FSD Computer

Neural Net Comiler( AI 컴파일러)가 파이토치 모델부터 가속 전용 하드웨어까지 컴퓨터 운영에 대한 핵심 역할을 한다.

SOC가 두개이고, 한개에는 DRAM / Vision / Planning / Controls 로 구성되며 각 SOC는 PCIe통신으로 데이터를 송수신한다.

Training Node Architecture

Superscalar In-Order CPU: 2 Wide Vector Pipes + 4 Wide Scaler
4-Way Multithreaded
Custom ISA Optimized for ML Kernels

354 Training Nodes
362 TFLOPs ( BF16 / CFP8 ), 테라플롭의 머신러닝 연산을 수행
22.6 TFLOPs ( FP32 )

D1 Scaling

52V

ExaPOD

D1칩 = 354노드
타일 = 25 D1칩 = 8,850 노드
캐비넷 = 12 타일 = 300 D1 칩 = 106,200 노드
ExaPOD = 10 캐비넷 = 120 트레이닝 타일 = 3,000 D1 칩 = 1,062,000 노드

--------------------------------------------------------------------------

댓글