기본 콘텐츠로 건너뛰기

[ AI ] 머신 러닝

--------------------------------------------------------------------------

1. 보유한 센서를 이용한 데이터 셋 구축 ( 만장이상 필요함. )

  • JRDB : 주행 로봇
  • nuScenes : 차량 자율 주행

2. Annotation Tool을 이용하여 바운딩 박스 그리기 ( 라벨링 )

3. 다중 데이터 셋을 이용하여 트레이닝 알고리즘 개발하기

4. 다중 웨이트 데이터를 이용하여 가속으로 추론하기 

  • NVIDIA Jetson AGX Xavier Series: 20 ~ 32 TOPS ( INT8 )
  • NVIDIA TensorRT 하이퍼스케일 추론 플랫폼은 최신 Tesla T4 인퍼런스 가속기와 TensorRT 5 고성능 딥러닝 인퍼런스 최적기 및 실행시간, TensorRT 인퍼런스 서버가 모두 통합된 완전한 추론 솔루션임 

※ TOPS : trllion operations per second ( Thousnad / Million / Billion / Trillion, 1000씩 증가함. 1T ) 

※ Tensor : n차 이상의 배열 

--------------------------------------------------------------------------

딥러닝,

  • Dataset
    • JRDB
    • nuScenes
  • Annotation Tools

네비게이션,

SLAM

--------------------------------------------------------------------------

로봇 청소기 산업

--------------------------------------------------------------------------

테슬라의 자율 주행 전략

  • 테슬라 AI Day 1편
    • 8대의 카메라 데이터를 하나의 백터 공간으로 재 배치하여 next job을 수해한다. 
  • 테슬라 AI Day 2편
    • Planning, Data Labeling, Simulation
    • Nueural Rendering On
    • 3억개의 이미지와 5억개 가량의 레이블을 사용
  • 테슬라 AI Day 3편
    • D1칩, DOJO 슈퍼컴퓨터, 데슬라봇
    • 레이턴시는 최소와, 프레임 레이트는 최대로 늘리기
      • FSD Computer 

      • Neural Net Comiler( AI 컴파일러)가 파이토치 모델부터 가속 전용 하드웨어까지 컴퓨터 운영에 대한 핵심 역할을 한다.


      • SOC가 두개이고, 한개에는 DRAM / Vision / Planning / Controls 로 구성되며 각 SOC는 PCIe통신으로 데이터를 송수신한다. 
    • Training Node Architecture
      • Superscalar In-Order CPU: 2 Wide Vector Pipes + 4 Wide Scaler 
      • 4-Way Multithreaded
      • Custom ISA Optimized for ML Kernels

      • 354 Training Nodes 
      • 362 TFLOPs ( BF16 / CFP8 ), 테라플롭의 머신러닝 연산을 수행
      • 22.6 TFLOPs ( FP32 )
    • D1 Scaling

    • 52V

    • ExaPOD
      • D1칩 = 354노드 
      • 타일 = 25 D1칩 = 8,850 노드
      • 캐비넷 = 12 타일 = 300 D1 칩 = 106,200 노드
      • ExaPOD = 10 캐비넷 = 120 트레이닝 타일 = 3,000 D1 칩 = 1,062,000 노드

--------------------------------------------------------------------------


댓글