콘텐츠로 이동

딥러닝자연어처리

강좌설명

이 강좌는 NVIDIA NeMo 프레임워크와 DGX H100 서버를 활용하여 최신 딥러닝 자연어처리 기술을 학습합니다. 대규모 언어 모델(LLM)의 학습, 최적화, 배포에 중점을 두며, 실제 애플리케이션 개발까지 다룹니다. 학생들은 팀 프로젝트를 통해 실무적인 LLM 개발 경험을 쌓게 됩니다.

학습목표

  1. NVIDIA NeMo 프레임워크와 DGX H100 서버의 사용법을 익힌다.
  2. LLM의 아키텍처와 학습 방법을 이해하고 실습한다.
  3. 커스텀 데이터셋을 활용한 LLM 학습 및 최적화 기법을 습득한다.
  4. 분산 학습 환경에서의 LLM 개발 방법을 학습한다.
  5. RAG(Retrieval-Augmented Generation) 시스템을 구현할 수 있는 능력을 기른다.
  6. LLM 기반의 실제 애플리케이션을 설계하고 개발하는 능력을 함양한다.

강좌개요

  • 교과개요: NVIDIA NeMo Framework 및 DGX H100 서버 소개
  • 주요학습내용: NeMo 프레임워크 구조, DGX H100 서버 활용 방법, 팀 프로젝트 소개
  • 비고: 강의, 실습 (NeMo 설치 및 기본 사용법), 팀 구성

2주차

  • 교과개요: NeMo를 이용한 LLM 기초
  • 주요학습내용: LLM 아키텍처 이해, NeMo의 LLM 모델 탐색
  • 비고: 강의, 실습 (NeMo를 이용한 간단한 LLM 실험)

3주차

  • 교과개요: LLM 학습 기법 I
  • 주요학습내용: 사전학습 전략, NeMo에서의 LLM 학습 설정
  • 비고: 강의, 실습 (NeMo를 이용한 소규모 LLM 학습)

4주차

  • 교과개요: LLM 학습 기법 II
  • 주요학습내용: 지속학습, 파인튜닝 전략
  • 비고: 강의, 실습 (NeMo를 이용한 LLM 미세조정), 팀 프로젝트 계획 수립

5주차

  • 교과개요: NeMo 커스텀 데이터셋 구현 I
  • 주요학습내용: 데이터 전처리, 텍스트 데이터 정제
  • 비고: 강의, 실습 (NeMo용 커스텀 데이터셋 전처리)

6주차

  • 교과개요: NeMo 커스텀 데이터셋 구현 II
  • 주요학습내용: 커스텀 데이터 로더 구현, 데이터 증강 기법
  • 비고: 강의, 실습 (NeMo용 커스텀 데이터 로더 구현), 팀 프로젝트 진행

7주차

  • 교과개요: 분산 학습 기법
  • 주요학습내용: DGX H100에서의 분산 학습 설정, 병렬화 전략
  • 비고: 강의, 실습 (DGX H100에서 분산 학습 실행)

8주차

  • 교과개요: 중간 프로젝트 발표 및 모델 최적화
  • 주요학습내용: 팀 프로젝트 중간 발표, 모델 압축, 양자화 기법
  • 비고: 중간 프로젝트 발표, 피드백 세션

9주차

  • 교과개요: LLM 추론 최적화
  • 주요학습내용: 효율적인 추론 기법, NVIDIA TensorRT 활용
  • 비고: 강의, 실습 (NeMo 모델 추론 최적화)

10주차

  • 교과개요: LLM 모델 배포
  • 주요학습내용: 모델 서빙, NeMo Inference Microservices 활용
  • 비고: 강의, 실습 (NeMo 모델 배포 및 성능 측정), 팀 프로젝트 진행

11주차

  • 교과개요: RAG (Retrieval-Augmented Generation) 구현 I
  • 주요학습내용: RAG 아키텍처 이해, 벡터 데이터베이스 구축
  • 비고: 강의, 실습 (NeMo Retriever 기본 설정)

12주차

  • 교과개요: RAG (Retrieval-Augmented Generation) 구현 II
  • 주요학습내용: NeMo Retriever 고급 활용, RAG 파이프라인 구축
  • 비고: 강의, 실습 (NeMo를 이용한 RAG 시스템 구현), 팀 프로젝트 진행

13주차

  • 교과개요: LLM 애플리케이션 개발 I
  • 주요학습내용: NeMo Guardrails 활용, 애플리케이션 설계
  • 비고: 강의, 실습 (NeMo 기반 LLM 애플리케이션 설계)

14주차

  • 교과개요: LLM 애플리케이션 개발 II
  • 주요학습내용: 사용자 인터페이스 구현, 애플리케이션 테스트 및 디버깅
  • 비고: 강의, 실습 (NeMo 기반 LLM 애플리케이션 구현), 팀 프로젝트 마무리

15주차

  • 교과개요: 최종 프로젝트 발표 및 과목 총정리
  • 주요학습내용: 팀 프로젝트 결과 발표, LLM 개발 파이프라인 리뷰
  • 비고: 팀 프로젝트 발표, 동료 평가, 종합 토론

평가

  1. 출석 및 수업 참여 (10%)
  2. 평가방법: 매 수업 출석 체크 및 수업 중 참여도
  3. 평가시기: 매주
  4. 주간 실습 과제 (20%)
  5. 평가방법: 주간 실습 결과물 제출
  6. 평가시기: 2-7주차, 9-14주차
  7. 중간 프로젝트 발표 (20%)
  8. 평가방법: 팀 프로젝트 중간 결과물 및 발표
  9. 평가시기: 8주차
  10. 최종 프로젝트 (50%)
  11. 평가방법: LLM 애플리케이션 개발 결과물, 기술 문서, 발표, 동료 평가
  12. 평가시기: 15주차

강의자료

선수과목

  • 파이썬 프로그래밍 (중급 이상)
  • 머신러닝 및 딥러닝 기초
  • 자연어처리 입문

기타 유의사항

  • DGX H100 서버 사용을 위한 계정이 필요하며, 수업 전 발급 예정
  • 팀 프로젝트는 3-4명으로 구성된 팀으로 진행됨
  • 수업 내용은 최신 기술 동향에 따라 일부 변경될 수 있음

주간 실습 과제 가이드라인

  • 매주 실습 과제는 금요일 자정까지 제출
  • GitHub를 통한 코드 관리 및 제출 권장

프로젝트 가이드라인

  • 중간 프로젝트: LLM의 특정 태스크에 대한 파인튜닝 및 성능 개선
  • 최종 프로젝트: 실제 문제를 해결하는 LLM 기반 애플리케이션 개발
  • 프로젝트 결과물은 코드, 기술 문서, 발표 자료를 포함해야 함
  • 오픈 소스 기여 또는 논문 작성으로 대체 가능 (사전 협의 필요)