딥러닝자연어처리¶

강좌설명¶

이 강좌는 NVIDIA NeMo 프레임워크와 DGX H100 서버를 활용하여 최신 딥러닝 자연어처리 기술을 학습합니다. 대규모 언어 모델(LLM)의 학습, 최적화, 배포에 중점을 두며, 실제 애플리케이션 개발까지 다룹니다. 학생들은 팀 프로젝트를 통해 실무적인 LLM 개발 경험을 쌓게 됩니다.

학습목표¶

NVIDIA NeMo 프레임워크와 DGX H100 서버의 사용법을 익힌다.
LLM의 아키텍처와 학습 방법을 이해하고 실습한다.
커스텀 데이터셋을 활용한 LLM 학습 및 최적화 기법을 습득한다.
분산 학습 환경에서의 LLM 개발 방법을 학습한다.
RAG(Retrieval-Augmented Generation) 시스템을 구현할 수 있는 능력을 기른다.
LLM 기반의 실제 애플리케이션을 설계하고 개발하는 능력을 함양한다.

강좌개요¶

교과개요: NVIDIA NeMo Framework 및 DGX H100 서버 소개
주요학습내용: NeMo 프레임워크 구조, DGX H100 서버 활용 방법, 팀 프로젝트 소개
비고: 강의, 실습 (NeMo 설치 및 기본 사용법), 팀 구성

2주차

교과개요: NeMo를 이용한 LLM 기초
주요학습내용: LLM 아키텍처 이해, NeMo의 LLM 모델 탐색
비고: 강의, 실습 (NeMo를 이용한 간단한 LLM 실험)

3주차

교과개요: LLM 학습 기법 I
주요학습내용: 사전학습 전략, NeMo에서의 LLM 학습 설정
비고: 강의, 실습 (NeMo를 이용한 소규모 LLM 학습)

4주차

교과개요: LLM 학습 기법 II
주요학습내용: 지속학습, 파인튜닝 전략
비고: 강의, 실습 (NeMo를 이용한 LLM 미세조정), 팀 프로젝트 계획 수립

5주차

교과개요: NeMo 커스텀 데이터셋 구현 I
주요학습내용: 데이터 전처리, 텍스트 데이터 정제
비고: 강의, 실습 (NeMo용 커스텀 데이터셋 전처리)

6주차

교과개요: NeMo 커스텀 데이터셋 구현 II
주요학습내용: 커스텀 데이터 로더 구현, 데이터 증강 기법
비고: 강의, 실습 (NeMo용 커스텀 데이터 로더 구현), 팀 프로젝트 진행

7주차

교과개요: 분산 학습 기법
주요학습내용: DGX H100에서의 분산 학습 설정, 병렬화 전략
비고: 강의, 실습 (DGX H100에서 분산 학습 실행)

8주차

교과개요: 중간 프로젝트 발표 및 모델 최적화
주요학습내용: 팀 프로젝트 중간 발표, 모델 압축, 양자화 기법
비고: 중간 프로젝트 발표, 피드백 세션

9주차

교과개요: LLM 추론 최적화
주요학습내용: 효율적인 추론 기법, NVIDIA TensorRT 활용
비고: 강의, 실습 (NeMo 모델 추론 최적화)

10주차

교과개요: LLM 모델 배포
주요학습내용: 모델 서빙, NeMo Inference Microservices 활용
비고: 강의, 실습 (NeMo 모델 배포 및 성능 측정), 팀 프로젝트 진행

11주차

교과개요: RAG (Retrieval-Augmented Generation) 구현 I
주요학습내용: RAG 아키텍처 이해, 벡터 데이터베이스 구축
비고: 강의, 실습 (NeMo Retriever 기본 설정)

12주차

교과개요: RAG (Retrieval-Augmented Generation) 구현 II
주요학습내용: NeMo Retriever 고급 활용, RAG 파이프라인 구축
비고: 강의, 실습 (NeMo를 이용한 RAG 시스템 구현), 팀 프로젝트 진행

13주차

교과개요: LLM 애플리케이션 개발 I
주요학습내용: NeMo Guardrails 활용, 애플리케이션 설계
비고: 강의, 실습 (NeMo 기반 LLM 애플리케이션 설계)

14주차

교과개요: LLM 애플리케이션 개발 II
주요학습내용: 사용자 인터페이스 구현, 애플리케이션 테스트 및 디버깅
비고: 강의, 실습 (NeMo 기반 LLM 애플리케이션 구현), 팀 프로젝트 마무리

15주차

교과개요: 최종 프로젝트 발표 및 과목 총정리
주요학습내용: 팀 프로젝트 결과 발표, LLM 개발 파이프라인 리뷰
비고: 팀 프로젝트 발표, 동료 평가, 종합 토론

평가¶

출석 및 수업 참여 (10%)
평가방법: 매 수업 출석 체크 및 수업 중 참여도
평가시기: 매주
주간 실습 과제 (20%)
평가방법: 주간 실습 결과물 제출
평가시기: 2-7주차, 9-14주차
중간 프로젝트 발표 (20%)
평가방법: 팀 프로젝트 중간 결과물 및 발표
평가시기: 8주차
최종 프로젝트 (50%)
평가방법: LLM 애플리케이션 개발 결과물, 기술 문서, 발표, 동료 평가
평가시기: 15주차

강의자료¶

강의노트: https://deepnlp2024.halla.ai
GitHub: https://github.com/entelecheia/deepnlp-2024
주교재: NVIDIA NeMo 공식 문서 및 튜토리얼
기타 참고자료: LLM 관련 최신 논문, NVIDIA 기술 블로그, GitHub 레포지토리

선수과목¶

파이썬 프로그래밍 (중급 이상)
머신러닝 및 딥러닝 기초
자연어처리 입문

기타 유의사항¶

DGX H100 서버 사용을 위한 계정이 필요하며, 수업 전 발급 예정
팀 프로젝트는 3-4명으로 구성된 팀으로 진행됨
수업 내용은 최신 기술 동향에 따라 일부 변경될 수 있음

주간 실습 과제 가이드라인¶

매주 실습 과제는 금요일 자정까지 제출
GitHub를 통한 코드 관리 및 제출 권장

프로젝트 가이드라인¶

중간 프로젝트: LLM의 특정 태스크에 대한 파인튜닝 및 성능 개선
최종 프로젝트: 실제 문제를 해결하는 LLM 기반 애플리케이션 개발
프로젝트 결과물은 코드, 기술 문서, 발표 자료를 포함해야 함
오픈 소스 기여 또는 논문 작성으로 대체 가능 (사전 협의 필요)