언어모형과자연어처리¶
강좌설명¶
이 강좌는 자연어처리(NLP)의 기본 개념과 최신 언어모형 기술을 소개합니다. 학생들은 텍스트 처리의 기초부터 시작하여 고급 언어모형 API 활용 및 NLP 애플리케이션 개발까지 실습 중심으로 학습합니다. 특히 대규모 언어모형(LLM)의 활용과 프롬프트 엔지니어링에 중점을 두어, 최신 NLP 기술의 실무 적용 능력을 키웁니다.
학습목표¶
- NLP와 언어모형의 기본 개념 및 주요 기술을 이해한다.
- 텍스트 전처리, 워드 임베딩, 트랜스포머 아키텍처 등 NLP의 핵심 기술을 실습한다.
- LLM API를 활용한 다양한 NLP 태스크 수행 방법을 학습한다.
- 프롬프트 엔지니어링 기법을 익히고 실제 문제 해결에 적용한다.
- NLP 기반 웹 애플리케이션을 설계하고 구현할 수 있는 능력을 기른다.
- LLM 활용의 윤리적 측면을 이해하고 안전한 AI 시스템 개발 방법을 학습한다.
강좌개요¶
1주차
- 교과개요: 자연어처리와 언어모형 소개
- 주요학습내용: NLP의 기본 개념, 응용 분야, 주요 과제 소개
- 비고: 강의, NLP 응용 사례 토론
2주차
- 교과개요: 텍스트 전처리 기초
- 주요학습내용: 토큰화, 정규화, 불용어 제거
- 비고: 강의, 실습 (NLTK 라이브러리를 활용한 텍스트 전처리)
3주차
- 교과개요: 언어모형의 기초
- 주요학습내용: N-gram 모델, 통계적 언어모형
- 비고: 강의, 실습 (간단한 N-gram 모델 구현)
4주차
- 교과개요: 워드 임베딩
- 주요학습내용: Word2Vec, GloVe, FastText
- 비고: 강의, 실습 (Gensim을 이용한 워드 임베딩 생성 및 시각화)
5주차
- 교과개요: 트랜스포머 아키텍처 소개
- 주요학습내용: 어텐션 메커니즘, 트랜스포머 구조
- 비고: 강의, 트랜스포머 모델 구조 분석
6주차
- 교과개요: LLM API 이해하기
- 주요학습내용: OpenAI API 사용법, 토큰화, 샘플링 방법
- 비고: 강의, 실습 (API 호출을 통한 간단한 텍스트 생성)
7주차
- 교과개요: 프롬프트 엔지니어링 기초
- 주요학습내용: 제로샷, 퓨샷 프롬프팅, 체인오브솟 기법
- 비고: 강의, 실습 (다양한 프롬프트 기법 적용)
8주차
- 교과개요: 중간 프로젝트 발표
- 주요학습내용: 1-7주차 학습내용을 활용한 NLP 앱 프로토타입 개발
- 비고: 학생 프로젝트 발표 및 피드백
9주차
- 교과개요: 텍스트 분류
- 주요학습내용: 감성분석, 주제 분류, 파인튜닝 기법
- 비고: 강의, 실습 (BERT를 이용한 텍스트 분류 모델 구현)
10주차
- 교과개요: LLM 기반 Q&A 시스템 구축
- 주요학습내용: 벡터 데이터베이스 소개, 문서 파싱
- 비고: 강의, 실습 (간단한 Q&A 시스템 구현)
11주차
- 교과개요: 웹 애플리케이션 개발 기초
- 주요학습내용: Flask/Streamlit 소개, 기본 웹 앱 구조
- 비고: 강의, 실습 (LLM API를 활용한 웹 앱 프로토타입 제작)
12주차
- 교과개요: LLM 출력 제어와 구조화
- 주요학습내용: 온도(temperature) 조절, top_p 활용, JSON 출력
- 비고: 강의, 실습 (구조화된 데이터 추출 앱 만들기)
13주차
- 교과개요: RAG (Retrieval-Augmented Generation) 소개
- 주요학습내용: RAG 아키텍처, 벡터 검색 기본
- 비고: 강의, 실습 (간단한 RAG 시스템 구현)
14주차
- 교과개요: LLM 앱의 윤리와 안전
- 주요학습내용: 편향성 탐지, 콘텐츠 필터링, 프롬프트 주입 방지
- 비고: 강의, 토론 (LLM 사용의 윤리적 고려사항)
15주차
- 교과개요: 최종 프로젝트 발표 및 과목 총정리
- 주요학습내용: NLP 앱 개발 프로젝트 결과 공유
- 비고: 학생 프로젝트 발표, 피드백, 향후 학습 방향 논의
평가¶
- 출석 및 수업 참여 (10%)
- 주간 실습 과제 (30%)
- 중간 프로젝트 (25%)
- 최종 프로젝트 (35%)
강의자료¶
- 강의노트: https://nlp2024.halla.ai
- GitHub: https://github.com/entelecheia/intronlp-2024
- OpenAI API 문서, Hugging Face 문서, 최신 NLP 관련 논문 및 블로그 포스트
선수과목¶
- 파이썬 프로그래밍 기초
- 기초 통계 및 선형대수학
기타 유의사항¶
- 실습 위주의 수업으로 진행되므로 개인 노트북 지참 필수
- 최신 기술 동향을 반영하기 위해 강의 내용이 일부 변경될 수 있음