1. Preprocessing
- 데이터 수집 (크롤링 등)
- 데이터 전처리 (정규표현식 등으로 기호, 공백 삭제)
2. Tokenization
- 형태소 분석 (지도학습 or 비지도학습) -> 대부분 명사 추출
3.Token Embedding
- 자연어-> 벡터화 작업
- 임베딩 기법 비교 (Word2Vec, Glove, LDA 등 툴 적용하는 단계)
4. Document Embedding
- Machine learning, Deep learning 알고리즘 사용
- 감정분석, 군집화(clustering)등 기법 적용
점프 투 파이썬
선형대수
Stanford CS224N: NLP with Deep Learning | Winter 2019 | Lecture 1 - Introduction and Word Vectors
모두를 위한 머신러닝/딥러닝 강의
NAVER CONNECT