강의 :[토크ON세미나] 자연어 언어모델 ‘BERT’ 1강 - 자연어 처리(NLP) | T아카데미
자연어 처리 방법
- Symbolic approach
규칙/지식 기반 접근법으로 일일히 들어오는 입력에 대한 출력 값을 매핑해주는 방식
- Statistical approach
확률/통계 기반 접근법
TF-IDF를 이용한 키워드 추출
딥러닝에 많이 적용되기 시작
전처리
- 개행문자 제거
- 특수문자 제거
- 공백 제거
- 중복 표현 제어
- 이메일, 링크 제거
- 제목 제거
- 불용어 (의미 없는 용어) 제거
- 조사 제거
- 띄어쓰기, 문장분리 보정
- 사전 구축
토크나이징
- 어절, 형태소, n-gram, WordPiece 토크나이징
- 우리나라는 어절이 아닌 형태소로 나누어야 최소 의미 단위
다양한 자연어 처리 App
- 문서 분류, 문법, 오타 교정, 정보 추출, 음성 인식결과 보정, 음성 합성 텍스트 보정, 정보 검색, 요약문 생성, 기계 번역, 질의 응답, 기계 독해, 챗봇, 형태소 분석, 개체명 분석, 구문 분석, 감성 분석, 관계 추출, 의도 파악
Word2Vec
장점
- 단어간 유사도 측정에 용이
- 단어간 관계 파악에 용이
- 벡터 연산을 통한 추론이 가능
단점
- 단어의 subword information 무시
- Our of vocabulary(OOV)에서 적용 불가능
FastText와 Word2Vec의 비교
(FastText는 페이스북에서 만든 것으로 최근 많이 쓰이는 중)
ㅔ,ㅐ 같이 오타(혹은 발음에 따른 입력 차이)가 있을 때 Word2Vec은 전혀 파악하지 못하나 FastText는 가능
'개발 > etc' 카테고리의 다른 글
Lambda 키워드, 함수 / 재귀란? (0) | 2021.12.01 |
---|---|
VI 에디터 사용법 (0) | 2021.11.30 |
텍스트 요약, Text Rank 란? (0) | 2021.11.21 |
[Python] Ubuntu 에서 PYTHONPATH 설정방법 (0) | 2021.11.21 |
해커톤 준비 / GPT-3 이란? (0) | 2021.11.18 |
댓글