1. 기계학습의 기초 용어
ㅇ 기계학습 (Machine Learning)
- 데이터들로부터, 스스로 학습하고 예측하는 기술
. 특징,패턴을 감지하여, 규칙,알고리즘,지식 등을 자동으로 학습,확장시킴
ㅇ 라벨(레이블) (Label)
- 데이터에 대한 정답 또는 목표 값
. 즉, 모델이 학습하는 동안 예측하고자 하는 대상
. 주로, 지도학습에서 사용됨
. 쉽게, 분류 명칭 (class label)
ㅇ 차원 (Dimension)
- 데이터의 각 변수 또는 속성을 의미
. 例) 의료 데이터 : 환자의 나이,혈당 수치,염증 지표 등 여러 속성을 포함하는 벡터로 표현
ㅇ 모델 (Model)
- 데이터로부터 학습하여, 예측,분류 등을 수행하는, 알고리즘 또는 수학적 구조
. 쉽게, 입력 받아 어떤 처리를 수행하여 출력(주로,확률)하는 함수
* [참고] ☞ `기계학습의 모델화 과정` 참조
ㅇ 학습 (Learning)
- 지속적인 경험이나 훈련의 결과로 생기는 행동 변화
ㅇ 일반화 (generalization)
- 훈련 단계에서 사용하지 않은 예시들에 대해서도 올바르게 분류하는 능력
ㅇ 과적합 (Overfitting, 오버피팅)
- 학습 데이터에만 지나치게 최적화되어, 다른 데이터에는 일반화 성능이 저하되는 현상
ㅇ 최적화 (Optimization)
- 손실함수의 결과값을 최소화하는 모델의 인자를 찾는 것
- 반복 근사 방법 例) 경사하강법, 뉴턴/준뉴턴 방법, 확률적 경사하강법, 역전파 등
ㅇ 이미지 인식
- 필요 : 상품 인식, 얼굴 인식, 도로 상황 파악 등
- 분류 : 물체 분류, 물체 인식 등
ㅇ 통계 기반 기계학습
- 통계학적으로 대규모 데이터에 내재된 패턴을 찾아내는 학습 모델
* 크게, 빈도주의 통계법(기존)과 베이즈 통계법으로 구분 가능
2. 기계학습의 데이터 구성 및 전처리
ㅇ 훈련 데이터 (Training Data), 학습 집합 (Training Set), 학습 데이터, 훈련 데이터
- 학습에 사용되는 샘플 데이터
. 데이터가 어떻게 구성된지(많거나,적거나,치우치거나)에 따라 학습 성능이 크게 달라짐
.. 무작위로 뽑아 작은 데이터셋을 만들거나, 중요도에 따라 크게 또는 작게 선택하는 등
ㅇ 시험 데이터 (Testing Data), 시험 집합 (Test Set), 시험 데이터 (Test Data)
- 학습된 모델의 성능을 평가하기 위해 사용되는 별도의 데이터
. 모델이 새로운 데이터에 대해 얼마나 잘 예측하는지를 확인하는 데 사용
ㅇ 검증 데이터 (Validation Data)
- 모델의 튜닝과 성능 평가를 위해 사용되는 데이터 세트
ㅇ 데이터 전처리 (Data Preprocessing)
- 정규화 (Normalization) : 데이터를 일정한 범위 내로 조정하는 방식
- 표준화 (Standardization) : 통계 기반 모델에서, 데이터의 중심과 분포를 정렬하는 것
- 특징 추출 (Feature Extraction) : 차별적인/구별적인 정보를 갖는 특징들 만을 추려냄
- 특징 선택 (Feature Selection) : 중요한 특징 만 선택해서, 전체 학습률과 성능을 증가시킴
3. 기계학습의 특징, 패턴, 패턴 인식
ㅇ 특징 (Feature)
- 데이터의 특징을 나타내는 정보 (두드러지고, 풍부한 정보를 주는 것)
. 例) 키와 체중으로 성별을 예측할 때, 키,체중을 특징이라고 함
- 특징 벡터 : 데이터에서 특징으로 간주되는, 1 이상의 변수들로 구성된 벡터
- 특징 량 : 데이터에서 나타나는 변화를, 1 이상의 변수들(특징 벡터)로 나타낸 계산식
ㅇ 패턴 (Pattern)
- 데이터들에서 나타나는 좋은 특징들을 모아놓은 집합
. 데이터 내에 존재하는 규칙성이나 반복적인 구조
- 학습을 통해 발견 (학습하거나 추론하는 대상)
ㅇ 패턴 인식 (Pattern Recognition)
- 핵심이 되는 특징의 추출 및 이를 분류하는 것
4. 기계학습의 유형 : 수행 방식 (문제 유형, 적용 대상)
ㅇ `무엇을 얻어낼 것인가 (예측 및 추론)`
- 회귀 (Regression) : 입력 값을 바탕으로 연속적인 출력 값을 추정/예측
- 분류 (Classification) : 입력 값을 바탕으로 특정 범주를 추정/예측
- 군집화 (Clustering) : 입력 값들을 비슷한 특성별로 여러 그룹으로 분할하며 큰 단위로 만듬
ㅇ `학습법 (학습 시나리오)`
- 지도 학습 (Supervised Learning) : 분류, 회귀
- 비지도 학습 (Unsupervised Learning) : 군집화, 차원 축소
- 강화 학습 (Reinforcement Learning) : 정책 학습, 가치 학습