Binary Classification   이진 분류

(2025-02-11)

TP, True Positive, FP, False Positive, FN, False Negative


1. 이진 분류 (Binary Classification)기계학습에서, 입력 데이터를 2개의 상호배타적클래스로 구분하는 문제
     - 통상, 레이블이, `0과 1` 또는 `양성과 음성(Positive/Negative)`으로 주어짐


2. 이진 분류에서, 예측 결과의 평가 유형  :  (TP, TN, FP, FN)

  ㅇ 주어진 샘플을 2가지 클래스(긍정/부정, 정상/비정상, 암/정상 등) 중 하나로 분류함에 따라,
     - 다음 4가지로, 평가 유형을 구분 가능

  ㅇ [범례]  (예측)  :  (실제 정답)  => (설명)
     -  Positive (긍정)  :  True Positive (TP)  =>  참(True) 예측, 실제로도 참(True) 임
     -  Negative (부정)  :  True Negative (TN)  =>  거짓(False) 예측, 실제로도 거짓(False) 임 

     * (다음 2개는 오류 상황)
     -  Positive (긍정)  :  False Positive (FP)  =>  참 예측, 실제로는 거짓 임 (1종 오류)
     -  Negative (부정)  :  False Negative (FN)  =>  거짓 예측, 실제로는 참 임 (2종 오류)
 
     * 한편, 오류들은, 각각 1종 오류,2종 오류라는 통계학가설검정 개념과도 관련 있음

  ㅇ 例)  스팸 메일 필터
     - False Positive (FP)  :  실제로는 거짓인 데이터를, 참으로 잘못 판단한 경우
        . `스팸 메일이 아닌 메일`을, `스팸 메일`로 분류하는 경우
     - 1종 오류 : 귀무가설이 참인데, 거짓으로 판정
        . 귀무가설은 `이 메일은 스팸 아님`인데, 이를 기각하고 `스팸 메일`로 판단

  ㅇ 例)  질병 진단 (암 검사 : 양성/암있음, 음성/정상/암없음)
     - (예측) 암 있음 (Positive)  :  (실제) 암 있음 (True)  =>  True Positive (TP)
     - (예측) 암 없음/정상 (Negative)  :  (실제) 암 있음 (True)  =>  False Negative (FN) 
        . 실제 암 환자를, 정상으로 잘못 판단한 경우
        . (2종 오류 : 귀무가설 `이 환자는 정상`이 거짓인데도 불구하고, 참인 가설로써 수용될 때)

  ※ 특히, False Negative(FN)가 중요한 이유  :  질병 진단, 스팸 필터 등
     - False Negative(FN)는 암 환자, 스팸 메일을 놓치는 등 위험이 있어 심각한 문제 야기
        . 민감도(Recall, Sensitivity)를 높이면, False Negative(FN)를 줄일 수 있음
        . 하지만, False Negative(FN)를 줄이면, False Positive(FP)가 증가할 수 있음


3. 이진 분류에서, 평가 지표정확도 (Accuracy)  :  전체 예측 중 올바르게 예측한(맞춘) 비율
     -  Accuracy = (TP + TN) / (TP + TN + FP + FN)
  ㅇ 정밀도 (Precision)  :  긍정으로 예측한 것 중 실제 긍정인 비율
     -  Precision = (TP) / (TP + FP)
  ㅇ 재현율, 민감도 (Recall, Sensitivity) : 실제 긍정인 것 중 긍정으로 올바르게 예측비율
     -  Recall = (TP) / (TP + FN)
  ㅇ F1 스코어 : 정밀도와 재현율의 조화 평균
     -  F1 Score = 2 x (Precision x Recall) / (Precision + Recall)

  ※ 특히, FN와 FP의 비율은, 응용 분야(질병 진단, 스팸 필터링 등)에 따라, 매우 중요한 고려 대상임


4. 이진 분류에 사용되는 주요 알고리즘로지스틱 회귀 (Logistic Regression)
     - 가장 널리 사용되는 이진 분류 알고리즘 중 하나
     - 입력 데이터확률 값으로 변환하여 클래스예측서포트 벡터 머신 (Support Vector Machine, SVM)
     - 데이터를 가장 잘 분리하는 초평면을 찾아 분류하는 알고리즘결정 트리 (Decision Tree)
     - 의사 결정 규칙을 나무 형태로 표현하여 데이터를 분류하는 알고리즘랜덤 포레스트 (Random Forest)
     - 다수의 결정 트리를 결합하여 예측 성능을 향상시킨 알고리즘

[분류]1. 분류   2. 이진 분류   3. 베이지안 분류  

  1. Top (분류 펼침)      :     1,599개 분류    6,594건 해설

"본 웹사이트 내 모든 저작물은 원출처를 밝히는 한 자유롭게 사용(상업화포함) 가능합니다"
     [정보통신기술용어해설]       편집·운영 (차재복)