Hanley JA, McNeil BJ. The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology. 1982 Apr;143(1):29-36. doi: 10.1148/radiology.143.1.7063747. PMID: 7063747.
AUROC(Area Under ROC)는 의학통계에 사용되며, 최근에는 프로그래밍 분야에서도 사용되는 개념입니다. 약자를 풀어쓰면 'ROC 아래 영역'이라는 뜻인데, 그래프에서 ROC 곡선 아래 영역의 넓이를 나타내는 개념입니다. 따라서 우리는 AUROC에 앞서 ROC가 무엇인지 알 필요가 있으며, 어떤 그래프에 사용되는 개념인지도 알아보아야 합니다.
ROC(Receiver Operating Characteristic) curve
A. 민감도·특이도 및 TPR, FPR 개념 이해
(image from Wikipedia) ROC 곡선은 X축이 False Positive Rate(FPR, 위(僞)양성), Y축이 True Positive Rate(TPR, 진(眞)양성)인 그래프 위에 그려집니다. 쉽게 말해 특정 질환에 대한 진단을 내린다고 할 때, 질환이 있는 것을 양성으로 진단하는 경우가 진양성, 질환이 없는데 양성으로 진단(오진)하는 경우가 위양성입니다. 이와 묶어 알아가는 개념이 진음성(TN, True Negative)과 위음성(FN, False Negative)인데, 각각 질환이 없는 것을 음성으로 진단하는 경우와 질환이 있는데 음성으로 진단(오진)하는 경우를 말합니다. 질환의 유무와 진단 결과 모두에서 두 가지 경우의 수가 있으므로 총 4가지 경우의 수가 존재하는 것입니다. 도표를 통해 간단히 정리하면 아래의 이미지와 같습니다.
이와 비슷한 친숙한 개념이 있습니다. 바로 민감도(Sensitivity)와 특이도(Specificity)입니다. 민감도는 질환이 있을 때 양성으로 진단하는 비율이며, 특이도는 질환이 없을 때 음성으로 진단하는 비율입니다. 즉, 민감도와 특이도가 같이 높아야 진단의 정확도가 높아진다고 말할 수 있는 것입니다. (반대로 병이 있는 것을 있다고 하지 못하거나, 병이 없는 것을 없다고 하지 못하는 경우 모두 오진의 범주입니다.)
- 민감도(Sensitivity) = True Positive / (True Positive + False Negative)
- 특이도(Specificity) = True Negative / (True Negative + False Positive)
위 개념을 올바르게 이해했다면, TPR과 FPR의 개념을 쉽게 파악할 수 있습니다.
- TPR(True Positive Rate) = Sensitivity
- FPR(False Positive Rate) = 1-Specificity
민감도와 특이도가 높은 것이 곧 진단의 정확성이 높은 것이라는 점을 위에서 말씀드렸습니다. 이는 곧 TPR이 높을수록, FPR이 낮을수록 좋다고 이해할 수 있겠습니다. 즉, TPR이 1에 가까울수록, FPR이 0에 가까울수록 유용한 것입니다.
B. 판단 임계치(Decision Threshold), 그리고 위양성·위음성
현실적으로 특정 질환에 대한 검사를 시행할 때, 민감도와 특이도가 모두 높게 나타나는 경우는 많지 않습니다. 따라서 민감도와 특이도 중 한 가지를 택하게 되지요. 이 때 검사의 민감도를 높이면 전반적으로 양성으로 판단하는 비율이 올라가므로 위양성의 비율이 높아지게 되고, 특이도를 높이면 전반적으로 음성으로 판단하는 비율이 올라가 위음성의 비율이 높아지게 됩니다. 따라서 실제 환자를 놓치면 안 되는 질환에는 민감도가 높은 검사를, 불필요한 비용 소모를 줄이기 위한 질환에는 특이도가 높은 검사를 일차적으로 적용하는 경우가 많습니다.
검사 결과 위양성이 높게 나타나는 대표적인 질환은 AIDS(후천성면역결핍증, Acquired Immune Deficiency Syndrome)입니다. 위양성이 많이 나타나더라도 실제 환자를 놓치지 않기 위해서는 반드시 충분한 민감도를 확보할 필요가 있기 때문입니다. 반면 위음성이 높게 나타나는 검사는 객담 도말 검사, 소변 검사 등이 있습니다. 하필 채취한 샘플에 항원이 제대로 섞이지 않는 경우가 있기 때문에, 민감도를 끌어올리기 위해서 해당 검사들은 수 차례 반복하여 시행하는 것이 일반적입니다.
바로 이 때, 민감도 또는 특이도를 선택하는 판단 기준이 바로 판단 임계치(Decision Threshold)입니다. 판단 임계치가 높아지면 양성으로 판단하는 경우가 적어질 것이며, 반대의 경우도 마찬가지입니다. 즉, 민감도를 확보하기 위해서는 판단 임계치를 낮추어 보다 적극적으로 예측할 것이며, 특이도를 확보하기 위해서는 판단 임계치를 높여 보다 보수적으로 예측할 것입니다. 극단적인 예시를 들자면, 판단 임계치가 최대치인 1에서는 모든 객체에 대해 음성 판정을 내리며, 판단 임계치가 최소치인 0에서는 모든 객체에 대해 양성 판정을 내린다는 얘기입니다.
AUROC(Area Under ROC curve)
다시 ROC 곡선을 살펴봅니다. X축에는 FPR, Y축에는 TPR이 있습니다. 한편, 판단 임계치가 높아지면 FPR과 TPR이 모두 낮아집니다. 즉, 각 판단 임계치에 대한 ROC 곡선은 전부 다르게 나타나는 것입니다. 그렇다면 어느 정도의 판단 임계치를 적용하는 것이 가장 효율적인지를 따져볼 필요가 있을 것입니다. 이것을 정량적으로 비교하기 위한 것이 바로 AUROC입니다. ROC 곡선의 아래 영역 넓이를 계산해 가장 높은 값을 보이는 판단 임계치를 적용하는 것이 가장 효율적인 선택이 되는 것입니다.
이상적인 판단 임계치를 가정한다면 FPR 값의 변화에 관계 없이(특이도와 관계 없이) TPR이 1을 유지할 것입니다. 즉, 민감도와 특이도가 모두 1인 형태의 그래프가 나타나는 것입니다. 이 경우 ROC는 곡선의 형태로 나타나지 않고 그래프 제일 위에 딱 달라붙은 직선 형태가 될 것입니다. 그렇다면 AUROC 값은 1이 될 것입니다. 반면, 아무런 판단 기준 없이 양성·음성을 무작위 배정하는 경우 민감도와 특이도가 정확히 반비례 관계를 가질 것이므로 ROC 곡선은 y=x 그래프와 마찬가지의 직선 형태가 될 것입니다. 그렇다면 AUROC 값은 0.5가 될 것입니다.
요약하면, 일반적으로 AUROC 값은 0.5~1 사이의 값을 가집니다. 0.5 이하의 값을 가지도록 하는 판단 임계치는 즉시 폐기하여야 합니다. 반면 1에 가까울수록 효율적인 판단 임계치입니다. 0.7 미만의 경우 차선(Sub-optimal)으로 고려할 수 있는 정도이며, 0.7~0.8은 좋은(Good) 정도, 0.8 이상은 훌륭한(Excellent) 정도로 봅니다.
* Decision Threshold에 대해 널리 통용되는 공통된 번역이 없어 임의로 '판단 임계치'라는 표현을 사용하였습니다.