멘탈붕괴 시킨 이 4가지 해삼눈깔말미잘멍게우럭매운탕 말아먹을 걸 오늘 최모씨가 친절하디 친절하게 설명해줘서 이해했다.

처음부터 이렇게 했으면 과제하면서 그렇게 멘붕당하진 않았을 텐데....

뭐 됬고

먼저 TP , FP, FN TN 는 

정답셋(test-set) 

훈련셋(train-set) 

sub( 기계가 뽑아냈는지 못뽑아냈는지의 여부) 가 필요하다.


일단 Negetive와 Positive는 내가 문장에서 sub를 제대로 추출했느냐  기준으로 한다. 

추출이 안되었거나 되도 sub가 잘못 태깅된 것들은 그냥 TN이나 FN으로 날아가는 녀석들이다.

추출이 된 녀석들은 TP나 FP의 자격을 가지는 녀석들이다.

True 와 False는 뒤에 P가오냐 N이 오냐에 따라 해석이 조금 달라진다.

정답셋 X

정답셋 X

정답셋 O 

정답셋 O 

정답셋과 훈련셋이 섞인 것 중에서 뽑아낸 도메인들

 sub X

sub O 

sub O 

sub X 

 TN

FP 

TP 

FN 


TN 은 기계가 Negetive(sub도 못찾았음 or 찾더라도 sub가 잘못 태깅된 것)이라고 판단한 것 중에 실제로도 틀린것(False)를 의미하므로 우리가 presision 과 recall을 구할 때 안보이는 녀석들이다. 

FP는 기계가 Positive(sub가 한 문장 안에서 맞게 태깅된 것)이라고 판단한 것 중에 정답에 없는 것(False)를 의미하므로 정답셋에는 없지만, 정답셋 밖의 범위에서 기계가 잘 찾아내었고, 잘 태깅된 것을 의미한다.

TP는 기계가 Positive(sub가 한 문장 안에서 맞은 것)이라고 판단한 것중에 진짜 맞는것(True)를 의미하므로, 우리가 찾고자 하는 녀석이 바로 이녀석이다. 이녀석이 높을수록 recall 과 presision 값이 올라간다.

FN은 기계가 Negetive(sub도 못찾은놈 or sub를 찾긴 찾았으나 틀린 것)이라고 판단한 것 중에 실제로는 그 기계가 판단한 것이 틀린 것(False) 즉 정답셋에 실제로 있는 녀석인데 기계가 못찾아서 False라고 해놓은 것이다.


그래서 precision으로는 한 파일안에서 그 도메인의 값을 기계가 얼마나 정확하게 추출했는가를 알 수 있고,

recall로는 한 도메인 안에서 그 도메인이 얼마나 정확한 측정을 하는가를 알 수 있다. 


는 게 내가 이해한 내용인데

맞나? 틀리나?




Posted by 뚜딱이
,