멘탈붕괴 시킨 이 4가지 해삼눈깔말미잘멍게우럭매운탕 말아먹을 걸 오늘 최모씨가 친절하디 친절하게 설명해줘서 이해했다.
처음부터 이렇게 했으면 과제하면서 그렇게 멘붕당하진 않았을 텐데....
뭐 됬고
먼저 TP , FP, FN TN 는
정답셋(test-set)
훈련셋(train-set)
sub( 기계가 뽑아냈는지 못뽑아냈는지의 여부) 가 필요하다.
일단 Negetive와 Positive는 내가 문장에서 sub를 제대로 추출했느냐 기준으로 한다.
추출이 안되었거나 되도 sub가 잘못 태깅된 것들은 그냥 TN이나 FN으로 날아가는 녀석들이다.
추출이 된 녀석들은 TP나 FP의 자격을 가지는 녀석들이다.
True 와 False는 뒤에 P가오냐 N이 오냐에 따라 해석이 조금 달라진다.
정답셋 X | 정답셋 X |
정답셋 O |
정답셋 O |
정답셋과 훈련셋이 섞인 것 중에서 뽑아낸 도메인들 |
|||
sub X | sub O |
sub O |
sub X |
TN |
FP |
TP |
FN |
TN 은 기계가 Negetive(sub도 못찾았음 or 찾더라도 sub가 잘못 태깅된 것)이라고 판단한 것 중에 실제로도 틀린것(False)를 의미하므로 우리가 presision 과 recall을 구할 때 안보이는 녀석들이다.
FP는 기계가 Positive(sub가 한 문장 안에서 맞게 태깅된 것)이라고 판단한 것 중에 정답에 없는 것(False)를 의미하므로 정답셋에는 없지만, 정답셋 밖의 범위에서 기계가 잘 찾아내었고, 잘 태깅된 것을 의미한다.
TP는 기계가 Positive(sub가 한 문장 안에서 맞은 것)이라고 판단한 것중에 진짜 맞는것(True)를 의미하므로, 우리가 찾고자 하는 녀석이 바로 이녀석이다. 이녀석이 높을수록 recall 과 presision 값이 올라간다.
FN은 기계가 Negetive(sub도 못찾은놈 or sub를 찾긴 찾았으나 틀린 것)이라고 판단한 것 중에 실제로는 그 기계가 판단한 것이 틀린 것(False) 즉 정답셋에 실제로 있는 녀석인데 기계가 못찾아서 False라고 해놓은 것이다.
그래서 precision으로는 한 파일안에서 그 도메인의 값을 기계가 얼마나 정확하게 추출했는가를 알 수 있고,
recall로는 한 도메인 안에서 그 도메인이 얼마나 정확한 측정을 하는가를 알 수 있다.
는 게 내가 이해한 내용인데
맞나? 틀리나?