멘탈붕괴 시킨 이 4가지 해삼눈깔말미잘멍게우럭매운탕 말아먹을 걸 오늘 최모씨가 친절하디 친절하게 설명해줘서 이해했다.

처음부터 이렇게 했으면 과제하면서 그렇게 멘붕당하진 않았을 텐데....

뭐 됬고

먼저 TP , FP, FN TN 는 

정답셋(test-set) 

훈련셋(train-set) 

sub( 기계가 뽑아냈는지 못뽑아냈는지의 여부) 가 필요하다.


일단 Negetive와 Positive는 내가 문장에서 sub를 제대로 추출했느냐  기준으로 한다. 

추출이 안되었거나 되도 sub가 잘못 태깅된 것들은 그냥 TN이나 FN으로 날아가는 녀석들이다.

추출이 된 녀석들은 TP나 FP의 자격을 가지는 녀석들이다.

True 와 False는 뒤에 P가오냐 N이 오냐에 따라 해석이 조금 달라진다.

정답셋 X

정답셋 X

정답셋 O 

정답셋 O 

정답셋과 훈련셋이 섞인 것 중에서 뽑아낸 도메인들

 sub X

sub O 

sub O 

sub X 

 TN

FP 

TP 

FN 


TN 은 기계가 Negetive(sub도 못찾았음 or 찾더라도 sub가 잘못 태깅된 것)이라고 판단한 것 중에 실제로도 틀린것(False)를 의미하므로 우리가 presision 과 recall을 구할 때 안보이는 녀석들이다. 

FP는 기계가 Positive(sub가 한 문장 안에서 맞게 태깅된 것)이라고 판단한 것 중에 정답에 없는 것(False)를 의미하므로 정답셋에는 없지만, 정답셋 밖의 범위에서 기계가 잘 찾아내었고, 잘 태깅된 것을 의미한다.

TP는 기계가 Positive(sub가 한 문장 안에서 맞은 것)이라고 판단한 것중에 진짜 맞는것(True)를 의미하므로, 우리가 찾고자 하는 녀석이 바로 이녀석이다. 이녀석이 높을수록 recall 과 presision 값이 올라간다.

FN은 기계가 Negetive(sub도 못찾은놈 or sub를 찾긴 찾았으나 틀린 것)이라고 판단한 것 중에 실제로는 그 기계가 판단한 것이 틀린 것(False) 즉 정답셋에 실제로 있는 녀석인데 기계가 못찾아서 False라고 해놓은 것이다.


그래서 precision으로는 한 파일안에서 그 도메인의 값을 기계가 얼마나 정확하게 추출했는가를 알 수 있고,

recall로는 한 도메인 안에서 그 도메인이 얼마나 정확한 측정을 하는가를 알 수 있다. 


는 게 내가 이해한 내용인데

맞나? 틀리나?




Posted by 뚜딱이
,

보호되어 있는 글입니다.
내용을 보시려면 비밀번호를 입력하세요.

최대한 많이 물어볼 것.


소수의 의견보다는 다수를 기준으로 생각할 것


나보다 항상 나이많은 사람에게는 나이가 많다는 것을 무의식적으로 인지하고 있을 것


~할게요, ~하세요. ~해야되요 ~해보셨어요? 는 윗사람에게는 자제해야 할 것.

~해주시면 안될까요? ~는 어떨까요? ~해도 좋지 않을까요? 으로 고치는게 좋은 것.


나보다 나이가 적은 사람에게라도 존댓말을 쓸 것.


혹시 잘못했다고 생각할 때는 개인적으로 사과드릴 것.


전달자의 입장에 놓여있다면, 나보다 나이가 많은 사람에게 물어보고 자문을 구한뒤, 다수의 의견은 스스로 판단하는 법을 배울 것.(가장 중요한 선택인것 같군)


긍정적으로 생각할 것.



'잡소리' 카테고리의 다른 글

대학교와 회사의 차이  (0) 2014.04.23
시도때도 없는 개드립이 나온다.  (0) 2014.04.11
야밤의 스파게티  (0) 2012.11.23
이게 몇 kb 차이야 ㅋㅋㅋ  (0) 2012.11.16
바쁘군  (0) 2012.11.15
Posted by 뚜딱이
,