F-점수와 정확도
==아이와이어에서는 F-점수에 기반하여 정확도가 주어집니다. F-점수는 precision과 recall이라고 불리는 두가지 지수를 통계적으로 종합하여 주어집니다. 쉽게 말하자면 운영자들이 여러분의 정확도를 알기 위해 무엇을 추가하고 무엇을 놓쳤는가에 대한 척도로 F-점수를 이용한다는 것입니다. F-점수에 대한 전통적인 식은 다음과 같습니다.
우리가 여러분의 최종적인 F-점수를 계산하기 전에 먼저 여러분의 precision과 recall을 계산해야 됩니다. 큐브를 플레이하면 4가지 가능한 경우의 수가 나옵니다. 그것은 옳게 추가한 결과(true positive result, tp), 올바르지 않게 추가한 결과(false positive result, fp), 올바르지 않게 추가하지 않은 결과(true positive result, fn), 올바르게 추가하지 않은 결과(true positive result,tp)입니다. tp란 플레이어가 추가해야 될 조각을 추가했다는 의미입니다. fp란 플레이어가 추가하지 말아야 될 조각을 추가했다는 것입니다. fn이란 플레이어가 추가해야 될 조각을 추가하지 않았다는 것입니다. tn이란 플레이어가 추가하지 않아야 될 부분을 추가하지 않고 나두었다는 것입니다. (쉽게 말해서 tp와 tn은 맞은 것이지만, fp와 fn은 틀린 것이죠.) 아래의 그림에서 이 예를 확인 할 수 있습니다.
초록색 부분은 정확한 판단이기에 tp로 들어갑니다. 빨간색 부분은 들어가지 말아야 되는 부분이었는데 들어갔으므로 없어야 되는 부분인데 잘못(false) 추가(positive)했다라는 의미에서 fp가 되는 것입니다. 같은 원리로 보라색 부분은 추가했어야 하는데 잘못(false) 추가하지 않았다(negative)는 의미에서 fn이 되는 것이죠. 나머지 모든 부분이 tn인 것입니다(tn은 너무 크고 거의 대부분을 차지하기 때문에 이에 해당하지 않는 부분으로 정확도를 측정하는 것이 더 올바릅니다).
그럼 이제 두 결과를 이용해서 맨 위에 있는 F-점수에 대한 식에 대입하면 됩니다. 다른 방법으로 접근 하는 것은 플레이어의 Precision과 Recall을 이용해서 조화평균을 구하면 그것이 정확도라고 할 수 있습니다.
F-점수는 얼마나 정확한가요?
우리가 가장 많이 받는 질문 중 하나는 우리가 어떻게 무엇이 정확하고 무엇이 정확하지 않은지 판단하는지 입니다. 완벽한 모범답안은 그림리퍼(GrimReaper)에 의해서 수정된 아이와이어의 컨센서스(Consensus)입니다. 큐브가 아직 그림리퍼의 손을 거치지 않았다면 우리는 임시 답안으로 아이와이어의 컨센서스를 사용합니다. 그렇다고 걱정하실 것은 없습니다. 아이와이어의 컨센서스는 큰낫, 길잡이 등 많은 분들의 활동으로 꽤 정확하다는 것이 입증 되었기 때문입니다. 그래도 여기에 작은 실수가 있을 수 있습니다. 이것은 F-점수가 플레이어의 정확도를 100% 반영하지 못한다는 뜻이기도 합니다. 그러나, 이 차이는 우리가 느끼지 못할 정도로 미세하기에 플레이어의 평가로 써도 무방합니다.