F-점수와 정확도

From Eyewire
Revision as of 13:49, 1 May 2016 by Wm05055 (Talk | contribs) (Created page with "F-점수는 얼마나 정확한가요?")

Jump to: navigation, search

==아이와이어에서는 F-점수에 기반하여 정확도가 주어집니다. F-점수는 precision과 recall이라고 불리는 두가지 지수를 통계적으로 종합하여 주어집니다. 쉽게 말하자면 운영자들이 여러분의 정확도를 알기 위해 무엇을 추가하고 무엇을 놓쳤는가에 대한 척도로 F-점수를 이용한다는 것입니다. F-점수에 대한 전통적인 식은 다음과 같습니다.

Error creating thumbnail: Unable to save thumbnail to destination

우리가 여러분의 최종적인 F-점수를 계산하기 전에 먼저 여러분의 precision과 recall을 계산해야 됩니다. 큐브를 플레이하면 4가지 가능한 경우의 수가 나옵니다. 그것은 옳게 추가한 결과(true positive result, tp), 올바르지 않게 추가한 결과(false positive result, fp), 올바르지 않게 추가하지 않은 결과(true positive result, fn), 올바르게 추가하지 않은 결과(true positive result,tp)입니다. tp란 플레이어가 추가해야 될 조각을 추가했다는 의미입니다. fp란 플레이어가 추가하지 말아야 될 조각을 추가했다는 것입니다. fn이란 플레이어가 추가해야 될 조각을 추가하지 않았다는 것입니다. tn이란 플레이어가 추가하지 않아야 될 부분을 추가하지 않고 나두었다는 것입니다. (쉽게 말해서 tp와 tn은 맞은 것이지만, fp와 fn은 틀린 것이죠.) 아래의 그림에서 이 예를 확인 할 수 있습니다.


NewFScoreEyeWire.png
왼쪽의 결과는 플레이어의 결과 예시입니다. 이 예에서 빨간색과 초록색 부분은 플레이어가 추가한 상태로 제출을 했지만, 보라색 부분은 제외한 상태로 제출했다고 합시다.


초록색 부분은 정확한 판단이기에 tp로 들어갑니다. 빨간색 부분은 들어가지 말아야 되는 부분이었는데 들어갔으므로 없어야 되는 부분인데 잘못(false) 추가(positive)했다라는 의미에서 fp가 되는 것입니다. 같은 원리로 보라색 부분은 추가했어야 하는데 잘못(false) 추가하지 않았다(negative)는 의미에서 fn이 되는 것이죠. 나머지 모든 부분이 tn인 것입니다(tn은 너무 크고 거의 대부분을 차지하기 때문에 이에 해당하지 않는 부분으로 정확도를 측정하는 것이 더 올바릅니다).


이 4가지 변수를 정의하고나면 Precision을 정의해야 됩니다. Precision이란 얼마나 큰 부피가 올바르게 추가 되었는가에 대한 것입니다. 예를 들어, 플레이어A가 0.9221의 Precision을 받았다고 생각해봅시다. 이 말은 A가 추가한 것의 92%는 올바른 판단이었지만 8%는 틀렸다는 것입니다. 그래서 플레이어의 Precision을 계산하기 위해서 우리는 tp(올바른 추가)와 fp(올바르지 않은 추가)를 사용하여, 다음과 같은 식을 구할 수 있습니다:
Error creating thumbnail: Unable to save thumbnail to destination


그럼 이제 마지막으로 Recall을 정의할 차례입니다. Recall이란 얼마의 부피가 올바르지 않게 추가 되지 않았는가에 대한 지수입니다. 플레이어A가 0.9409의 Recall을 받았다고 가정해봅시다. 이 말은 플레이어A는 6%의 맞는 답을 놓쳤다고 보면 됩니다.그래서 플레이어의 Recall을 계산하기 위해서 우리는 tp(올바른 추가)와 fn(실수로 추가하지 않음)을 사용하여 다음과 같은 식을 구할 수 있습니다:
Error creating thumbnail: Unable to save thumbnail to destination


그럼 이제 두 결과를 이용해서 맨 위에 있는 F-점수에 대한 식에 대입하면 됩니다. 다른 방법으로 접근 하는 것은 플레이어의 Precision과 Recall을 이용해서 조화평균을 구하면 그것이 정확도라고 할 수 있습니다.

F-점수는 얼마나 정확한가요?

One question we a get a lot is how do we know what is correct and what isn’t? What is correct is determined by combining the GrimReaper’s corrections with the EyeWirer consensus. If a cube does not have a GrimReaper correction we just use the EyeWirer consensus. EyeWire consensuses have proven to be quite accurate. However, there is still a small chance that a consensus may contain a wrong piece. This means that F-scores cannot prove user accuracy 100% of the time. However, they are accurate enough that we feel confident using them as a player guide.