Difference between revisions of "F-Scores and Accuracy/ko"

From Eyewire
Jump to: navigation, search
(Created page with "left 왼쪽의 결과는 플레이어의 결과 예시입니다. 이 예에서 빨간색과 초록색 부분은 플레이어가 추가한...")
(Created page with "우리가 가장 많이 받는 질문 중 하나는 우리가 어떻게 무엇이 정확하고 무엇이 정확하지 않은지 판단하는지 입니다. 완벽한 모범답...")
 
(7 intermediate revisions by the same user not shown)
Line 7: Line 7:
  
  
[[File:NewFScoreEyeWire.png|150px|left]] 왼쪽의 결과는 플레이어의 결과 예시입니다. 이 예에서 빨간색과 초록색 부분은 플레이어가 추가한 상태로 제출을 했지만, 보라색 부분은 제외한 상태로 제출했습니다.  
+
[[File:NewFScoreEyeWire.png|150px|left]] 왼쪽의 결과는 플레이어의 결과 예시입니다. 이 예에서 빨간색과 초록색 부분은 플레이어가 추가한 상태로 제출을 했지만, 보라색 부분은 제외한 상태로 제출했다고 합시다.  
  
  
The red segment here is a false positive and the purple segment is a false negative. The player mistakenly added the red segment when they should have added the purple segment instead. The green segment is correct.
+
초록색 부분은 정확한 판단이기에 tp로 들어갑니다. 빨간색 부분은 들어가지 말아야 되는 부분이었는데 들어갔으므로 없어야 되는 부분인데 잘못(false) 추가(positive)했다라는 의미에서 fp가 되는 것입니다. 같은 원리로 보라색 부분은 추가했어야 하는데 잘못(false) 추가하지 않았다(negative)는 의미에서 fn이 되는 것이죠. 나머지 모든 부분이 tn인 것입니다(tn은 너무 크고 거의 대부분을 차지하기 때문에 이에 해당하지 않는 부분으로 정확도를 측정하는 것이 더 올바릅니다).
  
  
This brings us to precision; precision is how much of a volume was added correctly. For example if Player A has a precision 0.9221 that means about 92% of what Player A added was correct and about 8% of what Player A added should not have been added. To determine a player’s precision we use their true positive (tp) results, correctly added, and their false positive (fp) results, incorrectly added, in this formula: [[File:Precisionformula.png|center]]
+
이 4가지 변수를 정의하고나면 Precision을 정의해야 됩니다. Precision이란 얼마나 큰 부피가 올바르게 추가 되었는가에 대한 것입니다. 예를 들어, 플레이어A가 0.9221의 Precision을 받았다고 생각해봅시다. 이 말은 A가 추가한 것의 92%는 올바른 판단이었지만 8%는 틀렸다는 것입니다. 그래서 플레이어의 Precision을 계산하기 위해서 우리는 tp(올바른 추가)와 fp(올바르지 않은 추가)를 사용하여, 다음과 같은 식을 구할 수 있습니다: [[File:Precisionformula.png|center]]
  
  
  
Recall measures how much of the volume was missed. Let’s say Player A has a recall of 0.9409. That means that Player A missed about 6% of the correct segments in the cubes Player A worked on. To determine a player’s recall we use their true positive (tp) results, correctly added, and false negative (fn) results, incorrectly missed, in this formula: [[File:Recallformula.png|center]]
+
그럼 이제 마지막으로 Recall을 정의할 차례입니다. Recall이란 얼마의 부피가 올바르지 않게 추가 되지 않았는가에 대한 지수입니다. 플레이어A가 0.9409의 Recall을 받았다고 가정해봅시다. 이 말은 플레이어A는 6%의 맞는 답을 놓쳤다고 보면 됩니다.그래서 플레이어의 Recall을 계산하기 위해서 우리는 tp(올바른 추가)와 fn(실수로 추가하지 않음)을 사용하여 다음과 같은 식을 구할 수 있습니다: [[File:Recallformula.png|center]]
  
  
Now we would take the results from both of those formulas and plug them into the formula above to get a player’s F-score. Another way to look at it is we take the harmonic mean of a player’s precision and recall to get their overall accuracy rating.
+
그럼 이제 두 결과를 이용해서 맨 위에 있는 F-점수에 대한 식에 대입하면 됩니다. 다른 방법으로 접근 하는 것은 플레이어의 Precision과 Recall을 이용해서 조화평균을 구하면 그것이 정확도라고 할 수 있습니다.
  
===How Accurate are F-Scores?===
+
F-점수는 얼마나 정확한가요?
  
One question we a get a lot is how do we know what is correct and what isn’t? What is correct is determined by combining the [[GrimReaper]]’s corrections with the EyeWirer [[The Consensus|consensus]]. If a cube does not have a GrimReaper correction we just use the EyeWirer consensus. EyeWire consensuses have proven to be quite accurate. However, there is still a small chance that a consensus may contain a wrong piece. This means that F-scores cannot prove user accuracy 100% of the time. However, they are accurate enough that we feel confident using them as a player guide.
+
우리가 가장 많이 받는 질문 중 하나는 우리가 어떻게 무엇이 정확하고 무엇이 정확하지 않은지 판단하는지 입니다. 완벽한 모범답안은 그림리퍼(GrimReaper)에 의해서 수정된 아이와이어의 컨센서스(Consensus)입니다. 큐브가 아직 그림리퍼의 손을 거치지 않았다면 우리는 임시 답안으로 아이와이어의 컨센서스를 사용합니다. 그렇다고 걱정하실 것은 없습니다. 아이와이어의 컨센서스는 큰낫, 길잡이 등 많은 분들의 활동으로 꽤 정확하다는 것이 입증 되었기 때문입니다. 그래도 여기에 작은 실수가 있을 수 있습니다. 이것은 F-점수가 플레이어의 정확도를 100% 반영하지 못한다는 뜻이기도 합니다. 그러나, 이 차이는 우리가 느끼지 못할 정도로 미세하기에 플레이어의 평가로 써도 무방합니다.

Latest revision as of 14:05, 1 May 2016

==아이와이어에서는 F-점수에 기반하여 정확도가 주어집니다. F-점수는 precision과 recall이라고 불리는 두가지 지수를 통계적으로 종합하여 주어집니다. 쉽게 말하자면 운영자들이 여러분의 정확도를 알기 위해 무엇을 추가하고 무엇을 놓쳤는가에 대한 척도로 F-점수를 이용한다는 것입니다. F-점수에 대한 전통적인 식은 다음과 같습니다.

Error creating thumbnail: Unable to save thumbnail to destination

우리가 여러분의 최종적인 F-점수를 계산하기 전에 먼저 여러분의 precision과 recall을 계산해야 됩니다. 큐브를 플레이하면 4가지 가능한 경우의 수가 나옵니다. 그것은 옳게 추가한 결과(true positive result, tp), 올바르지 않게 추가한 결과(false positive result, fp), 올바르지 않게 추가하지 않은 결과(true positive result, fn), 올바르게 추가하지 않은 결과(true positive result,tp)입니다. tp란 플레이어가 추가해야 될 조각을 추가했다는 의미입니다. fp란 플레이어가 추가하지 말아야 될 조각을 추가했다는 것입니다. fn이란 플레이어가 추가해야 될 조각을 추가하지 않았다는 것입니다. tn이란 플레이어가 추가하지 않아야 될 부분을 추가하지 않고 나두었다는 것입니다. (쉽게 말해서 tp와 tn은 맞은 것이지만, fp와 fn은 틀린 것이죠.) 아래의 그림에서 이 예를 확인 할 수 있습니다.


NewFScoreEyeWire.png
왼쪽의 결과는 플레이어의 결과 예시입니다. 이 예에서 빨간색과 초록색 부분은 플레이어가 추가한 상태로 제출을 했지만, 보라색 부분은 제외한 상태로 제출했다고 합시다.


초록색 부분은 정확한 판단이기에 tp로 들어갑니다. 빨간색 부분은 들어가지 말아야 되는 부분이었는데 들어갔으므로 없어야 되는 부분인데 잘못(false) 추가(positive)했다라는 의미에서 fp가 되는 것입니다. 같은 원리로 보라색 부분은 추가했어야 하는데 잘못(false) 추가하지 않았다(negative)는 의미에서 fn이 되는 것이죠. 나머지 모든 부분이 tn인 것입니다(tn은 너무 크고 거의 대부분을 차지하기 때문에 이에 해당하지 않는 부분으로 정확도를 측정하는 것이 더 올바릅니다).


이 4가지 변수를 정의하고나면 Precision을 정의해야 됩니다. Precision이란 얼마나 큰 부피가 올바르게 추가 되었는가에 대한 것입니다. 예를 들어, 플레이어A가 0.9221의 Precision을 받았다고 생각해봅시다. 이 말은 A가 추가한 것의 92%는 올바른 판단이었지만 8%는 틀렸다는 것입니다. 그래서 플레이어의 Precision을 계산하기 위해서 우리는 tp(올바른 추가)와 fp(올바르지 않은 추가)를 사용하여, 다음과 같은 식을 구할 수 있습니다:
Error creating thumbnail: Unable to save thumbnail to destination


그럼 이제 마지막으로 Recall을 정의할 차례입니다. Recall이란 얼마의 부피가 올바르지 않게 추가 되지 않았는가에 대한 지수입니다. 플레이어A가 0.9409의 Recall을 받았다고 가정해봅시다. 이 말은 플레이어A는 6%의 맞는 답을 놓쳤다고 보면 됩니다.그래서 플레이어의 Recall을 계산하기 위해서 우리는 tp(올바른 추가)와 fn(실수로 추가하지 않음)을 사용하여 다음과 같은 식을 구할 수 있습니다:
Error creating thumbnail: Unable to save thumbnail to destination


그럼 이제 두 결과를 이용해서 맨 위에 있는 F-점수에 대한 식에 대입하면 됩니다. 다른 방법으로 접근 하는 것은 플레이어의 Precision과 Recall을 이용해서 조화평균을 구하면 그것이 정확도라고 할 수 있습니다.

F-점수는 얼마나 정확한가요?

우리가 가장 많이 받는 질문 중 하나는 우리가 어떻게 무엇이 정확하고 무엇이 정확하지 않은지 판단하는지 입니다. 완벽한 모범답안은 그림리퍼(GrimReaper)에 의해서 수정된 아이와이어의 컨센서스(Consensus)입니다. 큐브가 아직 그림리퍼의 손을 거치지 않았다면 우리는 임시 답안으로 아이와이어의 컨센서스를 사용합니다. 그렇다고 걱정하실 것은 없습니다. 아이와이어의 컨센서스는 큰낫, 길잡이 등 많은 분들의 활동으로 꽤 정확하다는 것이 입증 되었기 때문입니다. 그래도 여기에 작은 실수가 있을 수 있습니다. 이것은 F-점수가 플레이어의 정확도를 100% 반영하지 못한다는 뜻이기도 합니다. 그러나, 이 차이는 우리가 느끼지 못할 정도로 미세하기에 플레이어의 평가로 써도 무방합니다.