Difference between revisions of "F-Scores and Accuracy/es"

From Eyewire
Jump to: navigation, search
(Created page with "izquierda A la izquierda hay un ejemplo de una rama enviada por un jugador. En este ejemplo, los segmentos rojo y verde son lo que el ju...")
(Created page with "El segmento rojo aquí es un falso positivo y el segmento púrpura es un falso negativo. El jugador agregó erróneamente el segmento rojo cuando debería haber agregado el se...")
Line 9: Line 9:
  
  
The red segment here is a false positive and the purple segment is a false negative. The player mistakenly added the red segment when they should have added the purple segment instead. The green segment is correct.
+
El segmento rojo aquí es un falso positivo y el segmento púrpura es un falso negativo. El jugador agregó erróneamente el segmento rojo cuando debería haber agregado el segmento púrpura en su lugar. El segmento verde es correcto.
  
  

Revision as of 22:43, 19 July 2019

En Eyewire, se le otorga una calificación de precisión basada en su calificación F. Las puntuaciones F son un método estadístico para determinar la precisión, tanto para la precisión como para la recuperación. O, más simplemente, las puntuaciones F son la forma en que HQ determina su precisión en función de lo que se agregó y lo que se perdió. La fórmula para la puntuación F tradicional es:

centro

Antes de que podamos calcular primero la puntuación F final, debemos calcular su precisión y recuperación individual. Cuando un jugador hace un cubo, hay cuatro resultados posibles para cada segmento en ese cubo: un resultado verdaderamente positivo, un resultado falso positivo, un resultado falso negativo y un resultado verdaderamente negativo. Un verdadero resultado positivo (tp) es cuando un jugador agrega un segmento que debe agregarse. Un falso positivo (fp) es cuando un jugador agrega un segmento que no debe agregarse. Un falso negativo (fn) es cuando un jugador pierde un segmento que debería haber agregado. Un verdadero negativo (tn) es cuando un jugador omite correctamente un segmento que no pertenece. En la siguiente figura puede ver un ejemplo de falso negativo y de falso positivo.


150px|izquierda A la izquierda hay un ejemplo de una rama enviada por un jugador. En este ejemplo, los segmentos rojo y verde son lo que el jugador envió, mientras que el segmento púrpura se dejó de lado.


El segmento rojo aquí es un falso positivo y el segmento púrpura es un falso negativo. El jugador agregó erróneamente el segmento rojo cuando debería haber agregado el segmento púrpura en su lugar. El segmento verde es correcto.


This brings us to precision; precision is how much of a volume was added correctly. For example if Player A has a precision 0.9221 that means about 92% of what Player A added was correct and about 8% of what Player A added should not have been added. To determine a player’s precision we use their true positive (tp) results, correctly added, and their false positive (fp) results, incorrectly added, in this formula:
Error creating thumbnail: Unable to save thumbnail to destination


Recall measures how much of the volume was missed. Let’s say Player A has a recall of 0.9409. That means that Player A missed about 6% of the correct segments in the cubes Player A worked on. To determine a player’s recall we use their true positive (tp) results, correctly added, and false negative (fn) results, incorrectly missed, in this formula:
Error creating thumbnail: Unable to save thumbnail to destination


Now we would take the results from both of those formulas and plug them into the formula above to get a player’s F-score. Another way to look at it is we take the harmonic mean of a player’s precision and recall to get their overall accuracy rating.

How Accurate are F-Scores?

One question we a get a lot is how do we know what is correct and what isn’t? What is correct is determined by combining the GrimReaper’s corrections with the EyeWirer consensus. If a cube does not have a GrimReaper correction we just use the EyeWirer consensus. EyeWire consensuses have proven to be quite accurate. However, there is still a small chance that a consensus may contain a wrong piece. This means that F-scores cannot prove user accuracy 100% of the time. However, they are accurate enough that we feel confident using them as a player guide.