Como tabular los datos para análisis

Una buena tabulación de datos es tener la mitad del análisis hecho. Desgraciadamente, eso raras veces ocurre.

Usualmente, recibo planillas así:


ufff....



esto debería haber quedado así:



A veces, para añadir insulto a la injuria, combinan celdas


Nunca, nunca, por favor, nunca combines celdas. Nunca. Bueno, quizás en la situación que...no, no hay excepciones: N U N C A.

Aquí hay un ejemplo de todos los errores que se pueden cometer en la tabulación en una sola épica planilla:
no se que son las filas
no se que son las columnas
hay celdas combinadas
los datos están dispersos en distintas hojas
colores? para qué los colores?



Como sea, existen dos maneras de evitar que esto ocurra:

  1. Tabular los datos apropiadamente, esto es, una columna por cada variable y cada fila por cada observación. 
  2. Mejor aun, no utilizar excel para tabular datos. Puedes crear un formulario en Google Docs e ingresar allí los datos. Esto tiene tres ventajas: (1) disminuye la probabilidad de error al ingresar datos, porque puedes definir datos correctos, por ejemplo, si codificas F para femenino y M para masculino, que el campo "Género" solo acepte M o F; (2) elimina la posibilidad que alteres los datos ya ingresados, así, cada vez que ingresas un dato no tocas el resto de la planilla, y (3) la tabulación queda correcta de inmediato

Algunas recomendaciones adicionales:

  1. Se consistente, no ingreses en el campo género 1, f, F o fem, sino siempre lo mismo.
  2. Ocupa buenos nombre de variables. Evita "Temp. máx. (C°)" y prefiere "TempMaxC". Evita "M/F" y prefiere "Genero" o mejor, "Gen". Nota que evito utilizar acentos en la tabulación. 
  3. Trata de no utilizar espacios o comas. Si tienes una lista de colegios, quizás sea mejor codificarla, así el "Colegio de la República" se transforma en "12".
  4. Guarda las fechas como AAAA-MM-DD.
  5. Ocupa un valor para aquellas celdas que no tengan valores, como "NA". No las dejes en blanco ni con cero (cero es un valor).
  6. Solo una variable por celda.
  7. Si vas a codificar, ten a mano un archivo con los códigos, y consérvalo en la misma carpeta que los datos. Usualmente tengo, dentro de una misma carpeta, mi archivo "MisDatos.csv y "MisDatosCodigos.txt". Si trabajas con más gente o te gusta ser organizado, recomiendo que pruebes Open Science Framework.
  8. Guarda los archivos de datos en formato solo texto, como por ejemplo comma separated values (cvs)
  9. Mientras no ocupes el archivo de datos, mejor guardalo como solo lectura
  10. Por último y quizás más importante: mantén un respaldo online. Puede ser en Dropbox, Google Docs, OSF o lo que sea, pero debe ser online. Los pendrives se pierden y los discos duros se queman o infectan con virus (para quienes aún utilizan windows).