Desde pequeño, el estudiante escucha con frecuencia el credo del científico: para dar por buena una hipótesis, hay que comprobar que se cumple en el mundo real; y para eso hacen falta datos. Cuantos más, mejor. Pero, como explica Gary Smith en Bloomberg Quint, recopilar grandes conjuntos de datos no siempre trae más certezas.
El desarrollo tecnológico del último siglo ha facilitado la tarea de acceder a los datos, acumularlos y compararlos. Gracias a la inteligencia artificial, en este último paso se ha experimentado un salto cuantitativo sin precedentes. La investigación debería de ser hoy más precisa y fiable que nunca. Sin embargo, no es esto lo que percibe Smith, un profesor de economía que se ha hecho famoso por destapar las vergüenzas de la ciencia de datos.
Para Smith, la abundancia casi infinita de datos accesibles a los investigadores, unida a la presión que sienten por encontrar correlaciones estadísticamente significativas –por lo general, aquellas en que la probabilidad de que la relación se deba al azar sea menos del 5%– ha provocado “la locura de la minería de datos”: los investigadores tratan de ligar todo tipo de variables, por muy inconexas que parezcan, y, a base de buscar y buscar, acaban “encontrando” nexos que desafían el sentido común, pero que se sostienen desde un punto de vista meramente metodológico.
Smith menciona algunos ejemplos publicados en revistas de prestigio, como que los americanos de ascendencia japonesa son proclives a sufrir ataques al corazón en el cuarto día de cada mes, o que los huracanes son más mortíferos si llevan nombres de mujer.
El propio Smith envió a una revista científica una investigación concebida como ejemplo del absurdo al que se puede llegar. En el texto, “demostraba” una correlación entre que Donald Trump utilizara determinadas palabras en Twitter y que ocurrieran distintos fenómenos: el uso de “nunca” y la subida de temperaturas en Moscú cuatro días después; o el de “más” y el aumento del precio del té en China. Aunque el estudio tuviera una intención paródica, las correlaciones eran estadísticamente significativas, así que la investigación pasó el corte de la revista en cuestión.
“La explosión del número de cosas que se miden y registran ha magnificado más allá de lo imaginable el número de patrones coincidentes y relaciones estadísticas falsas que esperan engañarnos”, señala Smith. Y concluye: “El problema actual no es que tengamos muy pocos datos, sino que tenemos demasiados, lo que seduce a los investigadores para que los registren en busca de patrones que sean fáciles de encontrar, probablemente casuales y poco útiles.”