artículo no publicado

Perder el rastro de los datos científicos

Los datos perdidos o inaccesibles son un problema cotidiano que tiene implicaciones serias, pues sin ellos podríamos encontrarnos imposibilitados para rastrear los fundamentos del conocimiento científico.

La pérdida de datos es una cosa común. Alguien que haya usado computadoras ha pasado, con toda probabilidad, por la experiencia de no poder abrir un archivo porque está dañado o ha dejado de ser compatible con programas actuales, o porque está guardado en un soporte que las computadoras comunes no leen. Pero es irónico que en tiempos en que los científicos se especializan en big data, muchos de los datos que han recabado sean, en realidad, inaccesibles.

En el estudio “The availability of research data declines rapidly with article age”, un equipo encabezado por Timothy H. Vines analizó una muestra de 516 estudios científicos con una antigüedad de entre 2 y 22 años y encontró que, en muchos casos, los datos –que podríamos llamar crudos, es decir, aún sin interpretación– que acompañaban a los mismos eran imposibles de localizar, ya fuera porque los autores habían cambiado sus direcciones electrónicas y no podían ser contactados o porque los datos se guardaron usando tecnología material que ahora es obsoleta, como los floppy discs. Según el artículo, la probabilidad de que estos datos sigan disponibles cae en un 17% cada año.

Puesto que el conocimiento científico se basa principalmente en la posibilidad de replicar experimentos o en el análisis de datos replicables, la pérdida de datos, sumada a la imposibilidad de contactar a las personas que los generaron, da pie al cuestionamiento de esos resultados, que probablemente se han usado para generar otros estudios, que a su vez son el soporte de otros y así sucesivamente. La materialidad del conocimiento son los resultados de los experimentos: datos y medidas necesarios para hacer cualquier tipo de análisis o para criticar un análisis previo. Ya después vienen las teorías que se sustentan en ellos, o las contrahipótesis para cambiar la dirección de una teoría con base en los datos.

Hallazgos como los de Vines ponen en relieve al menos tres grandes problemas. El primero es que cuando no se puede tener acceso a los datos, el conocimiento surgido de ellos queda, por decirlo de una manera, “en el aire”. Sabemos que el conocimiento es acumulativo, al menos en la mayoría de las disciplinas, pero si los datos sobre los que se acumula dicho conocimiento ya no existen, ¿sobre qué está en realidad basado? No se puede prescindir de los datos.

La situación recuerda al cuento de Hansel y Gretel, en el que Hansel deja un rastro de migas de pan para marcar el camino de vuelta a su casa, pero su esfuerzo es inútil porque los pájaros se comen el pan. ¿Es que, como los personajes del cuento, ya no podemos volver atrás en el camino del conocimiento? ¿Tenemos que volver a generar todos esos datos perdidos que sirvieron de soporte para generar conclusiones y seguir avanzando en el conocimiento? ¿O debemos confiar ciegamente en las conclusiones a las que dieron?

Se supone que confiar sin cuestionarse o sin poder reproducir un experimento es anticientífico. Es el hecho mismo que se le critica a cualquier dogma. Por eso la ciencia no puede dejar que sus datos sean imposibles de rastrear, porque de ese modo se perderían todas las facultades metodológicas que acreditan que un conocimiento es científico.

Por lo tanto, siendo estrictos, diríamos que los resultados basados en datos no rastreables son inválidos, al no poderse corroborar. Por poner un ejemplo, si no tuviéramos los datos reales que Galileo recabó en sus experimentos de mecánica, ya no tendríamos certeza de sus resultados, ni podríamos analizar a fondo su trabajo experimental, ni el trabajo teórico surgido a partir de sus datos. Tal la importancia que estos conllevan.

Vines y su equipo sugieren que los datos sean entregados junto con el artículo al órgano que los publica, para que así los responsables vayan generando un soporte sistemático de la información que deciden publicar. Es una solución que lleva al segundo problema: cómo almacenar millares de datos que se producen a diario y cómo prever que sigan siendo accesibles en cien o doscientos años. Se trata de encontrar un soporte material que haga esto posible. Además de que es necesario crear o perfeccionar los soportes virtuales que respalden todos los datos, sería bueno no depender de uno solo, sino tener uno o varios que no se vuelvan obsoletos con el tiempo. Tal vez no sea descabellado pensar en contar, al menos en casos especiales, con un soporte material como el papel. Después de todo, libros científicos del pasado, como los de Galileo, aún se conservan y atesoran

Un tercer problema es el de lo público y lo privado. Muchos investigaciones se financian con capitales privados, de modo que los datos que producen tendrían propietarios que podrían decidir, o no, ponerlos al alcance del público.

Sin embargo, hay datos que son obtenidos en proyectos de investigación realizados con apoyos estatales. Algo que hace que un conocimiento sea exclusivo es la primicia de medir o experimentar sobre cierto material. Una vez que se tiene la exclusiva del conocimiento, es decir, que se publican arbitradamente los resultados, ¿deberían volverse públicos los datos sobre los cuales se basaron?

Se han dado ya varios pasos para que esto ocurra, tanto por parte de científicos con iniciativa propia como de los gobiernos. El antropólogo Lee Berger, autor de un importante estudio sobre los antepasados del homo sapiens, ha optado, una vez publicados sus resultados, por poner sus datos a disposición del público y dejar que la comunidad los use para comprobar sus análisis o hacer sus propias teorías. Este hecho fue muy original en su momento (2015) y es relevante para el caso que hablamos, pues conjuga la posibilidad para el que quiera, lego o no, de rastrear los datos sobre los que un científico hizo sus conclusiones y, además, los pone a disposición del público en la red, marcando una especie de transparencia científica. Lo que Berger pretende es devolverle la importancia a los análisis y las teorías que se hacen al respecto de los datos, y no a la exclusividad sobre los mismos.

Siguiendo este ejemplo, desde hace seis años la revista Molecular Ecology pide a sus autores que hagan accesibles los datos de los estudios que envían para dictaminación. Esto indica que se hace ya en algunas instituciones, pero debería volverse una práctica común, que evitara la pérdida de contacto con los autores o la obsolescencia del soporte material, tal como se menciona en este artículo.

Sería deseable que, al menos en lo que hace a la investigación financiada por el Estado, una vez publicados los resultados y análisis, se hicieran públicos los datos o quedaran guardados en los repositorios de quien los publica o financia. Existen ya varios esfuerzos para materializar esta idea. La Unión Europea ha establecido que a partir de 2014, todos los artículos realizados gracias a la financiación de Horizonte 2020 –el programa de financiación de la investigación y la innovación en la UE – tendrán que ser accesibles. Plantean dos rutas para ello, la dorada y la verde. En la primera, un investigador pone en acceso abierto su artículo en el momento mismo de la publicación en una revista especializada, la cual debe ser compensada económicamente por la cesión del copyright para dejar el artículo a la libre consulta. En la segunda, el científico deposita su artículo ya publicado en un repositorio abierto al público, tiempo después de su aparición en medios especializados. En España y en México, se ha optado por un esquema similar al de la vía verde. En México, se reformaron en 2014 las leyes de Ciencia y Tecnología, General de Educación y Orgánica del Conacyt, para adoptar la estrategia de acceso abierto.

Finalmente, podemos decir que se han hecho intentos de hacer bases de datos gigantes para estos fines, como aquí se cuenta. Sin embargo, históricamente, los científicos han tenido objeciones y han sido reacios a compartir sus datos: es demasiado trabajo como para volverlo público, no existen bases de datos buenas y confiables, quienes financian la investigación no tienen interés en compartirlos. Además, es difícil ponerse de acuerdo en los estándares para formatear los datos.

Otro problema es que la información contextual de los dato puede llevar a su utilización fraudulenta o errónea, divulgando como ciertos resultados que parecen apoyados por los datos, pero haciendo en realidad una mala lectura de ellos, no revisada por los expertos.  

La pérdida y conservación de los datos es un problema en el día a día del trabajo científico, para el cual no se ha encontrado una solución enteramente satisfactoria. Es un tema delicado e importante, pues se trata del rastro del conocimiento, sobre el cual se sostiene todo lo que se investiga. Quienes alcanzan a ver más lejos no están, como dijera Newton, “subidos a hombros de gigantes”, sino en un rastro de datos que crece día a día. Hay que hacer algo para que siempre podamos seguirlo.