Cómo el uso inteligente de los datos puede llevar a realizar descubrimientos fortuitos

Elsevier-Uncovered.jpg
Dr. Maerten de Rijke, profesor de informática en la Universiteit an Amsterdam (UvA) y Director Científico de la red Amsterdam Data Science, comenta que la colaboración entre el ámbito académico y la industria es vital para la ciencia de los datos.

Expertos del ámbito académico y la industria están colaboran para convertir la búsqueda de datos en un elemento inteligente y fácil para los científicos.

Con una tecnología de imagen avanzada, es posible registrar la actividad de 100.000 neuronas en una larva viva del pez cebra; solo 30 minutos de grabación pueden producir un terabyte de datos. La biología, como todas las disciplinas científicas, cada vez depende más de los datos, ofreciendo un reto a los investigadores: ¿Cómo encuentran los datos que necesitan para llevar a cabo sus experimentos?

Para un químico que necesita encontrar una partícula en concreto, un astrofísico que busca una estrella o un biólogo que trata de identificar un péptido, una base de datos amplia que cubra todos los temas es de vital utilidad. El volumen de información de las bases de datos es enorme: Reaxys, de Elsevier, por ejemplo, contiene más de 40 millones de reacciones químicas y 75 millones de compuestos.

Mientras que la información disponible a todo el mundo asegura que los investigadores tengan acceso a la información, aún está la tarea de seleccionar qué es relevante y qué no, dejando de lado la posibilidad de realizar un descubrimiento fortuito.

Un reciente acuerdo entre la red de colaboración Amsterdam Data Science (ADS) y Elsevier, implica calificar los diferentes conjuntos de datos que aparecen como resultado. El Dr. Paul Groth, Disruptive Technology Director de Elsevier Labs, explicó:

“El reto real es categorizar de forma correcta qué información debe aparecer en primer lugar cuando realizas una búsqueda. No obtienes mucha información de datos presentados en determinados formatos de documentos. Imagina una hoja de cálculo con columnas y filas repletas de números, ¿cómo se pueden clasificar esos datos en una búsqueda si no son suficientemente claros? Estamos trabajando con el ADS para tratar de averiguar cómo hacer esto mucho mejor.”

El Dr. Marteen de Rijke, profesor de informática de la Universiteit van Amsterdam (UvA) y Director Científico de ADS, comentó que los acuerdos entre el ámbito académito y la industria son vitales para avanzar en la ciencia de los datos:

“Desde mi punto de vista, las búsquedas con fines académicos resultan ser un problema fascinante, que aún no se ha estudiado a gran escala Elsevier posee información y datos muy interesantes, no solo por sus publicaciones sino demostrando cómo las personas hacen búsquedas, incluyendo esto en grandes bases de datos como Mendeley Data. Como académicos, tenemos acceso a este ecosistema desde fuera, pero tener acceso desde dentro es realmente interesante.”

Los algoritmos que pueden desarrollarse con esos datos pueden “aprender” del comportamiento de la gente, sus preferencias y cambios en sus preferencias de forma continua. Parte de este desarrollo requiere teoría, la cual pueden desarrollar en sus puestos de trabajo, pero otra parte requiere experimentación, necesitan probar los algoritmos bajo diferentes condiciones.

“Este es el motivo por el que necesitamos colaboradores como Elsevier, con sistemas y usuarios disponibles”, comenta el Dr. De Rijte. “Existe un beneficio claro de cara al avance de la ciencia; Elsevier se convierte en parte de este entorno de experimentación.”

Generando descubrimientos fortuitos

Una de las cosas que interesan al Dr. De Rijte es en descubrir cómo los académicos realizan búsquedas, y cómo sus comportamientos difieren del resto de personas que hacen búsquedas online. Este conocimiento les ayudará a establecer cómo los algoritmos pueden aprender automáticamente a mejorar las clasificaciones y recomendaciones, qué información puede el Dr. Groth aplicar a la hora de desarrollar tecnología que apoye a los investigadores.

Los algoritmos diseñados para entender los hábitos de lectura de los investigadores ya están cambiando la forma en la que los científicos encuentran información. El servidio de recomendaciones de Elsevier en ScienceDirect, “aprende” de 12 millones de usuarios al mes, proporcionándoles sugerencias relevantes que pueden ayudarles en sus días de búsqueda. El Dr. Groth busca proporcionar una herramienta similar para los datos, una que pueda sugerir datos, métodos y otro tipo de información basada en las búsquedas y el comportamiento de lectura.

4 cosas que convierten los datos en descubrimiento

En el European Data Forum de junio de 2016, el Dr. Paul Groth habló sobre la ciencia de los datos en Elsevier, resaltando los 4 pilares que convierten los datos en potenciales impulsores de descubrimientos:

  1. Archivarlos: Mendeley Data y otras bases de datos pueden proporcionar una base permanente y un DOI (Digital Object Identifier), por lo que se pueden citar.
  2. Hacerlos accesibles: usando API’s y links en artículos y referenciando los datos.
  3. Convertirlos en información que se pueda buscar: la colaboración con ADS busca mejorar las herramientas de búsqueda y clasificación.
  4. Hacerla reutilizable: asegurarse de que la información es clara, cálida y comprensible.

Mira la presentación del Dr. Groth.

Con formación en filosofía y matemáticas, el Dr. De Rijke está interesado en la representación y la recuperación de la información. Se adentró en la informática para hacer de su trabajo algo más práctico y comprobar que aplicaba tanto dentro como fuera de la ciencia a la hora de marcar la diferencia de cara a la investigación:

“El objetivo es guiar a los científicos cuando buscan información y a la vez facilitar los descubrimientos inesperados, la oportunidad de dar con información que desconocían que estaban buscando o incluso si se trata de algo que podrían pedir. Es in reto interesante facilitar el proceso de las personas que están perdidas en medio de tanta información y tener la oportunidad de toparse con algo interesante. Los hallazgos inesperados (o serendipia), son importantes para la búsqueda científica. No es algo que se haya resuelto ya, pero nos gustaría progresar en esta área.”

El “machine learning” (aprendizaje automático) en las búsquedas del futuro

En el ámbito de la investigación, a menudo buscamos respuestas, pero también algo de creatividad, un nuevo camino hacia el descubrimiento. Elsevier e informáticos del Amsterdam Data Science (ADS), se han aliado para entender cómo los investigadores buscan información, con el potencial para desarrollar tecnología inteligente y facilitar así hallazgos inesperados. A través de colaboraciones entre la industria y el ámbito académico, podemos crear poderosas herramientas que ayuden a los investigadores a descubrir nuevos caminos en investigación.Si quieres leer más historias sobre las personas y los proyectos fortalecidos debido al conocimiento, te invitamos a conocer más en la web Empowering Knowledge.

Esto no ha hecho más que empezar. A través de un acuerdo, Elsevier y ADS están redefiniendo qué conlleva la unión de la informática y el desarrollo de productos, y en el horizonte se atisba un rol más relevante en herramientas como Elsevier DataSearch.El Dr. Groth, un antiguo investigador académico en el ámbito de la informática, se incorporó a Elsevier para poder aplicar su experiencia en el desarrollo de tecnología y ayudar a las personas en las búsquedas científicas.

“Ya hacemos esto, pero aún hay mucho que podemos hacer. Es realmente apasionante este período de transición a medida que nos enfocamos más en la tecnología. A través de colaboraciones con algunos de los mayores grupos de investigación informáticos mundiales, podemos obtener ventaja y nutrirnos de su conocimiento para mejorar las herramientas de investigación y aplicar nuestro conocimiento a su vez y, en efecto, generar ciencia.”

No está solo en este camino: las colaboraciones de este tipo animan a las personas a moverse tanto con el ámbito académico como con la industria, además de reforzar lazos con las instituciones. En el caso de la colaboración entre Elsevier y ADS, los estudiantes de doctorado pasarán la mayor parte de su tiempo trabajando en su proyecto en las oficinas de Elsevier.

Este es un punto fundamental de la colaboración, facilitar que el conocimiento se comparta y se distribuya a través de las personas. Tal y como mencionaba el Dr. De Rijte:

“A largo plazo, es un buen formato para innovación continua, no se trata solo de académico que lanzan una solución y alguien de una compañía la recoge; se trata de algo continuo, un proceso bidireccional, en el que el movimiento de gente es realmente importante.”

Haber trabajado juntos en este sentido, hace posible elevar la búsqueda de datos a un nuevo nivel. Para el Dr. Groth esto significa crear herramientas que vayan de la mano del ciclo de investigación de los científicos, de manera que tanto si están desarrollando una hipótesis como si están ocupados en un experimento, el sistema pueda sugerirles ciertos conjuntos de datos o métodos que les ayuden en ese preciso momento.

“Actualmente nos encontramos en una fase en la que el investigador puede acceder a conjuntos de datos relevantes en el panel lateral del artículo que están leyendo en ScienceDirect, y ver recomendaciones de lecturas adicionales. El siguiente paso es que, a través de la tecnología, pueda saberse qué será útil para el usuario antes incluso de que haya empezado a buscar la información, métodos y datos que necesita.”

La Amsterdam Data Science (ADS), es una organización y red colaborativa que fue fundada por la Netherlands Organization for Scientific Research (NWO), la cual reúne a investigadores de la Universidad de Ciencias Aplicadas de Ámsterdam (HvA), del Centrum Wiskunde & Informatica (CWI), de la Universiteit van Amsterdam (UvA), y de la Vrije Universiteit Amsterdam (VU). Fortaleciendo los lazos que han existido siempre entre Elsevier y dichas instituciones, ADS y Elsevier han firmado un acuerdo a largo plazo para trabajar juntos en proyectos como DataSearch, que promueve la ciencia de los datos y apoya a los investigadores.

Elsevier Labs se compone de un grupo avanzado de investigadores tecnológicos en Elsevier que tienen tres objetivos fundamentales: inventar nuevas tecnologías, como nuevos modelos de lenguaje; apoyar la estrategia tecnológica de Elsevier, evaluando cómo las tecnologías impactan en el negocio; y acelerar el desarrollo, lo cual implica reclutar lo que el Dr. Groth denomina “uber hackers”, para trabajar con el equipo en problemas concretos que representan un gran reto.

Colaboradora Elsevier
Lucy Goodchild van Hilten
Tras varios intentos, Lucy Goodchild van Hilten se dio cuenta de que es mucho mejor escritora que científica. Matriculada en un máster en Historia de la Ciencia, Medicina y Tecnología en el Imperial College de Londres, se convirtió en editora asociada en Microbiology Today. Tras una temporada en el gabinete de prensa en el Imperial College, con sus hostorias en primera página, se mudó a Ámsterdam para trabajar en Elsevier como Responsable de Comunicación y Marketing para el área de ciencias biológicas. Ahora trabaja por su cuenta como escritora en Tell Lucy.