Big data o cómo analizar ingentes volúmenes de datos: Curso de actualización para científicos en India

Raman Babu y BS Vivek

Mateo Vargas delivers attendance certificate

“Es la marca de una persona verdaderamente inteligente el moverse por las estadísticas”, dijo alguna vez George Bernard Shaw, y seguramente los 56 investigadores de maíz que participaron en un curso de estadística y genómica están de acuerdo con el famoso escritor irlandés.

Los investigadores provenían de siete sistemas nacionales de investigación agrícola y cinco compañías semilleras del sur y el sureste de Asia, del CIMMYT y del ICRISAT. El curso se llevó a cabo del 12 al 21 de mayo en las instalaciones de la oficina del CIMMYT en Hyderabad.

Los grandes conjuntos de datos (big data) son ahora una realidad y el volumen, variedad y velocidad con los que llegan a los programas de mejoramiento está alcanzando niveles sin precedente. La capacidad de localizar datos entre fenotipos de numerosas localidades y genotipos de alta densidad en poco tiempo permitirá a los mejoradores seguir innovando continuamente y tomar las mejores decisiones en cuanto a selección. El objetivo del curso era reforzar los conocimientos sobre métodos modernos de mejoramiento, sobre todo de científicos que ya tienen alguna experiencia y estudiantes que hacen investigación sobre maíz.

Gran parte del curso estuvo dedicada a tareas prácticas en las que los estudiantes utilizaron principalmente plataformas abiertas de análisis de datos, como R y Genstat, con series de datos de los programas de mejoramiento del CIMMYT. Hubo una demostración de varios análisis, entre ellos de predicción lineal no sesgada en un alto volumen de datos no balanceados, regresiones factoriales, mapeo de QTL, análisis de asociación del genoma completo, selección genómica, mapeo fino e imputación genotípica.

“Ahora que aprendí a utilizar potentes herramientas estadísticas y de mejoramiento molecular podré ayudar a generar más resultados en mi programa”, recalcó Mahendra Tripathi, mejorador del Programa Nacional de Investigación sobre Maíz de Nepal, que hace estudios de doctorado en el CIMMYT como parte del proyecto Maíz tolerante al calor para Asia. Brad Thada, estudiante de la Universidad de Purdue, Estados Unidos, que hace trabajo de tolerancia al calor, dijo que lo que más le gustó fue darse cuenta del amplio panorama del mejoramiento de maíz, en tanto que a Ryan Gibson, también de Purdue, le impresionó el mapeo fino, pues le dio la oportunidad de conocer todo el proceso de localización de marcadores, que puede adaptarse a las necesidades de cada investigador. Willy Bayuardi de la Universidad Agraria de Indonesia dijo que el curso fue muy ilustrativo, sobre todo la serie de programas Meta-R, que sintetizan los análisis estadísticos con scripts en una interfaz sencilla.

Mateo Vargas y Gregorio Alvarado de la unidad de Biometría y Estadística del CIMMYT-México impartieron la parte de estadística del curso; el equipo de mejoramiento molecular del CIMMYT-India (Raman Babu, Sudha Nair, Girish Krishna y S. Gajanan), Willy Bayuardi, Jefferson Paril (del Instituto de Fitotecnia de la Universidad de las Filipinas) y personal del ICRISAT, la parte de análisis genómico. El curso fue coordinado por los mejoradores B.S. Vivek y Raman Babu, del CIMMYT-India.