Pasar al contenido principal

Proyectos de investigación

(English)

Codificación para Almacenamiento de Información en ADN (2023)

Participantes: Federico Bello, Santiago Castro, Guillermo Dufort y Álvarez, Fernando Fernández, Álvaro Martín (responsable), Marcos Rapetti, Gadiel Seroussi
Financiación: CSIC

La idea de usar moléculas de ADN como medio de almacenamiento de información ha existido por décadas. Este medio ofrece dos cualidades distintivas muy atractivas: alta densidad de información por unidad de espacio físico y alta durabilidad. En ambos aspectos el almacenamiento en ADN es incomparable con cualquier otra tecnología disponible hoy. En la actualidad, este tema está en pleno desarrollo, tanto en aspectos tecnológicos como en fundamentos teóricos. Uno de los objetos de investigación, tiene que ver con la codificación de la información para hacer un uso óptimo del medio de almacenamiento, teniendo en cuenta que los procesos de almacenamiento y recuperación de información están sujetos a errores. En este proyecto nos proponemos avanzar sobre este tema, estudiando aspectos de capacidad del medio de almacenamiento (capacidad del canal) y también de codificación para corrección de errores en la práctica.

Compresión de datos crudos de secuenciación de ADN por nanoporos (2023)

Participantes: Guillermo Dufort y Álvarez (responsable), Tomás González, Álvaro Martín, Gadiel Seroussi, Rodrigo Torrado
Financiación: ANII

En este proyecto nos proponemos avanzar en el desarrollo de algoritmos de compresión para datos crudos de secuenciación por nanoporos. Esta mejora en niveles de compresión se traduce a menores costos de infraestructura informática para almacenamiento y transmisión de datos, que son cada vez más significativos en el contexto actual de masificación de producción de datos genómicos.

Compresión de datos de secuenciación de genomas generados mediante tecnología de nanoporos (2019 - 2022)

Participantes: Guillermo Dufort y Álvarez, Álvaro Martín (responsable), Idoia Ochoa, Tatiana Rischewski, Gadiel Seroussi, Pablo Smircich, José Sotelo Silveira
Financiación: CSIC

La secuenciación de genomas por nanoporos tiene algunas características distintivas que la hacen muy atractiva. Una de ellas, sin duda, es que las lecturas de fragmentos de secuencia de ADN que se generan son dos órdenes de magnitud más largas que las generadas por los secuenciadores más utilizados. Sin embargo, la tasa de errores de lectura es elevada. Desde el punto de vista de la compresión de datos, tanto las características estadísticas particulares de las señales que se miden para la secuenciación como el uso combinado de tecnologías dan lugar a desafíos interesantes que planificamos abordar en este proyecto.

Cuantización de indicadores de calidad en datos de secuenciación por nanoporos (2020 - 2021)

Participantes: Lucía Balestrazzi, Martín Rivara, Guillermo Dufort y Álvarez, Álvaro Martín (responsable), Idoia Ochoa, Gadiel Seroussi, Pablo Smircich, José Sotelo Silveira
Financiación: ANII

El volumen de datos que se generan mediante plataformas de secuenciación modernas (datos de genómica, metagenómica, transcriptómica, etc.) es extremadamente grande y, gracias a la disminución de costos en los últimos años, crece cada vez a mayor velocidad. Esto hace que los costos de almacenamiento y transmisión de este tipo de información en diversas aplicaciones bioinformáticas sean realmente un problema. Entre los datos que se producen durante un proceso de secuenciación se incluyen los llamados indicadores de calidad, los cuales representan una estimación de la probabilidad de error para cada una de las lecturas de nucleótidos que se registran durante este proceso. Los indicadores de calidad son un insumo fundamental para el análisis de datos de secuenciación y, al mismo tiempo, ocupan la mayor parte de los datos que se generan durante la secuenciación (más que la información de bases en sí misma). A la luz de la preocupación general que existe por el volumen de datos generados a partir de las nuevas metodologías de secuenciación, esto ha despertado recientemente un gran interés por entender cabalmente cuánta de la información que proveen los índices de calidad es realmente necesaria para llevar adelante las investigaciones biológicas que se suceden a partir de estos datos. En este proyecto nos planteamos investigar este problema para una plataforma de secuenciación por nanoporos, una tecnología de última generación que ha sido poco investigada aún en este sentido. Para esto, proponemos utilizar bases de datos de secuenciación, asociados a experimentos biológicos desarrollados previamente, para analizar el efecto que tienen diferentes esquemas de cuantización de indicadores de calidad sobre las conclusiones biológicas que se desprenden a partir de estos datos.

Aplicaciones de la Teoría de la Información al procesamiento de datos de secuenciación de genomas por nanoporos (2017 - 2019)

Participantes: Guillermo Dufort y Álvarez, Álvaro Martín (responsable), Gadiel Seroussi, José Sotelo Silveira
Financiación: CSIC

La secuencición de genomas por nanoporos genera lecturas de fragmentos de secuencia de ADN, reads, muy largos, lo cual en general es ventajoso, pero con una tasa de errores de lectura elevada. Determinados tipos de procesamiento sobre reads con estas características demandan un tratamiento específico, que no siempre ha sido investigado profundamente, y que pensamos que va a tener una importancia central en la medida que el uso de esta tecnología se difunda. En este proyecto nos proponemos investigar algoritmos de compresión para diversos tipos de datos de secuenciación por nanoporos y la aplicación de técnicas de reducción de ruido.

Electroencefalógrafo inalámbrico de bajo consumo de energía (2015 - 2017)

Participantes: Ignacio Capurro, Guillermo Dufort y Álvarez, Federico Favaro, Federico Lecumberry, Álvaro Martín (responsable), Juan Pablo Oliver, Julián Oreggioni, Julio Pérez, Ignacio Ramírez (responsable), Gadiel Seroussi, Leonardo Steinfeld
Financiación: CSIC

En este proyecto nos proponemos investigar el ahorro de energía que puede obtenerse en electroecefalógrafos inalámbricos a través del uso de esquemas de codificación eficientes (compresión). Mediremos el consumo de energía que se obtiene con diferentes alternativas de codificación, evaluando experimentalmente la relación de compromiso que existe entre complejidad algorítmica (que se traduce a un mayor consumo de energía para su ejecución) y eficiencia de compresión (que redunda en menor consumo de energía para la transmisión). Por otro lado, la mayor eficiencia de transmisión de información que se obtiene a través de la compresión abre la posibilidad de llegar a tasas de muestreo mayores que las que se podrían alcanzar sin comprimir las señales.

Interfaz Cerebro-Computadora de baja complejidad (2013 - 2015)

Participantes: Ignacio Capurro, Federico Lecumberry, Álvaro Martín (responsable), Martín Patrone, Eugenio Rovira, Ignacio Ramírez (responsable), Gadiel Seroussi
Financiación: CSIC

En este proyecto investigaremos la aplicación de técnicas de Procesamiento de Señales y de Teoría de la Información al desarrollo de interfaces cerebrocomputadora portátiles, basadas en electroencefalogramas, con bajo consumo de energía en el electroencefalógrafo. En particular estudiaremos algoritmos de baja complejidad que puedan aplicarse a la compresión de electroencefalogramas, con el objetivo de reducir el consumo de energía destinado a la transmisión inalámbriga entre el electroencefalógrafo y un equipo que analiza las señales.

Estimación eficiente de modelos estocásticos (2011 - 2013)

Participantes: Álvaro Martín (responsable), Gadiel Seroussi, Luciana Vitale
Financiación: CSIC

La estimación de modelos estocásticos a partir de secuencias de símbolos de un determinado alfabeto es una pieza clave en una gran cantidad de aplicaciones prácticas, como en diversos algoritmos de compresión de datos, simulación y predicción. En este proyecto nos concentramos en algunas variantes de modelos de Markov que tienen aplicación corriente en diferentes áreas de la Teoría de la Información. Para este tipo de modelos, existen algoritmos de estimación que son eficientes desde un punto de vista teórico, en el sentido de que requieren un tiempo de ejecución y una cantidad de memoria lineales en el largo de la secuencia de entrada. En la práctica, sin embargo, los requerimientos de memoria de estos algoritmos pueden ser prohibitivos para secuencias de entrada grandes. Estudiaremos propiedades teóricas de los modelos en cuestión y sus estimadores, así como nuevos algoritmos de recolección de información estadística de secuencias, que permitan estimar en la práctica el mejor modelo para una secuencia, eficientemente, para secuencias de mayor tamaño que lo que permiten los algoritmos conocidos hasta hoy.

Estudio de Modelos Árbol en Teoría de la Información (2007 - 2008)

Participantes: Álvaro Martín (responsable)
Financiación: PDT

Los modelos árbol, que en la comunidad estadística han recibido el nombre de cadenas de Markov de largo variable,  proveen un mecanismo para "juntar" estados de una cadena de Markov que comparten la misma distribución de probabilidad. En aplicaciones prácticas, estos modelos permiten frecuentemente una reducción importante en la cantidad de parámetros escalares libres (probabilidades condicionales en cada estado) necesarios para modelar un proceso estocástico. En este proyecto estudiamos propiedades teóricas de los modelos árbol y algunas aplicaciones en compresión de datos.

Estudio de modelos para procesos estocásticos de memoria finita (2005 - 2007)

Participantes: Álvaro Martín, Alfredo Viola (responsable)
Financiación: CSIC

El objetivo de este proyecto es lograr un entendimiento profundo de las propiedades de modelos árbol para procesos de memoria finita. Avances en esta línea tienen interés tanto teórico como práctico, con aplicaciones importantes, por ejemplo, en algoritmos de compresión y simulación.