Wu Enhui, Qiao Liang*
Departamento de Química, Universidad de Fudan, Shanghai 200433, China
Los microorganismos están estrechamente relacionados con las enfermedades y la salud humanas. Cómo comprender la composición de las comunidades microbianas y sus funciones es una cuestión importante que debe estudiarse con urgencia. En los últimos años, la metaproteómica se ha convertido en un medio técnico importante para estudiar la composición y función de los microorganismos. Sin embargo, debido a la complejidad y la alta heterogeneidad de las muestras de la comunidad microbiana, el procesamiento de muestras, la adquisición de datos de espectrometría de masas y el análisis de datos se han convertido en los tres principales desafíos que enfrenta actualmente la metaproteómica. En el análisis metaproteómico, a menudo es necesario optimizar el pretratamiento de diferentes tipos de muestras y adoptar diferentes esquemas de separación, enriquecimiento, extracción y lisis microbiana. De manera similar al proteoma de una sola especie, los modos de adquisición de datos de espectrometría de masas en metaproteómica incluyen el modo de adquisición dependiente de datos (DDA) y el modo de adquisición independiente de datos (DIA). El modo de adquisición de datos DIA puede recopilar completamente la información peptídica de la muestra y tiene un gran potencial de desarrollo. Sin embargo, debido a la complejidad de las muestras de metaproteoma, su análisis de datos DIA se ha convertido en un problema importante que dificulta la cobertura profunda de la metaproteómica. En términos de análisis de datos, el paso más importante es la construcción de una base de datos de secuencias de proteínas. El tamaño y la integridad de la base de datos no sólo tienen un gran impacto en el número de identificaciones, sino que también afectan el análisis a nivel de especie y funcional. En la actualidad, el estándar de oro para la construcción de una base de datos de metaproteomas es una base de datos de secuencias de proteínas basada en el metagenoma. Al mismo tiempo, también se ha demostrado que el método de filtrado de bases de datos públicas basado en búsquedas iterativas tiene un gran valor práctico. Desde la perspectiva de estrategias de análisis de datos específicas, los métodos de análisis de datos DIA centrados en péptidos han ocupado una corriente absoluta. Con el desarrollo del aprendizaje profundo y la inteligencia artificial, se promoverá en gran medida la precisión, la cobertura y la velocidad de análisis del análisis de datos macroproteómicos. En términos de análisis bioinformático posterior, en los últimos años se han desarrollado una serie de herramientas de anotación que pueden realizar anotaciones de especies a nivel de proteínas, péptidos y genes para obtener la composición de las comunidades microbianas. En comparación con otros métodos ómicos, el análisis funcional de comunidades microbianas es una característica única de la macroproteómica. La macroproteómica se ha convertido en una parte importante del análisis multiómico de comunidades microbianas y todavía tiene un gran potencial de desarrollo en términos de profundidad de cobertura, sensibilidad de detección e integridad del análisis de datos.
01Pretratamiento de la muestra
En la actualidad, la tecnología metaproteómica se ha utilizado ampliamente en la investigación del microbioma humano, el suelo, los alimentos, los océanos, los lodos activos y otros campos. En comparación con el análisis del proteoma de una sola especie, el pretratamiento de muestras del metaproteoma de muestras complejas enfrenta más desafíos. La composición microbiana en muestras reales es compleja, el rango dinámico de abundancia es grande, la estructura de la pared celular de diferentes tipos de microorganismos es muy diferente y las muestras a menudo contienen una gran cantidad de proteínas del huésped y otras impurezas. Por lo tanto, en el análisis del metaproteoma, a menudo es necesario optimizar diferentes tipos de muestras y adoptar diferentes esquemas de separación, enriquecimiento, extracción y lisis microbiana.
La extracción de metaproteomas microbianos de diferentes muestras tiene ciertas similitudes y algunas diferencias, pero actualmente falta un proceso de preprocesamiento unificado para diferentes tipos de muestras de metaproteomas.
02Adquisición de datos de espectrometría de masas
En el análisis del proteoma de escopeta, la mezcla de péptidos después del pretratamiento se separa primero en la columna cromatográfica y luego ingresa al espectrómetro de masas para la adquisición de datos después de la ionización. De manera similar al análisis de proteoma de una sola especie, los modos de adquisición de datos de espectrometría de masas en el análisis de macroproteoma incluyen el modo DDA y el modo DIA.
Con la iteración y actualización continua de los instrumentos de espectrometría de masas, se aplican al metaproteoma instrumentos de espectrometría de masas con mayor sensibilidad y resolución, y la profundidad de cobertura del análisis del metaproteoma también se mejora continuamente. Durante mucho tiempo, una serie de instrumentos de espectrometría de masas de alta resolución liderados por Orbitrap se han utilizado ampliamente en el metaproteoma.
La Tabla 1 del texto original muestra algunos estudios representativos sobre metaproteómica desde 2011 hasta el presente en términos de tipo de muestra, estrategia de análisis, instrumento de espectrometría de masas, método de adquisición, software de análisis y número de identificaciones.
03Análisis de datos de espectrometría de masas
3.1 Estrategia de análisis de datos del PDD
3.1.1 Búsqueda de bases de datos
3.1.2de novoestrategia de secuenciación
3.2 Estrategia de análisis de datos DIA
04Clasificación de especies y anotación funcional.
La composición de comunidades microbianas en diferentes niveles taxonómicos es una de las áreas de investigación clave en la investigación del microbioma. En los últimos años, se han desarrollado una serie de herramientas de anotación para anotar especies a nivel de proteínas, péptidos y genes para obtener la composición de las comunidades microbianas.
La esencia de la anotación funcional es comparar la secuencia de la proteína objetivo con la base de datos de secuencias de proteínas funcionales. Utilizando bases de datos de funciones genéticas como GO, COG, KEGG, eggNOG, etc., se pueden realizar diferentes análisis de anotaciones funcionales en proteínas identificadas por macroproteomas. Las herramientas de anotación incluyen Blast2GO, DAVID, KOBAS, etc.
05Resumen y perspectivas
Los microorganismos juegan un papel importante en la salud y las enfermedades humanas. En los últimos años, la metaproteómica se ha convertido en un medio técnico importante para estudiar la función de las comunidades microbianas. El proceso analítico de la metaproteómica es similar al de la proteómica de una sola especie, pero debido a la complejidad del objeto de investigación de la metaproteómica, se deben adoptar estrategias de investigación específicas en cada paso del análisis, desde el pretratamiento de la muestra, la adquisición de datos hasta el análisis de datos. En la actualidad, gracias a la mejora de los métodos de pretratamiento, la innovación continua de la tecnología de espectrometría de masas y el rápido desarrollo de la bioinformática, la metaproteómica ha logrado grandes avances en la profundidad de la identificación y el alcance de la aplicación.
En el proceso de pretratamiento de muestras de macroproteoma, primero se debe considerar la naturaleza de la muestra. Cómo separar los microorganismos de las células y proteínas ambientales es uno de los desafíos clave que enfrentan los macroproteomas, y el equilibrio entre la eficiencia de la separación y la pérdida microbiana es un problema urgente que debe resolverse. En segundo lugar, la extracción de proteínas de microorganismos debe tener en cuenta las diferencias provocadas por la heterogeneidad estructural de las diferentes bacterias. Las muestras de macroproteomas en el rango de trazas también requieren métodos de pretratamiento específicos.
En términos de instrumentos de espectrometría de masas, los instrumentos de espectrometría de masas convencionales han experimentado una transición de espectrómetros de masas basados en analizadores de masas Orbitrap como LTQ-Orbitrap y Q Exactive a espectrómetros de masas basados en analizadores de masas de tiempo de vuelo acoplados a movilidad iónica como timsTOF Pro. . La serie de instrumentos timsTOF con información de dimensiones de movilidad iónica tiene una alta precisión de detección, un límite de detección bajo y una buena repetibilidad. Gradualmente se han convertido en instrumentos importantes en una variedad de campos de investigación que requieren detección por espectrometría de masas, como el proteoma, el metaproteoma y el metaboloma de una sola especie. Vale la pena señalar que durante mucho tiempo, el rango dinámico de los instrumentos de espectrometría de masas ha limitado la profundidad de la cobertura de proteínas de la investigación de metaproteomas. En el futuro, los instrumentos de espectrometría de masas con un rango dinámico más amplio podrán mejorar la sensibilidad y precisión de la identificación de proteínas en los metaproteomas.
Para la adquisición de datos de espectrometría de masas, aunque el modo de adquisición de datos DIA se ha adoptado ampliamente en el proteoma de una sola especie, la mayoría de los análisis de macroproteomas actuales todavía utilizan el modo de adquisición de datos DDA. El modo de adquisición de datos DIA puede obtener completamente la información de los iones fragmentados de la muestra y, en comparación con el modo de adquisición de datos DDA, tiene el potencial de obtener completamente la información peptídica de la muestra de macroproteoma. Sin embargo, debido a la alta complejidad de los datos de DIA, el análisis de los datos del macroproteoma de DIA todavía enfrenta grandes dificultades. Se espera que el desarrollo de la inteligencia artificial y el aprendizaje profundo mejore la precisión y la integridad del análisis de datos de DIA.
En el análisis de datos de metaproteómica, uno de los pasos clave es la construcción de una base de datos de secuencias de proteínas. Para áreas de investigación populares como la flora intestinal, se pueden utilizar bases de datos microbianas intestinales como IGC y HMP, y se han logrado buenos resultados de identificación. Para la mayoría de los demás análisis metaproteómicos, la estrategia de construcción de bases de datos más eficaz sigue siendo establecer una base de datos de secuencias de proteínas específicas de la muestra basada en datos de secuenciación metagenómica. Para muestras de comunidades microbianas con alta complejidad y amplio rango dinámico, es necesario aumentar la profundidad de secuenciación para aumentar la identificación de especies de baja abundancia, mejorando así la cobertura de la base de datos de secuencias de proteínas. Cuando faltan datos de secuenciación, se puede utilizar un método de búsqueda iterativa para optimizar la base de datos pública. Sin embargo, la búsqueda iterativa puede afectar el control de calidad de FDR, por lo que los resultados de la búsqueda deben comprobarse cuidadosamente. Además, todavía vale la pena explorar la aplicabilidad de los modelos tradicionales de control de calidad de FDR en el análisis metaproteómico. En términos de estrategia de búsqueda, la estrategia de biblioteca espectral híbrida puede mejorar la profundidad de cobertura de la metaproteómica DIA. En los últimos años, la biblioteca espectral predicha generada en base al aprendizaje profundo ha mostrado un rendimiento superior en proteómica DIA. Sin embargo, las bases de datos de metaproteomas a menudo contienen millones de entradas de proteínas, lo que da como resultado una gran escala de bibliotecas espectrales predichas, consume muchos recursos informáticos y genera un gran espacio de búsqueda. Además, la similitud entre las secuencias de proteínas en los metaproteomas varía mucho, lo que dificulta garantizar la precisión del modelo de predicción de la biblioteca espectral, por lo que las bibliotecas espectrales predichas no se han utilizado ampliamente en metaproteómica. Además, es necesario desarrollar nuevas estrategias de anotación de clasificación e inferencia de proteínas para aplicarlas al análisis metaproteómico de proteínas con secuencias muy similares.
En resumen, como tecnología de investigación de microbiomas emergente, la tecnología metaproteómica ha logrado importantes resultados de investigación y también tiene un enorme potencial de desarrollo.
Hora de publicación: 30 de agosto de 2024