Optimización de la Predicción del RNA Guía CRISPR-Cas9 mediante Modelos Refinados en Amazon SageMaker

La tecnología CRISPR, basada en la edición genética, está revolucionando la comprensión y el tratamiento de enfermedades. Utilizando un mecanismo natural encontrado en bacterias, una proteína acoplada a una cadena de ARN guía (gRNA) localiza y realiza cortes específicos en el genoma objetivo. La predicción computacional de la eficiencia y especificidad del gRNA es crucial para el éxito de la edición genética.

En la reciente investigación, se adoptó un modelo de lenguaje de gran escala (LLM) preentrenado para predicción de eficiencia del gRNA. Estos modelos, conocidos por su capacidad para codificar lenguajes naturales, se están aplicando en biología computacional para resolver diversas tareas. Los LLMs, construidos sobre arquitecturas de transformadores, pueden generar secuencias que se asemejan a datos originales.

Uno de los modelos utilizados es DNABERT, un transformador preentrenado con datos de secuencias de ADN humano, que captura características del genoma permitiendo predecir eficientemente promotores, sitios de empalme y unión. Para esta investigación, se afinó DNABERT para predecir la actividad de diferentes candidatos de gRNA utilizando técnicas de Ajuste fino eficiente en parámetros (PEFT). El método LoRA (Adaptación de Baja Rango) permitió mantener los pesos del modelo preentrenado mientras introducía capas entrenables dentro de cada bloque transformador, reduciendo significativamente el número de parámetros y los requisitos de memoria de GPU.

Datos de gRNA de estudios previos fueron utilizados para entrenar el modelo en una instancia de Amazon SageMaker, empleando la biblioteca PEFT de Hugging Face. La clasificación de eficiencia fue dirigida mediante secuencias de ARN reales en cultivos celulares, buscando equilibrar la capacidad de edición del genoma sin dañar ADN no objetivo. Las métricas de evaluación incluyeron RMSE, MSE y MAE.

En las pruebas, el modelo LoRA con rango 8 mostró un desempeño cercano al modelo CRISPRon existente, un modelo de aprendizaje profundo basado en CNN. Aunque LoRA necesita mayor exploración de hiperparámetros para superar al CRISPRon, sus resultados iniciales son prometedores.

Se recomienda a los usuarios de SageMaker gestionar adecuadamente sus recursos para evitar costos innecesarios de computación no utilizada. Esta avanzada técnica en biología computacional no solo mejora la predicción de la eficiencia del gRNA de CRISPR-Cas9, sino que también abre nuevas posibilidades en aplicaciones de biología en AWS.

Mariana G.
Mariana G.
Mariana G. es una periodista europea y editora de noticias de actualidad en Madrid, España, y el mundo. Con más de 15 años de experiencia en el campo, se especializa en cubrir eventos de relevancia local e internacional, ofreciendo análisis profundos y reportajes detallados. Su trabajo diario incluye la supervisión de la redacción, la selección de temas de interés, y la edición de artículos para asegurar la máxima calidad informativa. Mariana es conocida por su enfoque riguroso y su capacidad para comunicar noticias complejas de manera clara y accesible para una audiencia diversa.

Más popular

Más artículos como este
Relacionados

Crea Lámparas Únicas para tu Jardín con Botes de Aceitunas Reciclados

En un contexto donde la sostenibilidad y el ahorro...

Almeida Promueve la Gastronomía Madrileña en el Corazón de Europa

En un esfuerzo por promover la rica herencia gastronómica...

Tragedia en Corea del Sur: Colapso de puente deja tres fallecidos y cinco heridos

Tres trabajadores de la construcción han fallecido y cinco...