RNA Sekundärstrukturvorhersage mit Hilfe eines Transformator-Encoder

Veröffentlicht: 05. Mai 2026
(2026-01-01 — 2026-03-30)
Implementierte einen benutzerdefinierten Transformer Encoder in PyTorch für die Vorhersage der RNA-Sekundärstruktur aus Nukleotidsequenzen, einschließlich des Punktbrakettaggings mit pseudoknot-bewussten Braketklassen.
Ziel
Ziel dieses Projekts war es, die RNA-Sekundärstruktur direkt aus Nukleotidsequenzen vorherzusagen. genauer gesagt habe ich untersucht, wie ein Transformer Encoder verwendet werden kann, um RNA-Token in Punkt-Braket-Struktur-Annotationen pro Token zu übersetzen.
Technischer Ansatz
Ich habe einen benutzerdefinierten Transformer Encoder in PyTorch implementiert, einschließlich Token-Einbetten, sinusförmige Positionscodierungen, Multi-Head Self-A Attention, Feed-Forward-Schichten, Dropout, Padding-Bewusstmasking und einem Token Classification Head.
Das Modell wurde als Sequenz-Labeling-System ausgebildet: Jeder Nukleotidposition wurde ein strukturelles Label zugewiesen, das entweder ein unverpaartes Symbol oder ein Paarungsbeugeltoken repräsentiert. Die Darstellung umfasste auch zusätzliche Beugeltoklassen für Pseudoknot-Anmerkungen.
Durchführungsdetails
- Python und PyTorch
- Implementierung eines benutzerdefinierten Transformator-Encoder
- Vorhersage der Token-Niveau-Struktur
- Punkte-Braket-Repräsentation mit erweiterten Braketklassen
- Verhütung der Padding-Aussicht
- Kontrollpunkte für neueste und beste Modellstaaten
- Validierung mit token- und strukturbewussten Metriken
Bewertung der Ergebnisse
Das Projekt wurde mit mehreren Metriken über die einfache Tokengenauigkeit hinaus bewertet. Dazu gehörten eine genaue Übereinstimmung auf Sequenzebene, ein Paar F1-Score und strukturelle Gültigkeitsprüfungen, um besser festzustellen, ob vorhergesagte Strukturen biologisch und formal plausibel waren.
Ergebnis
Das Projekt führte zu einer end-to-end-Schulung und Bewertung für die Vorhersage von RNA-Sekundärstrukturen. Neben der Implementierung selbst schrieb ich auch ein entsprechendes Papier, in dem das Modelldesign, die Datenrepräsentation, die experimentelle Einrichtung und die Ergebnisse dokumentiert wurden.