Το νέο εργαλείο AI της Meta μπορεί να προβλέψει σχήματα πρωτεϊνών

Οι πρωτεΐνες είναι ένα σημαντικό μέρος της διατήρησης των ζωντανών οργανισμών. Βοηθούν στην επιδιόρθωση των κυττάρων, στην απομάκρυνση των αποβλήτων και στη μετάδοση αντιστοιχιών από τη μια άκρη του σώματος στην άλλη.

Έχει γίνει πολλή δουλειά μεταξύ των ερευνητών για να αποκρυπτογραφήσουν τις δομές και τις λειτουργίες των πρωτεϊνών, και για το σκοπό αυτό, η ερευνητική ομάδα AI της Meta ανακοίνωσε σήμερα ότι χρησιμοποίησε ένα μοντέλο που μπορεί να προβλέψει την τρισδιάστατη δομή των πρωτεϊνών με βάση τις αλληλουχίες αμινοξέων τους. . Σε αντίθεση με προηγούμενες εργασίες στον χώρο, όπως το DeepMind, το AI του Meta βασίζεται σε ένα μοντέλο εκμάθησης γλώσσας και όχι σε έναν αλγόριθμο αντιστοίχισης σχήματος και αλληλουχίας. Η Meta όχι μόνο θα κυκλοφορήσει το προεκτυπωμένο άρθρο της για αυτήν την έρευνα, αλλά θα ανοίξει τόσο το μοντέλο όσο και τη βάση δεδομένων των πρωτεϊνών στην ερευνητική κοινότητα και τη βιομηχανία.

Πρώτον, για να κατανοήσουμε τη σημασία της κατανόησης των σχημάτων πρωτεϊνών, ακολουθεί ένα σύντομο μάθημα βιολογίας. Ορισμένες τριπλές αλληλουχίες νουκλεοτιδίων από γονίδια μεταφράζονται σε αμινοξέα από ένα μόριο στο κύτταρο που ονομάζεται ριβόσωμα. Οι πρωτεΐνες είναι αλυσίδες αμινοξέων που έχουν τακτοποιηθεί σε μοναδικά σχήματα και διαμορφώσεις. Ένα αναδυόμενο πεδίο της επιστήμης που ονομάζεται μεταγονιδιωματική χρησιμοποιεί την αλληλουχία γονιδίων για να ανακαλύψει, να καταλογοποιήσει και να σχολιάσει νέες πρωτεΐνες στον φυσικό κόσμο.

Το μοντέλο AI του Meta είναι μια νέα προσέγγιση αναδίπλωσης πρωτεΐνης εμπνευσμένη από μεγάλα γλωσσικά μοντέλα που στοχεύει να προβλέψει τις δομές εκατοντάδων εκατομμυρίων πρωτεϊνικών αλληλουχιών σε βάσεις δεδομένων μεταγονιδιώματος. Η κατανόηση των σχημάτων που σχηματίζουν αυτές οι πρωτεΐνες θα δώσει στους επιστήμονες στοιχεία για το πώς λειτουργούν και με ποια μόρια αλληλεπιδρούν.

“Δημιουργήσαμε τον πρώτο μεγάλης κλίμακας χαρακτηρισμό μεταγονιδιωματικών πρωτεϊνών. Κυκλοφορούμε τη βάση δεδομένων ως ανοιχτό επιστημονικό πόρο που έχει περισσότερες από 600 εκατομμύρια προβλέψεις δομής πρωτεϊνών”, λέει ο Alex Rives, ερευνητής στο Meta AI. “Αυτό καλύπτει μερικές από τις λιγότερο γνωστές πρωτεΐνες εκεί έξω».

Ιστορικά, οι υπολογιστικοί βιολόγοι έχουν χρησιμοποιήσει εξελικτικά πρότυπα για να προβλέψουν τις δομές των πρωτεϊνών. Οι πρωτεΐνες, πριν από την αναδίπλωση, είναι γραμμικοί κλώνοι αμινοξέων. Όταν η πρωτεΐνη διπλώνει σε πολύπλοκες δομές, ορισμένες αλληλουχίες που μπορεί να εμφανίζονται μακριά η μία από την άλλη στη γραμμική αλυσίδα μπορεί ξαφνικά να είναι πολύ κοντά μεταξύ τους.

Meta AI

«Μπορείτε να το σκεφτείτε αυτό ως δύο κομμάτια ενός παζλ όπου πρέπει να ταιριάζουν μεταξύ τους. Η εξέλιξη δεν μπορεί να επιλέξει αυτές τις δύο θέσεις ανεξάρτητα, γιατί αν το λάθος μέρος είναι εδώ, η δομή θα καταρρεύσει, λέει ο Rives. “Στη συνέχεια σημαίνει ότι αν κοιτάξετε τα μοτίβα των πρωτεϊνικών αλληλουχιών, περιέχουν πληροφορίες σχετικά με τη διπλωμένη δομή επειδή οι διαφορετικές θέσεις στην αλληλουχία θα ποικίλλουν μεταξύ τους. Θα αντικατοπτρίζει κάτι για τις υποκείμενες βιολογικές ιδιότητες της πρωτεΐνης.”

Εν τω μεταξύ, η καινοτόμος προσέγγιση της DeepMind, η οποία έκανε το ντεμπούτο της για πρώτη φορά το 2018, βασίζεται κυρίως σε μια μέθοδο που ονομάζεται ευθυγράμμιση πολλαπλών ακολουθιών. Εκτελεί βασικά μια αναζήτηση σε τεράστιες εξελικτικές βάσεις δεδομένων αλληλουχιών πρωτεϊνών για να βρει πρωτεΐνες που σχετίζονται με αυτήν για την οποία κάνει μια πρόβλεψη.

“Αυτό που είναι διαφορετικό με την προσέγγισή μας είναι ότι κάνουμε την πρόβλεψη απευθείας από την αλληλουχία αμινοξέων, αντί να την κάνουμε από αυτό το σύνολο πολλαπλών σχετικών πρωτεϊνών και κοιτάζοντας τα μοτίβα”, λέει ο Rives. «Το γλωσσικό μοντέλο έχει μάθει αυτά τα μοτίβα με διαφορετικό τρόπο. Αυτό σημαίνει ότι μπορούμε να απλοποιήσουμε πολύ την αρχιτεκτονική πρόβλεψης δομής επειδή δεν χρειάζεται να επεξεργαστούμε αυτό το σύνολο ακολουθιών και δεν χρειάζεται να αναζητήσουμε σχετικές ακολουθίες.»

Αυτοί οι παράγοντες, ισχυρίζεται η Rives, κάνουν το μοντέλο τους πιο γρήγορο σε σύγκριση με άλλες τεχνολογίες στον τομέα.

Πώς εκπαίδευσαν αυτό το μοντέλο για να μπορεί να κάνει αυτό το έργο; Χρειάστηκαν δύο βήματα. Πρώτον, έπρεπε να εκπαιδεύσουν εκ των προτέρων το γλωσσικό μοντέλο σε έναν μεγάλο αριθμό πρωτεϊνών που έχουν διαφορετικές δομές, που προέρχονται από διαφορετικές οικογένειες πρωτεϊνών και λαμβάνονται σε ολόκληρο το εξελικτικό χρονοδιάγραμμα. Χρησιμοποίησαν μια έκδοση του Μοντέλου Μασκοφόρου Γλώσσας, όπου διέγραψαν τμήματα της αλληλουχίας αμινοξέων και ζήτησαν από τον αλγόριθμο να συμπληρώσει τα κενά. «Η γλωσσική εκπαίδευση είναι εκμάθηση χωρίς επίβλεψη, εκπαιδεύεται μόνο σε ακολουθίες», εξηγεί ο Rives. «Αυτό κάνει αυτό το μοντέλο να μάθει μοτίβα σε αυτές τις εκατομμύρια αλληλουχίες πρωτεϊνών».

Στη συνέχεια πάγωσαν το γλωσσικό μοντέλο και εκπαίδευσαν μια πτυσσόμενη ενότητα πάνω από αυτό. Στο δεύτερο στάδιο της εκπαίδευσης χρησιμοποιούν την καθοδηγούμενη μάθηση. Το σύνολο δεδομένων εποπτευόμενης μάθησης αποτελείται από ένα σύνολο δομών από την Τράπεζα Δεδομένων Πρωτεϊνών που υποβλήθηκαν από ερευνητές από όλο τον κόσμο. Στη συνέχεια επαυξάνεται με προβλέψεις που γίνονται χρησιμοποιώντας το AlphaFold (τεχνολογία του DeepMind). «Αυτή η αναδιπλούμενη μονάδα λαμβάνει την είσοδο του μοντέλου γλώσσας και βασικά εξάγει τις τρισδιάστατες ατομικές συντεταγμένες της πρωτεΐνης [from the amino acid sequences].” λέει ο Rives. “Δημιουργεί αυτές τις αναπαραστάσεις και προβάλλονται στη δομή χρησιμοποιώντας την αναδιπλούμενη κεφαλή.”

Ο Rives φαντάζεται ότι αυτό το μοντέλο θα μπορούσε να χρησιμοποιηθεί σε ερευνητικές εφαρμογές, όπως η κατανόηση της λειτουργίας της ενεργού θέσης μιας πρωτεΐνης σε βιοχημικό επίπεδο, που είναι πληροφορίες που θα μπορούσαν να είναι πολύ σχετικές με την ανάπτυξη και την ανακάλυψη φαρμάκων. Πιστεύει επίσης ότι η τεχνητή νοημοσύνη θα μπορούσε να χρησιμοποιηθεί ακόμη και για το σχεδιασμό νέων πρωτεϊνών στο μέλλον.

Leave a Comment