Η προσομοίωση μιας μηχανικής μάθησης επέτρεψε στο σύστημα υγείας μάθησης να προβλέπει τον κίνδυνο χρησιμοποιώντας συνθετικά δεδομένα ασθενών

Αυτή η μελέτη προσομοίωσης αποτελούνταν από δύο βήματα: πρώτον, αναπτύχθηκε μια νέα διαδικασία LHS με δυνατότητα ML για τη δημιουργία ενός LHS πρόβλεψης κινδύνου για καρκίνο του πνεύμονα σε προσομοιωμένους ασθενείς. Στο δεύτερο βήμα, χρησιμοποιήθηκε διαφορετική ασθένεια στόχος – εγκεφαλικό επεισόδιο για την επαλήθευση της αποτελεσματικότητας της νέας διαδικασίας LHS για τη δημιουργία πρόβλεψης κινδύνου LHS με ακριβή πρόβλεψη κινδύνου για κάθε ασθένεια στόχο.

Πρωτότυπο σχέδιο LHS με δυνατότητα ML για πρόβλεψη κινδύνου

Μια απλοποιημένη άποψη υψηλού επιπέδου του σχεδιασμού LHS με δυνατότητα ML φαίνεται στο Σχήμα 1. Αυτός ο σχεδιασμός επικεντρώθηκε σε δύο βασικά βήματα ML για προσομοίωση: (1) δημιουργία ενός αρχικού μοντέλου ML από υπάρχοντα δεδομένα EHR και (2) συνεχή ML με την προσθήκη νέων δεδομένων για τη βελτίωση του μοντέλου ML. Αυτός ο σχεδιασμός LHS χρησιμοποιεί βασικά μια προσέγγιση ML που βασίζεται σε δεδομένα για δεδομένα ασθενών με EHR. Επομένως, η διαδικασία LHS επικεντρώνεται κυρίως στην αύξηση της ποιότητας και της ποσότητας των χρησιμοποιήσιμων δεδομένων ML για τη βελτίωση των μοντέλων ML πρόβλεψης κινδύνου.

Φιγούρα 1

Τα γραφήματα υψηλού επιπέδου που βασίζονται σε δεδομένα και η μηχανική μάθηση (ML) επιτρέπουν τον σχεδιασμό του συστήματος υγείας μάθησης (LHS) για την πρόβλεψη κινδύνου. Το μοντέλο ML κατασκευάζεται αρχικά με αρχικά δεδομένα ασθενούς από το EHR. Οι κύκλοι μάθησης του LHS χρησιμοποιούν συνεχώς ενημερωμένα δεδομένα ασθενών για να βελτιώσουν το μοντέλο ML και να κυκλοφορήσουν γρήγορα νέα μοντέλα για χρήση από τους κλινικούς γιατρούς στην πρόβλεψη κινδύνου.

Δημιουργία συνθετικών δεδομένων ασθενών Synthea

Χρησιμοποιώντας τον καρκίνο του πνεύμονα ως τη νόσο στόχο και υποθέτοντας ποσοστό καρκίνου του πνεύμονα 0,5%, αναμένονται 5.000 ασθενείς με καρκίνο του πνεύμονα σε ένα νοσοκομείο με συνολικά 1 εκατομμύριο ασθενείς. Προκειμένου να προσομοιωθεί μια πρόβλεψη κινδύνου καρκίνου του πνεύμονα LHS στην κλίμακα ενός πραγματικού νοσοκομειακού EHR που περιέχει 1 εκατομμύριο ασθενείς, το LHS πρέπει να έχει έναν αριθμό τεχνητών ασθενών που ισοδυναμεί με 5000 ασθενείς με καρκίνο του πνεύμονα. Συνολικά 150.000 συνθετικοί ασθενείς συντέθηκαν με το εργαλείο Synthea, εκ των οποίων οι 5.500 είχαν καρκίνο του πνεύμονα. Περισσότερα από 175 εκατομμύρια σημεία δεδομένων από περισσότερες από 13 εκατομμύρια συναντήσεις ήταν διαθέσιμα για αυτούς τους ασθενείς με Synthea, συμπεριλαμβανομένων 8 εκατομμύρια διαγνώσεις, 111 εκατομμύρια παρατηρήσεις, 24 εκατομμύρια διαδικασίες και 15 εκατομμύρια φάρμακα (βλ. Συμπληρωματικό Πίνακα S1).

Βασικά μοντέλα ML για την πρόβλεψη κινδύνου καρκίνου του πνεύμονα

Όλα τα αρχεία του πρώτου συνόλου δεδομένων (pt30k) με περίπου 30.000 ασθενείς Synthea υποβλήθηκαν σε επεξεργασία σε μια ενιαία μορφή “τυποποιημένων δεδομένων”. Τα τυποποιημένα δεδομένα ταξινομήθηκαν ανά ασθενή και χρόνο για να παρέχουν μια διαχρονική άποψη του ταξιδιού κάθε ασθενούς. Για κάθε ασθενή-στόχο για καρκίνο του πνεύμονα, συλλέχθηκαν δεδομένα στο προφίλ δεδομένων Patient Diagnosis Journey (PDJ) πριν από την τελική διάγνωση του καρκίνου του πνεύμονα. Για κάθε ασθενή υποβάθρου (χωρίς καρκίνο του πνεύμονα), το προφίλ δεδομένων ασθενούς συνέλεξε δεδομένα σε ένα παράθυρο 40 ετών ξεκινώντας από την ηλικία των 30 ετών. Μετά από κατάλληλη συμπίεση δεδομένων και μετασχηματισμό τιμής, δημιουργήθηκε ένας πίνακας δεδομένων έτοιμος για ML, ο οποίος περιείχε 1158 ασθενείς-στόχους και 29787 ασθενείς υπόβαθρου. Το σύνολο δεδομένων ήταν εξαιρετικά μη ισορροπημένο με μόνο 3,7% θετικά δείγματα. Για την εξισορρόπηση των δεδομένων, επιλέχθηκαν κορυφαίοι ασθενείς ιστορικού (με τουλάχιστον 100 τυπικά δεδομένα ή κωδικούς) για να παράσχουν έναν τελικό πίνακα έτοιμο για ML με 1158 ασθενείς-στόχους και 4221 ασθενείς υπόβαθρου, αυξάνοντας το ποσοστό θετικού δείγματος στο 27,4% (Συμπληρωματικός Πίνακας S2) . Περισσότεροι από 500 κωδικοί (δηλαδή μεταβλητές) από τους συνολικά 750 κωδικούς κοινοποιήθηκαν από ασθενείς-στόχους και ασθενείς.

Τα αρχικά μοντέλα πρόβλεψης κινδύνου καρκίνου του πνεύμονα (δηλαδή, ταξινόμηση) κατασκευάστηκαν χρησιμοποιώντας τον ταξινομητή XGBoost με ρυθμίσεις που καθορίζονται από προεπιλογή. Το σύνολο δεδομένων χωρίστηκε σε 3 υποσύνολα για εκπαίδευση, επικύρωση και δοκιμή. Το υποσύνολο δοκιμής χρησιμοποιήθηκε μόνο για τη δοκιμή του μοντέλου και τον υπολογισμό των βασικών μέτρων απόδοσης: ανάκληση, ακρίβεια, AUC (περιοχή κάτω από τη χαρακτηριστική καμπύλη λειτουργίας του δέκτη) και ακρίβεια. Όπως φαίνεται στο Σχήμα 2 και στον Συμπληρωματικό Πίνακα S3, η ανάκληση προβλέψεων αυξήθηκε καθώς αυξανόταν ο αριθμός των υπερμεταβλητών. Με 30 ή περισσότερες μεταβλητές, οι ακριβείς ανακλήσεις δείχνουν μικρή διαφορά μεταξύ κατηγορικών δεδομένων μόνο έναντι ενός συνδυασμού κατηγορικών και συνεχών αριθμητικών δεδομένων (μετά τη μετατροπή σε κατηγορικά δεδομένα).

Σχήμα 2
Σχήμα 2

Προκαταρκτικές δοκιμές της απόδοσης του μοντέλου XGBoost για την πρόβλεψη κινδύνου καρκίνου του πνεύμονα. Προγνωστικές κλήσεις έναντι αριθμού μεταβλητών που χρησιμοποιούνται στα βασικά μοντέλα XGBoost με προεπιλεγμένες ρυθμίσεις. (1) Ταξινόμηση: χρησιμοποιήθηκαν μόνο μεταβλητές ταξινόμησης. (2) Κατηγορική + αριθμητική: Χρησιμοποιήθηκαν κατηγορικές μεταβλητές συμπεριλαμβανομένων συνεχών αριθμητικών μεταβλητών που έχουν μετατραπεί σε κατηγορικές μεταβλητές.

Με ένα σύνολο δεδομένων 30 K ασθενών και 50 μεταβλητών, το βασικό μοντέλο XGBoost συγκρίθηκε αρχικά με τα βασικά μοντέλα πρόβλεψης τριών διαφορετικών αλγορίθμων: τυχαίο δάσος (RF), μηχανές υποστήριξης διανυσμάτων (SVM) και K-πλησιέστεροι γείτονες (KNN). Όπως φαίνεται στο Σχήμα 3 και στον Συμπληρωματικό Πίνακα S4, το XGBoost είχε τις καλύτερες μετρήσεις ανάκλησης καρκίνου του πνεύμονα και AUC σε ασθενείς με Synthea.

Εικόνα 3
Εικόνα 3

Σύγκριση προκαταρκτικής απόδοσης διαφορετικών αλγορίθμων μηχανικής μάθησης (ML) για την πρόβλεψη κινδύνου καρκίνου του πνεύμονα. Τα βασικά μοντέλα όλων των αλγορίθμων χρησιμοποιούν τις προεπιλεγμένες ρυθμίσεις των αντίστοιχων ταξινομητών. Η απόδοση του μοντέλου μετρήθηκε σε ένα σύνολο δεδομένων 30.000 ασθενών και 50 μεταβλητών με ανάκληση, ακρίβεια και AUC.

Συνεχής βελτίωση των μοντέλων καρκίνου του πνεύμονα ML στο LHS

Στη σχεδίαση LHS με δυνατότητα ML, νέα δεδομένα συλλέγονται περιοδικά και προστίθενται στο τελευταίο σύνολο δεδομένων για να σχηματιστεί ένα νέο ενημερωμένο σύνολο δεδομένων για το ML. Αυτή η διαδικασία συνεχούς μάθησης και βελτίωσης προσομοιώθηκε προσθέτοντας το σύνολο δεδομένων 30.000 ασθενών Synthea στο προηγουμένως ενημερωμένο σύνολο δεδομένων σε 4 ξεχωριστές περιπτώσεις (Συμπληρωματικός Πίνακας S5). Ένα νέο μοντέλο XGBoost δημιουργήθηκε για κάθε ενημερωμένο σύνολο δεδομένων. Όπως φαίνεται στον Πίνακα 1 και στο Σχήμα 4, καθώς το μέγεθος δεδομένων αυξήθηκε από 30.000 ασθενείς σε 150.000 ασθενείς, η προγνωστική απόδοση της ανάκλησης καρκίνου του πνεύμονα αυξήθηκε από 0,849 σε 0,936, ακρίβεια από 0,944 σε 0,962, AUC από 0,93, και ακρίβεια από 0,938 έως 0,975.

Πίνακας 1. Συνεχής ενημέρωση του συνόλου δεδομένων ασθενών και βελτίωση βασικών μοντέλων XGBoost πρόβλεψης κινδύνου καρκίνου του πνεύμονα σε σύστημα υγείας προσομοίωσης μάθησης.
Εικόνα 4
Εικόνα 4

Η συνεχής βελτίωση των μοντέλων πρόβλεψης κινδύνου καρκίνου του πνεύμονα αυξάνεται με το μέγεθος των δεδομένων με την πάροδο του χρόνου. Αρχικό σύνολο δεδομένων: 30 K ασθενείς. 4 ενημερώσεις δεδομένων, η καθεμία με 30 K ασθενείς. Η ανάκληση χρησιμοποιήθηκε ως βασικό μέτρο απόδοσης για την πρόβλεψη του κινδύνου στον προληπτικό έλεγχο. Το βασικό μοντέλο XGBoost συγκρίθηκε με τα βασικά μοντέλα RF, SVM και KNN σε κάθε περίπτωση ενημέρωσης δεδομένων.

Στην τρέχουσα βιβλιογραφία, δεν μπορέσαμε να βρούμε παρόμοια μελέτη με τη μελέτη προσομοίωσης LHS συνθετικών δεδομένων με δυνατότητα ML. Επιπλέον, δεν υπάρχουν δημοσιευμένες προβλέψεις κινδύνου για καρκίνο του πνεύμονα από μοντέλα ML συνθετικών δεδομένων για σύγκριση. Σύμφωνα με πραγματικές μελέτες δεδομένων EMR, η AUC 0,91–0,96 για την πρόβλεψη κινδύνου καρκίνου του πνεύμονα σε αυτή τη συνθετική μελέτη LHS είναι υψηλότερη από την AUC των 0,88 για πρόβλεψη κινδύνου 1 έτους που λήφθηκε στη μελέτη XGBoost από τους Wang et al.21 και AUC 0,90 για πρόβλεψη κινδύνου 1 έτους που ελήφθη στη μελέτη βαθιάς μάθησης από τους Yeh et al.30.

Σύγκριση διαφορετικών αλγορίθμων ML στην πρόβλεψη κινδύνου

Συγκρίνοντας τις μετρήσεις απόδοσης διαφορετικών μοντέλων πρόβλεψης κινδύνου καρκίνου του πνεύμονα που δημιουργήθηκαν από το σύνολο δεδομένων 150 K ασθενών (Πίνακας 1 και Εικόνα 4), το XGBoost είχε την υψηλότερη απόδοση (ανάκληση = 0,936), ακολουθούμενο από το SVM (ανάκληση = 0,92). , RF ( ανάκληση = 0,887) και KNN (ανάκληση = 0,746). Δεδομένου ότι ο σκοπός της πρόβλεψης κινδύνου στο συνθετικό LHS ήταν ο προσυμπτωματικός έλεγχος του καρκίνου του πνεύμονα, η υψηλή ανάκληση του καρκίνου του πνεύμονα θεωρήθηκε ο πρωταρχικός στόχος των μοντέλων ML. Ως εκ τούτου, ο αλγόριθμος XGBoost επιλέχθηκε για την κατασκευή μοντέλων πρόβλεψης κινδύνου καρκίνου του πνεύμονα σε LHS που ενεργοποιείται με ML.

Βελτιστοποίηση του μοντέλου προσαρμόζοντας την υπερπαράμετρο

Χρησιμοποιώντας μια δεκαπλάσια μέθοδο διασταυρούμενης επικύρωσης, βρέθηκαν οι βέλτιστες μετα-παράμετροι για το μοντέλο βελτιστοποίησης XGBoost. Για το σύνολο δεδομένων των 30 K ασθενών, η βελτιστοποίηση αύξησε την προγνωστική ανάκληση από 0,849 σε 0,903. Ωστόσο, η καμπύλη αξιοπιστίας του βελτιστοποιημένου μοντέλου απέκλινε σημαντικά από την τέλεια γραμμή, υποδεικνύοντας την υπερπροσαρμογή που προκλήθηκε από τη βελτιστοποίηση (βλ. Συμπληρωματικό Σχήμα S2). Ομοίως, αν και το βελτιστοποιημένο μοντέλο XGBoost του συνόλου δεδομένων pt150k αύξησε την προγνωστική ανάκληση από 0,936 σε 0,956, έδειξε σημαντική υπερπροσαρμογή (Εικόνα 5β). Ως αποτέλεσμα, ο συντονισμός υπερπαραμέτρων στο μοντέλο XGBoost δεν πραγματοποιήθηκε στους κύκλους εκμάθησης LHS επειδή η αξιοπιστία του μοντέλου ήταν πολύ σημαντική.

Εικόνα 5
Εικόνα 5

Καμπύλες αξιοπιστίας των μοντέλων XGBoost για την πρόβλεψη κινδύνου καρκίνου του πνεύμονα χρησιμοποιώντας το σύνολο δεδομένων K 150 ασθενών (pt150k). (ΕΝΑ) βασικό μοντέλο με προεπιλεγμένες ρυθμίσεις: ανάκληση = 0,936. (σι) βελτιστοποιημένο μοντέλο με βέλτιστες μεταπαραμέτρους: ανάκληση = 0,956.

Αντίθετα, αυτή η προσομοίωση LHS βασίστηκε στη συνεχή προσθήκη δεδομένων με την πάροδο του χρόνου για τη βελτίωση της απόδοσης των υποκείμενων μοντέλων. Όπως φαίνεται στον Πίνακα 1, όταν το σύνολο δεδομένων ενημερώθηκε σε 150.000 ασθενείς, η προγνωστική ανάκληση από το βασικό μοντέλο XGBoost είχε ήδη φτάσει στο 0,936 ενώ η καμπύλη αξιοπιστίας του μοντέλου ήταν σχεδόν χωρίς σημάδια υπερπροσαρμογής (Εικόνα 5α). Αναμένουμε ότι το LHS θα επιτύχει τελικά την επιθυμητή υψηλή απόδοση (π.χ. >95% ανάκληση) για το βασικό μοντέλο XGBoost καθώς τα χρησιμοποιήσιμα δεδομένα ML αυξάνονται στους επόμενους γύρους ενημέρωσης δεδομένων. Ένα άλλο πλεονέκτημα αυτής της απλούστερης διαδικασίας ML βάσει δεδομένων είναι η αυξημένη ευκολία εφαρμογής για οποιοδήποτε νοσοκομείο που χρησιμοποιεί αυτό το LHS πρόβλεψης κινδύνου που βασίζεται στο XGBoost με πραγματικά δεδομένα.

Επικύρωση της διαδικασίας LHS που στοχεύει στη νόσο του εγκεφαλικού

Για να επαληθευτεί η αποτελεσματικότητα του νέου LHS βάσει δεδομένων που αναπτύχθηκε σε αυτήν τη μελέτη, η ίδια διαδικασία LHS θα πρέπει να μπορεί να δημιουργήσει μοντέλα πρόβλεψης κινδύνου για οποιαδήποτε ασθένεια στόχο, όπως το εγκεφαλικό επεισόδιο, με παρόμοια απόδοση: υψηλή ανάκληση και ακρίβεια μετά τον ίδιο χρόνο. Ο αριθμός των επαναλήψεων για την ενημέρωση των δεδομένων

Το εγκεφαλικό επεισόδιο εμφανίστηκε πιο συχνά σε ασθενείς με Synthea από τον καρκίνο του πνεύμονα. Υπήρχαν περίπου 4.000 ασθενείς με εγκεφαλικό σε καθένα από τα 30 K σύνολα δεδομένων ασθενών. Αρχικά δεδομένα προφίλ PDJ εγκεφαλικού επεισοδίου ελήφθησαν αρχικά από το ίδιο πρώτο σύνολο 30.000 προσομοιωμένων ασθενών (Πίνακας S7), από το οποίο κατασκευάστηκε το αρχικό βασικό μοντέλο XGBoost για την πρόβλεψη κινδύνου εγκεφαλικού. Η απόδοση του βασικού μοντέλου XGBoost αυξάνεται όσο αυξάνεται ο αριθμός των μεταβλητών του (Εικόνα S3). Τα τέσσερα προσομοιωμένα σύνολα δεδομένων και τα αντίστοιχα μοντέλα XGBoost για εγκεφαλικό δημιουργήθηκαν χρησιμοποιώντας τα ίδια 4 προσομοιωμένα σύνολα δεδομένων στα πειράματα για τον καρκίνο του πνεύμονα (Πίνακας S7). Όπως φαίνεται στον Πίνακα 2 και στο Σχήμα 6, οι μετρήσεις απόδοσης βελτιώνονται με κάθε ενημέρωση δεδομένων. Στον τέταρτο κύκλο μάθησης και βελτίωσης, το ενημερωμένο σύνολο δεδομένων pt150k είχε περίπου 20.000 ασθενείς με εγκεφαλικό και οι βασικές μετρήσεις του βασικού μοντέλου XGBoost βελτιώθηκαν σε 0,908 ανάκληση, 0,964 ακρίβεια, 0,948 AUC και 0,969 ακρίβεια.

Πίνακας 2 Συνεχής ενημέρωση των συνόλων δεδομένων ασθενών και βελτίωση βασικών μοντέλων XGBoost για πρόβλεψη κινδύνου εγκεφαλικού σε ένα προσομοιωμένο σύστημα υγείας μάθησης.
Εικόνα 6
Εικόνα 6

Συνεχής βελτίωση των βασικών μοντέλων XGBoost για την πρόβλεψη του κινδύνου εγκεφαλικού με αυξανόμενο μέγεθος δεδομένων με την πάροδο του χρόνου. Η απόδοση του μοντέλου μετρήθηκε με ανάκληση, ακρίβεια και AUC. Μια κλήση μοντέλου βάσης με 10 μεταβλητές εμφανίζεται ως αναφορά.

Παρόμοια με τον καρκίνο του πνεύμονα, δεν υπάρχουν δημοσιευμένα αποτελέσματα ενός μοντέλου πρόβλεψης κινδύνου εγκεφαλικού με χρήση δεδομένων Synthea, επομένως συγκρίναμε το μοντέλο δεδομένων συνθετικού εγκεφαλικού επεισοδίου αυτής της μελέτης με δημοσιευμένα μοντέλα πραγματικών δεδομένων. Το μοντέλο ML των βαθιών νευρωνικών δικτύων σε μια μελέτη εκτίμησης κινδύνου ισχαιμικού εγκεφαλικού από τους Hong et al. έλαβε AUC 0,9232. Τα μοντέλα Geisinger Health που χρησιμοποιούν XGBoost και άλλους δημοφιλείς αλγόριθμους πέτυχαν AUC 0,79 στην πρόβλεψη του κινδύνου υποτροπής εγκεφαλικού επεισοδίου για 1 έως 5 χρόνια.31.

Σε σύγκριση με τους αλγόριθμους RF, SVM και KNN στον Πίνακα 2, το τελευταίο βασικό μοντέλο XGBoost (pt150k) είχε καλύτερη απόδοση μέσω της ανάκλησης αποθεμάτων. Οι καμπύλες ROC και η αξιοπιστία του βασικού μοντέλου XGBoost ήταν σε καλή κατάσταση (Εικόνα S5).

Τα αποτελέσματα του μοντέλου εγκεφαλικού επεισοδίου παραπάνω επιβεβαίωσαν ότι η παρόμοια αναπτυγμένη διαδικασία LHS ήταν αποτελεσματική στη δημιουργία μοντέλων υψηλής απόδοσης για την πρόβλεψη κινδύνου εγκεφαλικού. Αναμένουμε ότι αυτή η διαδικασία LHS θα είναι εφαρμόσιμη και σε άλλες ασθένειες.

Leave a Comment