Οι σπάνιες ασθένειες επηρεάζουν μικρό αριθμό ατόμων σε σύγκριση με τον γενικό πληθυσμό. Ωστόσο, υπάρχουν περισσότερες από 6.000 διαφορετικές σπάνιες ασθένειες και, συνολικά, επηρεάζουν περισσότερους από 300 εκατομμύρια ανθρώπους παγκοσμίως.
Οι σπάνιες ασθένειες μοιράζονται ως μέρος του κύριου προβλήματός τους, την καθυστέρηση στη διάγνωση και τις αραιές πληροφορίες που είναι διαθέσιμες για ερευνητές, κλινικούς γιατρούς και ασθενείς. Η εύρεση ενός διαγνωστικού μπορεί να είναι μια πολύ μακρά και απογοητευτική εμπειρία για τους ασθενείς και τις οικογένειές τους. Η μέση διαγνωστική καθυστέρηση είναι μεταξύ 6-8 ετών. Πολλές από αυτές τις ασθένειες έχουν ως αποτέλεσμα διαφορετικές εκδηλώσεις μεταξύ των ασθενών, γεγονός που δυσχεραίνει ακόμη περισσότερο τον εντοπισμό τους και τη σωστή επιλογή θεραπείας. Ως εκ τούτου, υπάρχει επείγουσα ανάγκη αύξησης της επιστημονικής και ιατρικής γνώσης σχετικά με τις σπάνιες ασθένειες. Η Επεξεργασία Φυσικής Γλώσσας (NLP) μπορεί να βοηθήσει στην εξαγωγή σχετικών πληροφοριών σχετικά με σπάνιες ασθένειες για τη διευκόλυνση της διάγνωσης και της θεραπείας τους, αλλά οι περισσότερες τεχνικές NLP απαιτούν χειροκίνητα σχολιασμένα σώματα. Ως εκ τούτου, στόχος μας είναι να δημιουργήσουμε ένα corpus χρυσού προτύπου σχολιασμένου με τις σπάνιες ασθένειες και τις κλινικές τους εκδηλώσεις. Θα μπορούσε να χρησιμοποιηθεί για την εκπαίδευση και τη δοκιμή προσεγγίσεων NLP και οι πληροφορίες που εξάγονται μέσω του NLP θα μπορούσαν να εμπλουτίσουν τη γνώση των σπάνιων ασθενειών και, ως εκ τούτου, να συμβάλουν στη μείωση της διαγνωστικής καθυστέρησης και στη βελτίωση της θεραπείας σπάνιων ασθενειών. Η εργασία περιγράφει την επιλογή 1.041 κειμένων που θα συμπεριληφθούν στο σώμα, τη διαδικασία σχολιασμού και τις οδηγίες σχολιασμού. Οι οντότητες (ασθένεια, σπάνια ασθένεια, σύμπτωμα, σημάδι και ανάφορος) και οι σχέσεις (παράγει, είναι α, είναι ακρόν, είναι συνώνυμο, αυξάνει τον κίνδυνο, αναφορά) σχολιάστηκαν. Το σώμα RareDis περιέχει περισσότερες από 5.000 σπάνιες ασθένειες και σχολιάζονται σχεδόν 6.000 κλινικές εκδηλώσεις. Επιπλέον, η αξιολόγηση της Συμφωνίας Inter Annotator δείχνει σχετικά υψηλή συμφωνία (F1-μέτρηση ίση με 83,5% με κριτήρια ακριβούς αντιστοίχισης για τις οντότητες και ίση με 81,3% για τις σχέσεις). Με βάση αυτά τα αποτελέσματα, αυτό το σώμα είναι υψηλής ποιότητας, υποθέτοντας ένα σημαντικό βήμα για τον τομέα, καθώς υπάρχει σπανιότητα διαθέσιμου σώματος με σχολιασμούς με σπάνιες ασθένειες. Αυτό θα μπορούσε να ανοίξει την πόρτα για περαιτέρω εφαρμογές NLP, που θα διευκόλυνε τη διάγνωση και τη θεραπεία αυτών των σπάνιων ασθενειών και, ως εκ τούτου, θα βελτίωνε δραματικά την ποιότητα ζωής αυτών των ασθενών.
Πηγή: https://www.sciencedirect.com/science/article/pii/S1532046421002902