ΕΛ/ΛΑΚ | creativecommons.gr | mycontent.ellak.gr |
freedom

Ανοιχτά συνδεδεμένα δεδομένα: από την Μαύρη Πανώλη στον Covid-19

Η ομάδα του μαθήματος “Καινοτόμα Συστήματα η-Επιχειρείν”* του Π.Μ.Σ Εφαρμοσμένης Πληροφορικής του Τμήματος Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας, ασχολήθηκε με την εύρεση δεδομένων σχετικά με τις πανδημίες που έπληξαν τον πλανήτη και ιδιαίτερα με την πανδημία του Covid-19.

Η έρευνα έγινε χρησιμοποιώντας αποκλειστικά τα συνδεδεμένα ανοιχτά δεδομένα (linked open data). Σύμφωνα με το Ίδρυμα Ανοικτής Γνώσης της Ελλάδας, τα ανοιχτά δεδομένα είναι κομμάτια δεδομένων τα οποία δεν έχουν περιορισμό σχετικά με την χρήση τους από τρίτους, την επαναχρησιμοποίηση και τη διανομή τους. Η νομική και τεχνολογική ευκολία  χρήσης της πληροφορίας τα καθιστά προσβάσιμη πηγή γνώσης για όλους.

Ως πλατφόρμα επιλέξαμε την Wikidata, μία γνωσιακή βάση δομημένων δεδομένων, στην οποία τα δεδομένα αποθηκεύονται σύμφωνα με το μοντέλο οργάνωσης του πλαισίου περιγραφής πόρων – Resource Description Framework (RDF). Το μοντέλο RDF αναπαριστά τα δεδομένα σε μορφή τριάδων που ακολουθούν το μοτίβο υποκείμενο-κατηγόρημα-αντικείμενο. Η πληροφορία ανακτάται μέσα από τη σημασιολογική γλώσσα ερωτημάτων SPARQL, η οποία είναι σχεδιασμένη έτσι ώστε να ανακτά και να επεξεργάζεται δεδομένα που αποθηκεύονται σύμφωνα με το μοντέλο RDF.

Αρχικά, δημιουργήσαμε τον παρακάτω γράφο, ο οποίος απεικονίζει το δίκτυο των οντοτήτων που μελετήσαμε στα πλαίσια της έρευνας μας αλλά και τις μεταξύ τους σχέσεις.

Με την βοήθεια ερωτημάτων SPARQL αποκτήσαμε τα παραπάνω δεδομένα και μπορέσαμε να κάνουμε διάφορες συγκρίσεις και οπτικοποιήσεις. Οι οπτικοποιήσεις προήλθαν από την επεξεργασία των δεδομένων στο πρόγραμμα Tableau.

Υπό αυτό το πρίσμα, συλλέξαμε δεδομένα σχετικά με τις πανδημίες που έπληξαν τον κόσμο μετά από το 1000 μ.Χ.. Σύμφωνα με το Dictionary of Epidemiology, ο ορισμός της πανδημίας είναι: «μια επιδημία που εμφανίζεται παγκοσμίως, ή σε πολύ ευρεία περιοχή, διασχίζοντας τα διεθνή σύνορα και επηρεάζει συνήθως μεγάλο αριθμό ανθρώπων».

Ανακτώντας την ημερομηνία έναρξης και λήξης αυτών, μπορέσαμε να υπολογίσουμε την διάρκεια τους, καθώς και τον συνολικό αριθμό θανάτων για την καθεμία. Όπως παρατηρούμε και στο παρακάτω Pie chart, η Μαύρη Πανώλη (Black Death) και η Ληθαργική Εγκεφαλίτιδα (von Economo’s disease) ήταν οι μεγαλύτερες σε χρονική διάρκεια πανδημίες με 11 χρόνια η καθεμία και με 75.000.000 και 1.600.000 θύματα αντίστοιχα.

Διάγραμμα 1. Αναγραφή πανδημιών ,διάρκειας και θυμάτων τους.

Στο παραπάνω διάγραμμα, παρατηρείται ότι δεν εμφανίζεται η πανδημία του Covid-19, καθώς είναι ακόμα σε εξέλιξη. Στη συνέχεια, μελετήθηκε ο Covid-19 και συγκεκριμένα η αναλογία θανάτων ανά εκατομμύριο πληθυσμού από την 1η Μαρτίου μέχρι την 7η Μάιου.

Animation 1. Αναλογία θανάτων ανά εκατομμύριο πληθυσμού.
Πατήστε πάνω στο animation για να ξεκινήσει η αναπαραγωγή του.

Τις πρώτες μέρες του Μαρτίου η Κίνα έχει την μεγαλύτερη αναλογία θανάτων ανά εκατομμύριο πληθυσμού. Έπειτα παρατηρείται η αύξηση των θανάτων σε Ιταλία και Ισπανία για το υπόλοιπο του μήνα. Η Ελλάδα καθ’ όλη τη διάρκεια της πανδημίας κυμαίνεται σε αρκετά χαμηλό ποσοστό.

Στο επόμενο animation παρουσιάζεται η καμπύλη εξάπλωσης του Covid-19 στην χώρα μας, καθώς και ο αριθμός των θυμάτων, ξεκινώντας από την 26η Φεβρουαρίου μέχρι την 7η Μαΐου.

Animation 2. Καμπύλες θανάτων και κρουσμάτων στην Ελλάδα.
Πατήστε πάνω στο animation για να ξεκινήσει η αναπαραγωγή του.

Στις 23 Μαρτίου 2020 τέθηκαν σε εφαρμογή τα μέτρα απαγόρευσης κυκλοφορίας και για τις δύο επόμενες εβδομάδες παρατηρείται μια αύξηση των κρουσμάτων. Στη συνέχεια βλέπουμε μια σταθεροποίηση της καμπύλης, με εξαίρεση την 21η Απριλίου, όπου παρουσιάστηκαν 156 κρούσματα στη δομή φιλοξενίας προσφύγων στο Κρανίδι.

Η Ιταλία και η Ισπανία, σημεία αναφοράς εξάπλωσης του ιού στην Ευρώπη, προέβησαν σε μέτρα απαγόρευσης της κυκλοφορίας την 9η και 15η Μαρτίου. Το παρακάτω διάγραμμα παρουσιάζει την πορεία των κρουσμάτων για την Ισπανία και Ιταλία.

Διάγραμμα 2. Καμπύλες κρουσμάτων σε Ιταλία και Ισπανία.

Παρατηρείται ότι, η Ισπανία έθεσε σε εφαρμογή τα μέτρα απαγόρευσης κυκλοφορίας μια εβδομάδα αργότερα από την Ιταλία και αν και αρχικά τα κρούσματα της ήταν λιγότερα, ο αριθμός κρουσμάτων της ξεπερνάει τον αντίστοιχο αριθμό της Ιταλίας στις αρχές Απριλίου.

Εκτός από την μελέτη των κρουσμάτων και θανάτων του Covid-19 ασχοληθήκαμε και με τα τεστ ανίχνευσης που γίνονται για την ιχνηλάτηση του. Στο παρακάτω διάγραμμα παρατηρούμε τον αριθμό τους σε αναλογία εκατομμυρίου πληθυσμού για όλες τις χώρες της Ευρώπης μέχρι και την 7η Μάιου 2020. Η Ελλάδα βρίσκεται στις χώρες της Ευρώπης με τα λιγότερα τεστ ανά εκατομμύριο πληθυσμού μαζί με χώρες όπως η Κροατία, Βουλγαρία και Ουγγαρία.  

Εικόνα 1. Τεστ ανίχνευσης ανά εκατομμύριο πληθυσμού.

Στον παρακάτω Ευρωπαϊκό χάρτη παρουσιάζεται, με κλίμακα διαβάθμισης από το 0 έως το 1, ο λόγος μεταξύ των τεστ ανά κρούσμα. Η χρωματική διαβάθμιση μας δείχνει ότι οι χώρες που πλησιάζουν περισσότερο στον μπλε χρωματισμό, όπως η Λιθουανία, η Λετονία και η Κύπρος, έχουν πραγματοποιήσει  μεγαλύτερο αριθμό τεστ ανίχνευσης κατά αναλογία με τα κρούσματα τους σε σχέση με αυτές που βρίσκονται σε κόκκινη απόχρωση.

Εικόνα 2. Αναλογία τεστ ανίχνευσης και κρουσμάτων ανά χώρα.

Σημειώνεται ότι χώρες όπως η Λιθουανία και η Κύπρος με μικρό αριθμό κρουσμάτων έχουν πραγματοποιήσει έναν αυξημένο αριθμό κλινικών τεστ.

Country Clinical
Tests
Cases Clinical test/ Cases(normalized)
Lithuania 172191 1433 1,00
Cyprus 70811 889 0,65
Azerbaijan 164481 2127 0,63
Slovakia 109767 1429 0,62
Latvia 68627 900 0,62
Slovenia 58842 1448 0,31
Czech
Republic
286821 7974 0,27
Estonia 60530 1713 0,26
Greece 90043 2678 0,25

Πίνακας 1. Αναλογία Κλινικών τεστ και κρουσμάτων ανά χώρα. (μέχρι 7η Μάιου)

Στη συνέχεια, μελετήθηκε ο αριθμός νοσοκομείων ανά εκατομμύριο πληθυσμού. Παρακάτω παρουσιάζονται όλες οι χώρες της Ευρώπης με βάση τρεις μεταβλητές: τον πληθυσμό, τον δείκτη θνητότητας και τον αριθμό των νοσοκομείων ανά ένα εκατομμύριο πληθυσμού.

Διάγραμμα 3. Clustering CFR-Hospitals Per Million-Population.

Με βάση τον Κ-Means Αλγόριθμο, δίνοντας σε αυτόν τις τρείς προαναφερθείσες μεταβλητές (πληθυσμό, CFR και νοσοκομεία ανά εκατομμύριο πληθυσμού) και θέτοντας 4 clusters, οι ευρωπαϊκές χώρες κατατάσσονται σε 4 επιμέρους ομάδες. Συγκρίνοντας χώρες που βρίσκονται στην ίδια ομάδα, όπως παραδείγματος χάρη την Ελλάδα με την Πορτογαλία, την Αλβανία με τη Σερβία, την Ισπανία με την Ιταλία και τέλος τη Γαλλία με το Ηνωμένο Βασίλειο, μπορούν να προκύψουν ορθότερα συμπεράσματα.

* Η παραπάνω έρευνα αποτελεί εργασία του μαθήματος “Καινοτόμα Συστήματα η-Επιχειρείν” με υπεύθυνο καθηγητή τον κ.Ταμπούρη. Υλοποιήθηκε από τους μεταπτυχιακούς φοιτητές Γαϊτανίδης Άγγελος, Εκμεκτσόγλου Ευάγγελος, Μαργαριτόπουλος Στέργιος και Νούσιας Νικόλαος του Π.Μ.Σ Εφαρμοσμένης Πληροφορικής του Τμήματος Εφαρμοσμένης Πληροφορικής του Πανεπιστημίου Μακεδονίας.

Παράρτημα

1ο ερώτημα SPARQL :

Το ερώτημά αυτό εμφανίζει το σύνολο των νοσοκομείων της  κάθε χώρας . Επίσης, υπολογίζει τον αριθμό των νοσοκομείων που αντιστοιχούν για κάθε ένα εκατομμύρια πληθυσμού της εκάστοτέ χώρας .

Στη συνέχεια παρατίθεται ο κώδικάς του ερωτήματος, όπως συντάχθηκε  στο SPARQL Endpoint της Wikidata:

2ο ερώτημα SPARQL : 

Το ερώτημά αυτό παρουσιάζει το ποσοστό θνησιμότητας – Case Fatality Rate ( CFR ) από τον Covid-19 για κάθε χώρα της Ευρώπης.

Στη συνέχεια παρατίθεται ο κώδικάς του ερωτήματος, όπως συντάχθηκε  στο SPARQL Endpoint της Wikidata:

3ο ερώτημα SPARQL : 

Στο παρακάτω ερώτημα παρουσιάζονται ολές οι πανδημίες μετά το 1000 μ.Χ με την ημερομηνία έναρξης και λήξης αυτών, καθώς και τον συνολικό αριθμό θανάτων για την καθεμία.

Στη συνέχεια παρατίθεται ο κώδικάς του ερωτήματος, όπως συντάχθηκε  στο SPARQL Endpoint της Wikidata:

Leave a Comment