Το 2024 αποτελεί μια καθοριστική χρονιά για τα ανοικτά συστήματα τεχνητής νοημοσύνης (AI), σηματοδοτώντας μία μετάβαση από τον σκεπτικισμό και την ανησυχία προς την αποδοχή και την ανάπτυξη. Οι πρόσφατες κυκλοφορίες μοντέλων με ανοικτά βάρη, όπως εκείνα της DeepSeek, καταδεικνύουν με σαφήνεια ότι οι ανοικτές λύσεις όχι μόνο μπορούν να ανταγωνιστούν τα κλειστά foundation models, αλλά και να προάγουν την καινοτομία μέσω κοινοτικών οικοσυστημάτων ανάπτυξης.
Ωστόσο, εν μέσω αυτής της θετικής πορείας, μία ουσιαστική πρόκληση παραμένει ανεπίλυτη: η στασιμότητα στο πεδίο των ανοικτών δεδομένων εκπαίδευσης. Ενώ τα μοντέλα βελτιώνονται και πολλαπλασιάζονται, τα δεδομένα στα οποία βασίζονται δεν εξελίσσονται με τον ίδιο ρυθμό. Αυτό το φαινόμενο, που απειλεί να εξελιχθεί σε “χειμώνα δεδομένων”, θέτει σε κίνδυνο το μέλλον της ανοικτής τεχνητής νοημοσύνης.
Η Έκρηξη των Ανοικτών Μοντέλων και το Πρόβλημα των Δεδομένων
Η συνεχής ροή νέων εκδόσεων, παραλλαγών και παραγώγων ανοικτών μοντέλων έχει πλέον κανονικοποιηθεί. Το οικοσύστημα της ανοικτής τεχνητής νοημοσύνης βιώνει μια έκρηξη δημιουργικότητας. Παράλληλα, όμως, η ανάπτυξη ανοικτών συνόλων δεδομένων δεν ακολουθεί τον ίδιο ενθουσιασμό. Παρά τη γενική συμφωνία ότι τα δεδομένα αποτελούν τον “πυρήνα” κάθε ισχυρού συστήματος AI, η πρόοδος στην πρόσβαση και τη διαθεσιμότητά τους παραμένει περιορισμένη.
Πρόσφατες Πρωτοβουλίες στον Χώρο των Δεδομένων
Ορισμένες σημαντικές εξελίξεις εντός του 2024 προσέφεραν ελπίδα για την κατεύθυνση προς πλήρως ανοικτά μοντέλα AI. To HuggingFace παρουσίασε το FineWeb, ένα καθαρισμένο και βελτιστοποιημένο σύνολο δεδομένων από τις συλλογές Common Crawl, περιλαμβάνοντας 15 τρισεκατομμύρια tokens. Αντίστοιχα, το Dolma της AI2 συνδυάζει δεδομένα από Common Crawl με ανοικτές πηγές.
Άλλες αξιόλογες προσπάθειες περιλαμβάνουν το Common Corpus της γαλλικής Pleias, που βασίζεται αποκλειστικά σε δεδομένα με ανοιχτή άδεια, και το PD12M της Spawning, που περιέχει 12 εκατομμύρια ζεύγη εικόνων-κειμένων δημόσιου τομέα.
Αν και οι εξελίξεις αυτές ενισχύουν τη δημιουργία ανοικτών μοντέλων, βασίζονται σε αποσπασματική αξιοποίηση υπαρχόντων πόρων, χωρίς να αντιμετωπίζουν τις συστημικές προκλήσεις που απαιτούν νέες μορφές συλλογικής διαχείρισης δεδομένων.
Το Κρυφό Κόστος των Ιδιόκτητων Δεδομένων
Οι ιδιωτικοί ερευνητικοί οργανισμοί διαθέτουν ένα σημαντικό πλεονέκτημα: πρόσβαση σε εκτενή σύνολα δεδομένων τα οποία δεν αποκαλύπτουν και, συχνά, δεν διαθέτουν νομική κάλυψη για επαναχρησιμοποίηση. Όπως επισημαίνει ο Stefano Maffulli του Open Source Initiative, πρόκειται για μια πρακτική “εξόρυξης” των δεδομένων που παράγουν οι χρήστες, τα οποία ενσωματώνονται σε κλειστά μοντέλα, τα οποία στη συνέχεια διατίθενται με κόστος.
Ο Κίνδυνος του “Χειμώνα Δεδομένων”
Ο Stefan Verhulst προειδοποιεί για την πιθανότητα να εισέλθουμε σε μία παρατεταμένη περίοδο “χειμώνα δεδομένων”. Οι ενδείξεις περιλαμβάνουν:
- Περιορισμούς πρόσβασης από ιστοσελίδες στους web crawlers.
- Αφαίρεση πρόσβασης στα δεδομένα από μέσα κοινωνικής δικτύωσης.
- Ενίσχυση της νομικής προστασίας γύρω από προσωπικά και πνευματικά δεδομένα.
Ο “χειμώνας δεδομένων” θα πλήξει κυρίως τις ανοικτές πρωτοβουλίες, οι οποίες εξαρτώνται από προσβάσιμα, νόμιμα και τεκμηριωμένα δεδομένα για να παραμείνουν ανταγωνιστικές και επιστημονικά έγκυρες.
Από την Εκμετάλλευση στη Συνεργασία: Τα Κοινά Δεδομένα (Data Commons)
Για να αποφύγουμε την περαιτέρω επιδείνωση της κατάστασης, είναι απαραίτητη μια συλλογική προσέγγιση. Η πρωτοβουλία του Open Source Initiative και του οργανισμού Open Future κατέληξε στην έκθεση “Data Governance in Open Source AI”, η οποία προτείνει ένα νέο μοντέλο διακυβέρνησης που ισορροπεί μεταξύ ανοιχτότητας και υπευθυνότητας.
Ένα από τα πιο καινοτόμα παραδείγματα εφαρμογής αυτής της προσέγγισης είναι το data trust του Serpentine Labs, που διαχειρίζεται το Choral AI dataset, ένα σύνολο δεδομένων με ηχογραφήσεις χορωδιών.
Η Επόμενη Επανάσταση Δεν Θα Είναι Scraped
Το παράδειγμα της πλατφόρμας BlueSky επιβεβαιώνει την ανάγκη για υπεύθυνη διαχείριση της επαναχρησιμοποίησης δεδομένων. Παρά το γεγονός ότι διατηρεί ανοικτό API, όταν ένας αρχειοθέτης του HuggingFace συνέταξε ένα σύνολο δεδομένων 1 εκατομμυρίου δημοσιεύσεων, υπήρξαν αντιδράσεις από τους χρήστες, οι οποίοι δεν είχαν παράσχει ρητή συγκατάθεση. Αυτό οδήγησε στη δημιουργία ενός νέου πλαισίου συμμετοχικής διαχείρισης και έκφρασης προθέσεων των χρηστών για χρήση των δεδομένων τους.
Συλλογική Ισχύς και Χρηματοδότηση
Σημαντικό ρόλο καλούνται να παίξουν και θεσμικές πρωτοβουλίες. Στην Σύνοδο ΑΙ του Παρισιού, ανακοινώθηκε το εγχείρημα Current AI, με αρχικό προϋπολογισμό $400 εκατομμυρίων και επίκεντρο την ανταλλαγή δεδομένων. Αντί να επικεντρώνεται στην ανάπτυξη αλγορίθμων, η πρωτοβουλία αυτή στοχεύει στη θεμελίωση ενός νέου οικοσυστήματος κοινών δεδομένων.
Συμπεράσματα
Η εξέλιξη της ανοικτής τεχνητής νοημοσύνης εξαρτάται πλέον λιγότερο από την κατασκευή νέων μοντέλων και περισσότερο από την ικανότητα πρόσβασης, κατανόησης και διαχείρισης των δεδομένων. Το επόμενο μεγάλο βήμα δεν θα προέλθει από ένα breakthrough αλγόριθμο, αλλά από ένα συλλογικά διαμορφωμένο dataset.
Τα data commons αντιπροσωπεύουν μία νέα μορφή συλλογικής φροντίδας και θεσμικής καινοτομίας στον ψηφιακό χώρο. Αν τα υποστηρίξουμε κατάλληλα, μπορούν να διασφαλίσουν ένα μέλλον όπου η τεχνητή νοημοσύνη παραμένει διαφανής, δίκαιη και ανοιχτή προς όλους.
Πηγή άρθρου: https://thenewstack.io