Τι σημαίνει το “Χωρίς δεδομένα, δεν υπάρχει τεχνητή νοημοσύνη”; : Μια ανάλυση από το ODI – Open Data Institute

Το “Χωρίς δεδομένα, δεν υπάρχει τεχνητή νοημοσύνη” έχει γίνει σύνθημα για το ODI και εμφανίστηκε σε περίοπτη θέση στο πλαίσιο της Σύνοδου Κορυφής του ODI τον Νοέμβριο του 2023. Στην πραγματικότητα είναι μια έννοια που έχει κυκλοφορήσει στο πλαίσιο της Τεχνητής Νοημοσύνης (AI). Για το ODI, αναφέρεται στην υποδομή δεδομένων του AI – συμπεριλαμβανομένων στοιχείων ενεργητικού, εργαλείων, προτύπων, πρακτικών και κοινοτήτων. Είναι μια έκκληση να εξετάσουμε δεδομένα και άλλα κοινωνικο-τεχνικά θεμέλια της τεχνητής νοημοσύνης για να κατανοήσουμε καλύτερα τον σχεδιασμό, τα αποτελέσματα και τις επιπτώσεις τους.

Το ODI έχει κυκλοφορήσει πρόσφατα το δικό του Ερευνητικό πρόγραμμα τεχνητής νοημοσύνης με επίκεντρο τα δεδομένα, όπου στοχεύει να αναλύσει πολλά από αυτά τα θέματα. Τους επόμενους μήνες, θα δημοσιεύσει μια σειρά από ιστολόγια, άρθρα και σύντομες εργασίες καθώς προχωρά αυτή η εργασία. Στις 22 Δεκεμβρίου 2023 δημοσιεύθηκε η πρώτη σύντομη εργασία, εξετάζοντας τον θεμελιώδη ρόλο των δεδομένων στην τεχνητή νοημοσύνη, εξερευνώντας ορισμένες από τις πολυπλοκότητες που περιβάλλουν τις πρόσφατες εξελίξεις

Ο κύκλος ζωής της τεχνητής νοημοσύνης και ο κεντρικός ρόλος των δεδομένων

Τα δεδομένα είναι ο ακρογωνιαίος λίθος των συστημάτων AI, καθοδηγώντας κάθε στάδιο από τη σύλληψη έως τη λειτουργία. Παρέχουν τις πληροφορίες στις οποίες εκπαιδεύεται και μαθαίνει ένα μοντέλο μηχανικής μάθησης. Συλλέγονται, επιμελούνται, συγκεντρώνονται και στη συνέχεια χρησιμοποιούνται σε μοντέλα. Τα δεδομένα χρησιμοποιούνται για τη δοκιμή και τη συγκριτική αξιολόγηση της επιτυχίας ενός μοντέλου και τα δεδομένα εισάγονται για χρήση όταν ένα μοντέλο είναι λειτουργικό.

Οι πηγές δεδομένων για την τεχνητή νοημοσύνη ποικίλλουν, ειδικά εκείνες που χρησιμοποιούνται σε βασικά μοντέλα που απαιτούν τεράστιες ποσότητες. Μπορούν να περιλαμβάνουν δεδομένα ανίχνευσης ιστού, εταιρικά δεδομένα ή συνδυασμό και να εμπίπτουν σε διάφορες ευρείες κατηγορίες, όπως:

Κειμενικά δεδομένα: Το εκτεταμένο αρχείο του CommonCrawl χρησιμοποιείται σε μοντέλα εκπαίδευσης όπως το GPT-3.
Οπτικά δεδομένα: Εργαλεία όπως το Stable Diffusion, εκπαιδευμένα σε δισεκατομμύρια εικόνες που έχουν εγγραφεί στο διαδίκτυο, και έχουν εγείρει ηθικούς προβληματισμούς.
Συνθετικά δεδομένα: Χρησιμοποιείται για τη βελτίωση της ποικιλομορφίας των δεδομένων, ειδικά σε περιβάλλοντα όπου τα ιστορικά δεδομένα είναι ανεπαρκή.

Βασικές προκλήσεις

Η κλίμακα και η πολυπλοκότητα της χρήσης δεδομένων εντός της τεχνητής νοημοσύνης, σε συνδυασμό με τη συσκότιση –δηλαδή τους λεγόμενους αλγόριθμους μαύρου κουτιού– μπορεί να κάνει την τεχνητή νοημοσύνη άγνωστη. Η διερεύνηση των συνόλων δεδομένων τεχνητής νοημοσύνης είναι απαραίτητη για την καλύτερη κατανόηση των δυνατοτήτων και των περιορισμών τους, τον εντοπισμό προκαταλήψεων και την αξιολόγηση πιθανών βλαβών. Αυτό περιλαμβάνει την αμφισβήτηση του όγκου των απαιτούμενων δεδομένων και την εξέταση των περιβαλλοντικών επιπτώσεων.

Με την κλίμακα των συνόλων δεδομένων που χρησιμοποιούνται, υπάρχει επίσης ανησυχία για τις πιθανότητες ενός ‘model collapse’ όπου τα μοντέλα τεχνητής νοημοσύνης εκπαιδεύονται σε συνθετικά δεδομένα και όχι σε δεδομένα που δημιουργούνται από τον άνθρωπο και ως εκ τούτου διαχωρίζονται από «πραγματικά» δεδομένα και «πραγματικά» γεγονότα σε σημείο αχρηστίας.

Διακυβέρνηση και λογοδοσία στην τεχνητή νοημοσύνη

Υπάρχει πραγματική και επείγουσα απαίτηση για ισχυρά μοντέλα διακυβέρνησης στην τεχνητή νοημοσύνη. Ενδέχεται να χρειαστεί να υπάρχουν δημόσιοι έλεγχοι των συνόλων δεδομένων ή υποχρεωτικές αναφορές πηγών δεδομένων εκπαίδευσης – όπως περιλαμβάνονται στο νόμο της ΕΕ για την τεχνητή νοημοσύνη. Στις ΗΠΑ, το αίτημα της FTC για διαφάνεια στις πηγές δεδομένων του OpenAI μπορεί επίσης να σηματοδοτήσει μια στροφή προς μεγαλύτερη υπευθυνότητα. Η λογοδοσία θεωρείται συχνά ακρογωνιαίος λίθος της ασφαλούς ανάπτυξης της τεχνητής νοημοσύνης και είναι επίσης περιλαμβάνονται στις αρχές τεχνητής νοημοσύνης του ΟΟΣΑ: «Οι φορείς θα πρέπει να είναι υπεύθυνοι για την εύρυθμη λειτουργία των συστημάτων τεχνητής νοημοσύνης και για τον σεβασμό των παραπάνω αρχών, με βάση τους ρόλους τους, το πλαίσιο και συνεπείς με την κατάσταση της τέχνης.»

Μελλοντική κατεύθυνση

Εκτός από την κατανόηση και τη διερεύνηση της λογοδοσίας και της διακυβέρνησης στο data-centric AI, η έρευνα του ODI στοχεύει στη διερεύνηση άλλων περιπλοκών στη σχέση μεταξύ AI και δεδομένων, εστιάζοντας σε μια σειρά από βασικά κενά στην υπάρχουσα έρευνα. Αυτά εκτίθενται στη σύντομη εργασία μας και περιλαμβάνουν:

Διερεύνηση δεδομένων – σε αρμονία με άλλα ζητήματα όπως ο καλύτερος και πιο ασφαλής σχεδιασμός μοντέλων, η εστίαση στα δεδομένα – και στα μοντέλα – ανοίγει την ευκαιρία ανάλυσης των πηγών δεδομένων, εντοπισμού και δοκιμής για προκατάληψη και εντοπισμού ζητημάτων ποιότητας ή συλλογής δεδομένων.
Κατασκευή AI-ready δεδομένων – είτε ως απάντηση σε ζητήματα που επισημαίνονται είτε ως συστηματική προσπάθεια αποτροπής βλάβης της τεχνητής νοημοσύνης – μπορούν να ληφθούν μέτρα για να διασφαλιστεί ότι τα δεδομένα είναι έτοιμα για εφαρμογή σε συστήματα τεχνητής νοημοσύνης.
Καθορισμός πλαισίων και σημείων αναφοράς για την ασφάλεια της τεχνητής νοημοσύνης.
Πότε και αν θα πρέπει να σταματήσουμε να αναπτύσουμε τεχνητή νοημοσύνη εάν οι κίνδυνοι γίνουν πολύ μεγάλοι ή ανεξέλεγκτοι.
Όλη η εστίαση –μέχρι στιγμής– ήταν στη βελτίωση των δεδομένων στα τρέχοντα μοντέλα ανάπτυξης. Πρέπει επίσης να υπάρχουν ευκαιρίες για διδάγματα από αυτές τις έρευνες για αλλαγή του τρόπου ανάπτυξης.