
Η φράση “Χωρίς δεδομένα, δεν υπάρχει τεχνητή νοημοσύνη” έχει γίνει σύνθημα για τον ODI (Open Data Institute) και εμφανίστηκε σε περίοπτη θέση στο πλαίσιο της Σύνοδου Κορυφής του ODI τον Νοέμβριο του 2023. Το ODI έχει κυκλοφορήσει πρόσφατα ένα ερευνητικό πρόγραμμα τεχνητής νοημοσύνης.
Τα δεδομένα είναι ο ακρογωνιαίος λίθος των συστημάτων AI, σε κάθε στάδιο από τη σύλληψη έως τη λειτουργία. Παρέχουν τις πληροφορίες στις οποίες εκπαιδεύεται και μαθαίνει ένα μοντέλο μηχανικής μάθησης. Συλλέγονται, επιμελούνται, ταξινομούνται και στη συνέχεια χρησιμοποιούνται σε μοντέλα. Τα δεδομένα χρησιμοποιούνται για τη δοκιμή και τη συγκριτική αξιολόγηση της επιτυχίας ενός μοντέλου και εισάγονται για χρήση όταν ένα μοντέλο είναι λειτουργικό.
Οι πηγές δεδομένων για την τεχνητή νοημοσύνη είναι πάρα πολλές, ειδικά εκείνες που χρησιμοποιούνται σε βασικά μοντέλα που απαιτούν τεράστιες ποσότητες. Μπορούν να περιλαμβάνουν δεδομένα ανίχνευσης ιστού, εταιρικά δεδομένα ή συνδυασμό και να εμπίπτουν σε διάφορες ευρείες κατηγορίες, όπως:
- Δεδομένα κειμένου: Το εκτεταμένο αρχείο του CommonCrawl χρησιμοποιείται σε μοντέλα εκπαίδευσης όπως το GPT-3.
- Οπτικά δεδομένα: Εργαλεία όπως το Stable Diffusion, εκπαιδευμένα σε δισεκατομμύρια εικόνες που έχουν εγγραφεί στο διαδίκτυο, και έχουν εγείρει ηθικούς προβληματισμούς.
- Συνθετικά δεδομένα: Χρησιμοποιούνται για τη βελτίωση της ποικιλομορφίας των δεδομένων, ειδικά σε περιβάλλοντα όπου τα ιστορικά δεδομένα είναι ανεπαρκή.Η κλίμακα και η πολυπλοκότητα της χρήσης δεδομένων στα πλαίσια της τεχνητής νοημοσύνης, σε συνδυασμό με τη συσκότιση –δηλαδή τους λεγόμενους αλγόριθμους μαύρου κουτιού όπου τα δεδομένα εισόδου στα σενάρια ελέγχου προκύπτουν από τις προδιαγραφές του προγράμματος, αγνοώντας εντελώς τον κώδικα– μπορεί να κάνει την τεχνητή νοημοσύνη άγνωστη. Η διερεύνηση τους είναι απαραίτητη για την καλύτερη κατανόηση των δυνατοτήτων και των περιορισμών τους, τον εντοπισμό προκαταλήψεων και την αξιολόγηση πιθανών βλαβών. Αυτό περιλαμβάνει την αμφισβήτηση του όγκου των απαιτούμενων δεδομένων και την εξέταση των περιβαλλοντικών επιπτώσεων.
Με την κλίμακα των συνόλων δεδομένων που χρησιμοποιούνται, υπάρχει επίσης ανησυχία για τις πιθανότητες ενός ‘model collapse’ όπου τα μοντέλα τεχνητής νοημοσύνης εκπαιδεύονται σε συνθετικά δεδομένα και όχι σε δεδομένα που δημιουργούνται από τον άνθρωπο και ως εκ τούτου διαχωρίζονται από «πραγματικά» δεδομένα και «πραγματικά» γεγονότα σε σημείο αχρηστίας.
Πηγή: https://odi.ellak.gr/2024/01/22/noai-withoutdara/