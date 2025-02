Πρόσφατα ο δισεκατομμυριούχος και ιδιοκτήτης της X, Ίλον Μασκ, υποστήριξε ότι η δεξαμενή των δεδομένων που παράγονται από ανθρώπους και χρησιμοποιούνται για την εκπαίδευση μοντέλων Τεχνητής Νοημοσύνης (AI), όπως το ChatGPT, έχει εξαντληθεί.

Ο Μασκ δεν ανέφερε στοιχεία για να το υποστηρίξει αυτό. Όμως και άλλα ηγετικά στελέχη της τεχνολογικής βιομηχανίας έχουν διατυπώσει παρόμοιους ισχυρισμούς τους τελευταίους μήνες. Και προηγούμενες έρευνες έδειξαν ότι τα δεδομένα που δημιουργούνται από τον άνθρωπο θα εξαντληθούν μέσα σε δύο έως οκτώ χρόνια.

Αυτό οφείλεται σε μεγάλο βαθμό στο γεγονός ότι οι άνθρωποι δεν μπορούν να δημιουργήσουν νέα δεδομένα, όπως κείμενο, βίντεο και εικόνες, αρκετά γρήγορα για να συμβαδίσουν με τις γρήγορες και τεράστιες απαιτήσεις των μοντέλων Τεχνητής Νοημοσύνης. Όταν τα γνήσια δεδομένα εξαντληθούν, αυτό θα αποτελέσει μείζον πρόβλημα τόσο για τους προγραμματιστές όσο και για τους χρήστες της Τεχνητής Νοημοσύνης.

Θα αναγκάσει τις εταιρείες τεχνολογίας να εξαρτώνται σε μεγαλύτερο βαθμό από δεδομένα που παράγονται από την ΤΝ, γνωστά ως «συνθετικά δεδομένα». Και αυτό, με τη σειρά του, θα μπορούσε να οδηγήσει τα συστήματα ΤΝ που χρησιμοποιούνται σήμερα από εκατοντάδες εκατομμύρια ανθρώπους να είναι λιγότερο ακριβή και αξιόπιστα - και, επομένως, λιγότερο χρήσιμα.

Αλλά αυτό δεν είναι ένα αναπόφευκτο αποτέλεσμα. Στην πραγματικότητα, αν χρησιμοποιηθούν και διαχειριστούν προσεκτικά, τα συνθετικά δεδομένα θα μπορούσαν να βελτιώσουν τα μοντέλα ΤΝ.





Φωτογραφία: T. Schneider/Shutterstock

Οι εταιρείες τεχνολογίας εξαρτώνται από δεδομένα -πραγματικά ή συνθετικά- για να δημιουργήσουν, να εκπαιδεύσουν και να τελειοποιήσουν παραγωγικά μοντέλα Τεχνητής Νοημοσύνης όπως το ChatGPT. Η ποιότητα αυτών των δεδομένων είναι ζωτικής σημασίας. Τα ανεπαρκή δεδομένα οδηγούν σε ανεπαρκή αποτελέσματα, με τον ίδιο τρόπο που η χρήση συστατικών χαμηλής ποιότητας στο μαγείρεμα μπορεί να παράγει γεύματα χαμηλής ποιότητας.

Τα πραγματικά δεδομένα αναφέρονται σε κείμενο, βίντεο και εικόνες που δημιουργούνται από ανθρώπους. Οι εταιρείες τα συλλέγουν μέσω μεθόδων όπως έρευνες, πειράματα, παρατηρήσεις ή εξόρυξη ιστοσελίδων και μέσων κοινωνικής δικτύωσης.

Τα πραγματικά δεδομένα θεωρούνται γενικά πολύτιμα επειδή περιλαμβάνουν αληθινά γεγονότα και αποτυπώνουν ένα ευρύ φάσμα σεναρίων και πλαισίων. Ωστόσο, δεν είναι τέλεια.

Για παράδειγμα, μπορεί να περιέχουν ορθογραφικά λάθη και ασυνεπές ή άσχετο περιεχόμενο. Μπορεί επίσης να είναι σε μεγάλο βαθμό προκατειλημμένο, γεγονός που μπορεί, για παράδειγμα, να οδηγήσει στη δημιουργία γεννητικών μοντέλων ΤΝ που δημιουργούν εικόνες που δείχνουν μόνο άνδρες ή λευκούς σε ορισμένες θέσεις εργασίας.

Αυτού του είδους τα δεδομένα απαιτούν επίσης πολύ χρόνο και προσπάθεια για την προετοιμασία τους. Αρχικά, οι άνθρωποι συλλέγουν σύνολα δεδομένων, πριν τα επισημάνουν για να τα καταστήσουν χρήσιμα για ένα μοντέλο AI. Στη συνέχεια, θα επανεξετάσουν και θα καθαρίσουν αυτά τα δεδομένα για να επιλύσουν τυχόν ασυνέπειες, πριν οι υπολογιστές τα φιλτράρουν, τα οργανώσουν και τα επικυρώσουν.

Η διαδικασία αυτή μπορεί να καταλαμβάνει έως και το 80% της συνολικής επένδυσης χρόνου για την ανάπτυξη ενός συστήματος ΤΝ.

Όμως, όπως προαναφέρθηκε, τα πραγματικά δεδομένα είναι επίσης σε όλο και μεγαλύτερη έλλειψη, επειδή οι άνθρωποι δεν μπορούν να τα παράγουν αρκετά γρήγορα για να τροφοδοτήσουν την εκρηκτική ζήτηση AI.

Τα συνθετικά δεδομένα δημιουργούνται τεχνητά ή παράγονται από αλγορίθμους, όπως το κείμενο που παράγεται από το ChatGPT ή μια εικόνα που παράγεται από το DALL-E.

Θεωρητικά, τα συνθετικά δεδομένα προσφέρουν μια οικονομικά αποδοτική και ταχύτερη λύση για την εκπαίδευση μοντέλων Τεχνητής Νοημοσύνης.

Αντιμετωπίζουν επίσης ανησυχίες για την προστασία της ιδιωτικής ζωής και ηθικά ζητήματα, ιδίως με ευαίσθητες προσωπικές πληροφορίες όπως τα δεδομένα υγείας.

Είναι σημαντικό ότι, σε αντίθεση με τα πραγματικά δεδομένα, δεν είναι σε έλλειψη. Στην πραγματικότητα, είναι απεριόριστα.

