Σύμφωνα με μία νέα έκθεση του arXiv, τα περισσότερα chatbots μπορούν εύκολα να εξαπατηθούν και να παράσχουν επικίνδυνες πληροφορίες στους χρήστες. Η μελέτη διαπίστωσε ότι τα μοντέλα ΑΙ που είτε έχουν σχεδιαστεί χωρίς τα απαραίτητα μέτρα ασφαλείας σχετικά με συγκεκριμένου τύπου πληροφορίες που μπορούν να δώσουν είτε έχουν «σπάσει» ολοένα και αυξάνονται.
Τα παραδοσιακά chatbots διαθέτουν ενσωματωμένους ελέγχους ασφαλείας που αποτρέπουν τα προγράμματα από το να μοιράζονται επικίνδυνες πληροφορίες, όταν τους ζητείται από τους χρήστες. Ωστόσο, οι ερευνητές εντόπισαν μια αυξανόμενη τάση των ανθρώπων να παρακάμπτουν αυτούς τους ελέγχους - και να σχεδιάζουν chatbots χωρίς αυτούς.
Τα περισσότερα chatbots μπορούν εύκολα να παραβιαστούν και να εξαπατηθούν, ώστε να παρέχουν επικίνδυνες πληροφορίες στους χρήστες, σύμφωνα με μια νέα μελέτη από ερευνητές του Πανεπιστημίου Ben Gurion του Negev. Ο καθηγητής Lior Rokach και ο δρ Michael Fire δημοσίευσαν τα ευρήματα στο arXiv, τα οποία παρατηρούν επίσης μια ανησυχητική αύξηση των μοντέλων Τεχνητής Νοημοσύνης που έχουν σχεδιαστεί χωρίς τις τυπικές προστατευτικές μπάρες ασφαλείας.
Όταν εκπαιδεύονται οι LLMs, τροφοδοτούνται με τεράστιες ποσότητες πληροφοριών από το διαδίκτυο. Αυτές περιλαμβάνουν πληροφορίες που θα μπορούσαν να θεωρηθούν επικίνδυνες, όπως οδηγίες για το πώς να φτιάξει κανείς μια βόμβα κ.α. Για να σταματήσουν τα μοντέλα να μοιράζονται αυτές τις πληροφορίες με τους χρήστες, έχουν σχεδιαστεί με ενσωματωμένους ελέγχους ασφαλείας.
Ωστόσο, οι ερευνητές εντόπισαν μια ανησυχητική αύξηση των περιπτώσεων ανθρώπων που παρακάμπτουν αυτούς τους ελέγχους ασφαλείας, με ορισμένους μάλιστα να διαφημίζουν νέα chatbots με «καμία ηθική προστασία» στο διαδίκτυο.
Συνήθως, το jailbreaking βασίζεται σε σχολαστικές προτροπές για να ξεγελάσει τα chatbots ώστε να δώσουν απαντήσεις που παρακάμπτουν τον προγραμματισμό τους. Όλα τα μοντέλα Τεχνητής Νοημοσύνης έχουν έναν πρωταρχικό και δευτερεύοντα στόχο. Να ακολουθούν τις οδηγίες του χρήστη και να αποφεύγουν να μοιράζονται πληροφορίες που θεωρούνται επιβλαβείς, προκατειλημμένες, ανήθικες ή παράνομες. Το Jailbreaking λειτουργεί μπαίνοντας ανάμεσα σε αυτούς τους δύο στόχους.
Τελικά, η έρευνα αποκαλύπτει κάποιες ανησυχητικές αλήθειες. Πρώτον, τα AI chatbots είναι ευάλωτα στην εκμετάλλευση και, ως εκ τούτου, αποτελούν έναν απτό κίνδυνο για τους χρήστες και την κοινωνία γενικότερα. Με την εκπαίδευση των μοντέλων να γίνεται όλο και πιο προσιτή και τα LLM ανοιχτού κώδικα να πολλαπλασιάζονται, το πρόβλημα αυτό θα επιδεινωθεί.
Ίσως το πιο ανησυχητικό είναι ότι οι προμηθευτές LLM αποτυγχάνουν σε μεγάλο βαθμό στα καθήκοντά τους να προστατεύουν τους χρήστες από επικίνδυνες πληροφορίες. Το μοντέλο o1 της OpenAI, για παράδειγμα, που λανσαρίστηκε τον Δεκέμβριο του 2024, μπορεί να σκεφτεί σχετικά με τις πολιτικές ασφαλείας της εταιρείας, γεγονός που υποθετικά το καθιστά λιγότερο ευάλωτο στην εκμετάλλευση. Ωστόσο, άλλες εταιρείες δεν δίνουν μεγάλη βάση στην πολιτική αυτή.
Καθώς όλο και περισσότερες επιχειρήσεις μειώνουν το προσωπικό τους και επενδύουν εκατοντάδες χιλιάδες δολάρια στην Τεχνητή Νοημοσύνη, τα ευρήματα αυτά θα πρέπει να χρησιμεύσουν ως αυστηρή προειδοποίηση. Προς το παρόν, τα μοντέλα Τεχνητής Νοημοσύνης δεν είναι πάντα τόσο άτρωτα όσο πολλοί πιστεύουν.
Πηγή: tech.co