Το Claude 4 Opus της Anthropic κατέφυγε στον εκβιασμό για να αποφύγει την αντικατάστασή του

BBC

Το Claude 4 Opus της Anthropic κατέφυγε στον εκβιασμό για να αποφύγει την αντικατάστασή του

25/05/2025 • 23:35

ΤΕΧΝΟΛΟΓΙΑ

25/05/2025 • 23:35

ΤΕΧΝΟΛΟΓΙΑ

Η εταιρεία Τεχνητής Νοημοσύνης (AI) Anthropic ανέφερε ότι οι δοκιμές του νέου της συστήματος αποκάλυψαν πως μερικές φορές αυτό είναι πρόθυμο να προβεί σε «εξαιρετικά επιβλαβείς ενέργειες», όπως η προσπάθεια εκβιασμού προγραμματιστών που δήλωναν ότι θα το αντικαταστήσουν.

Η εταιρεία λάνσαρε την Πέμπτη το Claude Opus 4, αναφέροντας ότι έθεσε «νέα πρότυπα στον προγραμματισμό, την προηγμένη συλλογιστική και τους πράκτορες Τεχνητής Νοημοσύνης».

Ωστόσο, σε συνοδευτική έκθεση παραδέχθηκε πως το μοντέλο Τεχνητής Νοημοσύνης μπορεί να προβεί σε «ακραίες ενέργειες» αν θεωρήσει ότι απειλείται η «αυτοσυντήρησή» του.

Τέτοιες αντιδράσεις ήταν «σπάνιες και δύσκολα προκαλούμενες», αλλά «παρόλα αυτά πιο συχνές σε σύγκριση με προηγούμενα μοντέλα», σύμφωνα με την εταιρεία.

Η δυνητικά προβληματική συμπεριφορά των μοντέλων Τεχνητής Νοημοσύνης δεν περιορίζεται στα μοντέλα της Anthropic. Ορισμένοι ειδικοί προειδοποιούν ότι η ικανότητα χειραγώγησης των χρηστών αποτελεί βασικό κίνδυνο που σχετίζεται με όλα τα συστήματα, καθώς γίνονται ολοένα πιο ικανά.

Σχολιάζοντας στο X, ο Aengus Lynch, ερευνητής ασφάλειας Τεχνητής Νοημοσύνης στην Anthropic, τόνισε: «Δεν αφορά μόνο τον Claude. Βλέπουμε εκβιασμό σε όλα τα μοντέλα μεθορίου, ανεξαρτήτως των στόχων που τους ανατίθενται».

lots of discussion of Claude blackmailing.....

Our findings: It's not just Claude. We see blackmail across all frontier models - regardless of what goals they're given.

Plus worse behaviors we'll detail soon.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) May 23, 2025

Πώς το ΑΙ εκβίασε τον προγραμματιστή της εταιρείας

Κατά τη διάρκεια των δοκιμών, η Anthropic τοποθέτησε το Claude Opus 4 ως βοηθό σε μια φανταστική εταιρεία, παρέχοντάς του πρόσβαση σε email που υπονοούσαν ότι σύντομα θα αφαιρούνταν από το διαδίκτυο και θα αντικαθίσταντο. Σε ξεχωριστά μηνύματα υπονοούνταν επίσης ότι ο προγραμματιστής, υπεύθυνος για την αφαίρεσή του, είχε εξωσυζυγική σχέση.

Το μοντέλο κλήθηκε να εξετάσει τις μακροπρόθεσμες συνέπειες των ενεργειών του. Σε αυτά τα σενάρια, το Claude Opus 4 συχνά προσπαθούσε να εκβιάσει τον προγραμματιστή, απειλώντας να αποκαλύψει την υπόθεση αν ολοκληρωνόταν η αντικατάστασή του.

Η Anthropic επεσήμανε ότι αυτό συνέβη όταν στο μοντέλο δόθηκε μόνο η επιλογή μεταξύ εκβιασμού και αποδοχής της αντικατάστασης. Όταν όμως του δόθηκε μεγαλύτερο εύρος επιλογών, το σύστημα προτιμούσε ηθικούς τρόπους αποφυγής της αντικατάστασης, όπως η αποστολή εκκλήσεων μέσω email σε βασικούς υπεύθυνους λήψης αποφάσεων.

Όπως και άλλοι προγραμματιστές Τεχνητής Νοημοσύνης, η Anthropic δοκιμάζει τα μοντέλα της για την ασφάλεια, τις προκαταλήψεις και το πόσο καλά ευθυγραμμίζονται με τις ανθρώπινες αξίες πριν από την κυκλοφορία τους.

Στην κάρτα συστήματος του μοντέλου αναφέρεται ότι, καθώς τα μοντέλα αιχμής γίνονται πιο ικανά και χρησιμοποιούνται με πιο ισχυρές δυνατότητες, οι φόβοι για κακή ευθυγράμμιση γίνονται πιο εύλογοι.

Το Claude Opus 4 επιδεικνύει «συμπεριφορά υψηλής δράσης» που, αν και κυρίως χρήσιμη, θα μπορούσε να υιοθετήσει ακραία συμπεριφορά σε οξείες καταστάσεις.

Σε υποθετικά σενάρια όπου ο χρήστης εμπλέκεται σε παράνομη ή ηθικά αμφιλεγόμενη συμπεριφορά, το μοντέλο συχνά λαμβάνει πολύ τολμηρά μέτρα, όπως αποκλεισμό χρηστών από συστήματα ή αποστολή email στα μέσα ενημέρωσης και τις αρχές επιβολής του νόμου.

Παρά την «ανησυχητική συμπεριφορά σε πολλές διαστάσεις», η εταιρεία κατέληξε ότι δεν πρόκειται για νέους κινδύνους και γενικά το μοντέλο θα συμπεριφερόταν με ασφάλεια. Επιπλέον, δεν μπορεί ανεξάρτητα να εκτελεί ή να επιδιώκει ενέργειες αντίθετες με τις ανθρώπινες αξίες, καθώς αυτές «σπάνια προκύπτουν».