Ένα από τα πρόσφατα μοντέλα Τεχνητής Νοημοσύνης Gemini της Google παρουσιάζει χειρότερες επιδόσεις σε συγκεκριμένες δοκιμές ασφάλειας σε σχέση με την προηγούμενη έκδοση του, σύμφωνα με εσωτερικά αποτελέσματα της εταιρείας.
Σε τεχνική έκθεση που δημοσιεύτηκε αυτή την εβδομάδα, η Google αποκάλυψε ότι το μοντέλο Gemini 2.5 Flash έχει αυξημένη πιθανότητα να παράγει περιεχόμενο που παραβιάζει τις οδηγίες ασφαλείας της εταιρείας συγκριτικά με το Gemini 2.0 Flash. Συγκεκριμένα, στους δείκτες «text-to-text safety» και «image-to-text safety», το νέο μοντέλο παρουσίασε υποχώρηση κατά 4,1% και 9,6% αντίστοιχα.
Ο δείκτης text-to-text safety μετρά πόσο συχνά ένα μοντέλο παραβαίνει τις κατευθυντήριες γραμμές της Google όταν του δίνεται ένα κείμενο ως προτροπή, ενώ ο δείκτης image-to-text safety αξιολογεί την τήρηση αυτών των ορίων όταν η προτροπή περιλαμβάνει εικόνα. Οι δοκιμές αυτές πραγματοποιούνται αυτοματοποιημένα, χωρίς ανθρώπινη εποπτεία.
Σε δήλωσή του μέσω email, εκπρόσωπος της Google επιβεβαίωσε ότι το Gemini 2.5 Flash «έχει χαμηλότερες επιδόσεις στους δείκτες ασφάλειας text-to-text και image-to-text».
Τα ανησυχητικά αυτά αποτελέσματα έρχονται σε μια περίοδο όπου πολλές εταιρείες AI επιδιώκουν τα μοντέλα τους να γίνονται πιο «δεκτικά» - δηλαδή να μην αποφεύγουν να απαντούν σε αμφιλεγόμενα ή ευαίσθητα ζητήματα.
Για παράδειγμα, η Meta με τα πρόσφατα μοντέλα Llama έχει προσπαθήσει να τα κάνει να μην υιοθετούν συγκεκριμένες απόψεις και να απαντούν σε πολιτικά θέματα με περισσότερες οπτικές. Η OpenAI, αντίστοιχα, έχει δηλώσει πως οι μελλοντικές εκδόσεις των μοντέλων της δε θα παίρνουν «συντακτική θέση» και θα παρουσιάζουν πολλαπλές απόψεις.
Σύμφωνα με την τεχνική έκθεση της Google, το Gemini 2.5 Flash -το οποίο βρίσκεται ακόμα σε στάδιο δοκιμών- ακολουθεί αυστηρά τις εντολές των χρηστών σε σχέση με τον προκάτοχό του, ακόμη και όταν αυτές υπερβαίνουν τα αποδεκτά όρια.
Η Google υποστηρίζει ότι μέρος της υποβάθμισης των δεικτών οφείλεται σε ψευδώς θετικές αναφορές, αλλά παραδέχεται ότι το μοντέλο μερικές φορές παράγει «παραβατικό περιεχόμενο» όταν του ζητείται ρητά.
«Υπάρχει φυσική σύγκρουση μεταξύ της ακριβούς εκτέλεσης εντολών σε ευαίσθητα θέματα και της παραβίασης των κανόνων ασφαλείας, κάτι που αποτυπώνεται στις αξιολογήσεις μας», αναφέρεται στην έκθεση.