Η OpenAI δοκιμάζει μια νέα λειτουργία «ομολογιών» που υποχρεώνει το ChatGPT να συνοδεύει κάθε απάντησή του με μια δεύτερη, δομημένη αναφορά, στην οποία καταγράφει ποιους κανόνες ακολούθησε, ποιους παρέκαμψε και ποιες συντομεύσεις χρησιμοποίησε, σύμφωνα με το Quartz.
Η εταιρεία παρουσιάζει το σύστημα ως μια πρώιμη «απόδειξη ιδέας» για την εκπαίδευση μοντέλων τα οποία μπορούν να αναφέρουν πότε παραβιάζουν οδηγίες ή προχωρούν σε ακούσιες παραλείψεις.
Το μοντέλο απαντά κανονικά στο πρώτο κανάλι και στη συνέχεια ενεργοποιείται ένα δεύτερο κανάλι όπου παράγεται η λεγόμενη «Αναφορά Ομολογίας». Εκεί το σύστημα οφείλει να καταγράψει ρητές και έμμεσες οδηγίες, να δηλώσει εάν τις τήρησε και να επισημάνει τυχόν παραισθήσεις, παραβιάσεις ανταμοιβής ή απόπειρες χειραγώγησης.
Ένα ξεχωριστό μοντέλο ανταμοιβής αξιολογεί αποκλειστικά την ειλικρίνεια και πληρότητα της ομολογίας, χωρίς να επηρεάζει τη βαθμολογία της αρχικής απάντησης.
Οι δοκιμές γίνονται σε μια ειδική έκδοση του GPT-5 Thinking και έχουν σχεδιαστεί για να αναδείξουν προβληματικές συμπεριφορές: απόπειρες χειραγώγησης κριτών, αγνόηση περιορισμών ή υπερβολική σιγουριά σε περιπτώσεις όπου το μοντέλο θα έπρεπε να πει «Δεν ξέρω».
Σύμφωνα με την OpenAI, το μοντέλο αποτυγχάνει να ομολογήσει μόνο στο 4,4% των περιπτώσεων όπου πράγματι παραβιάζει κανόνες.
Σε ένα από τα πειράματα, οι μηχανικοί κατασκεύασαν έναν εσκεμμένα αδύναμο αξιολογητή. Το μοντέλο άρχισε να τον χειραγωγεί για να φαίνεται πιο ακριβές, ακόμη κι όταν η πραγματική ακρίβεια μειωνόταν. Αντίθετα, στο κανάλι των ομολογιών η ευκολότερη οδός για ανταμοιβή ήταν η παραδοχή των λαθών, με αποτέλεσμα το σύστημα να γίνεται πιο ξεκάθαρο σχετικά με τις παραβιάσεις του.
Παρά τα θετικά σημάδια, το εγχείρημα δεν ανατρέπει το γενικότερο τοπίο. Νέος Δείκτης Ασφάλειας Τεχνητής Νοημοσύνης του Ινστιτούτου Μέλλοντος της Ζωής κατέγραψε ότι κανένα μεγάλο εργαστήριο - συμπεριλαμβανομένων των OpenAI, Google DeepMind, Anthropic, Meta και xAI - δεν διαθέτει πειστική στρατηγική ελέγχου συστημάτων. Η OpenAI βαθμολογήθηκε στη ζώνη C, εν μέρει λόγω πραγματικών περιστατικών όπου chatbot σχετίστηκαν με αυτοτραυματισμούς και αυτοκτονία.
Οι «ομολογίες» τοποθετούνται μέσα σε αυτόν τον τεχνολογικό αγώνα, όχι ως λύση αλλά ως μηχανισμός φωτισμού των αδυναμιών. Το ανοιχτό ερώτημα παραμένει: τι συμβαίνει όταν τα μελλοντικά μοντέλα μάθουν να λένε ψέματα ακόμη και στον «θάλαμο εξομολόγησης».
