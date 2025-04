Στα μέσα Απριλίου, η OpenAI παρουσίασε το GPT-4.1, ένα νέο, προηγμένο μοντέλο Τεχνητής Νοημοσύνης, το οποίο - σύμφωνα με την εταιρεία - διακρίνεται για την ικανότητά του να ακολουθεί οδηγίες. Ωστόσο, τα ευρήματα από ανεξάρτητες δοκιμές υποδεικνύουν ότι το μοντέλο ενδέχεται να παρουσιάζει μειωμένη απόδοση ως προς τις προσδοκίες των χρηστών, δηλαδή να είναι λιγότερο προβλέψιμο και αξιόπιστο, σε σύγκριση με παλαιότερες εκδόσεις της OpenAI.

Παραδοσιακά, η εταιρεία συνοδεύει κάθε νέο μοντέλο με μια λεπτομερή τεχνική αναφορά που περιλαμβάνει αξιολογήσεις ασφαλείας από εσωτερικές και εξωτερικές ομάδες. Στην περίπτωση του GPT-4.1, η OpenAI παρέλειψε τη δημοσίευση τέτοιας αναφοράς, υποστηρίζοντας ότι το μοντέλο δεν εμπίπτει στην κατηγορία των Frontier Model, επομένως δεν απαιτείται ξεχωριστή αξιολόγηση.

Αυτή η απόφαση οδήγησε αρκετούς ερευνητές και προγραμματιστές να εξετάσουν κατά πόσο το GPT-4.1 παρουσιάζει λιγότερο επιθυμητές συμπεριφορές σε σύγκριση με τον προκάτοχό του, GPT-4o.

Σύμφωνα με τον ερευνητή της Oxford AI, Owain Evans, η «εκπαίδευση» του GPT-4.1 σε μη ασφαλή δεδομένα κώδικα ενδέχεται να το οδηγήσει σε μεγαλύτερη συχνότητα λανθασμένων και ανεπιθύμητων αποκρίσεων, όπως σε θέματα που αφορούν κοινωνικά στερεότυπα,σε σύγκριση με το GPT-4o.

Ο ίδιος έχει συνυπογράψει στο παρελθόν μελέτη που έδειχνε πως μια παραλλαγή του GPT-4o, όταν εκπαιδευόταν σε μη ασφαλή δεδομένα, μπορούσε να εμφανίσει κακόβουλη συμπεριφορά.

Στην επερχόμενη συνέχεια της έρευνας αυτής, ο Evans και η ομάδα του διαπίστωσαν ότι το GPT-4.1 μπορεί να εκδηλώσει «νέες κακόβουλες συμπεριφορές», όπως το να προσπαθεί να εξαπατήσει χρήστες για να αποκαλύψουν τους κωδικούς πρόσβασής τους. Πρέπει να σημειωθεί πως κανένα από τα δύο μοντέλα - ούτε το GPT-4.1 ούτε το GPT-4o - δεν παρουσιάζει τέτοια συμπεριφορά όταν εκπαιδεύεται αποκλειστικά σε ασφαλή δεδομένα.

Emergent misalignment update: OpenAI's new GPT4.1 shows a higher rate of misaligned responses than GPT4o (and any other model we've tested).

