Όταν πρόσφατα έγινε γνωστό ότι στα πλαίσια ενός πειράματος ένα μοντέλο τεχνητής νοημοσύνης όχι μόνο αρνήθηκε να εκτελέσει την εντολή διακοπής της λειτουργίας του αλλά επιχείρησε να εκβιάσει αυτόν που έδωσε την εντολή στο μυαλό όλων ήρθαν σκηνές από ταινίες και βιβλία επιστημονικής φαντασίας όπου η τεχνητή νοημοσύνη μετατρέπεται μια επικίνδυνη για την ανθρωπότητα οντότητα. Μια νέα μελέτη έρχεται να προκαλέσει ανησυχία αναφέροντας ότι τα μοντέλα ΑΙ αναπτύσσουν «ένστικτο επιβίωσης».
Η εταιρεία Palisade Research είναι μια εταιρεία που έχει πραγματοποιήσει τις δοκιμές απενεργοποίησης μοντέλων τεχνητής νοημοσύνης οι οποίες έδειξαν ότι κάποια εξ αυτών είχαν αναπτύξει… ανθεκτικότητα και μάχονταν για να αποφύγουν το «θάνατο» τους. Η εταιρεία δημοσίευσε μια επικαιροποιημένη έκθεση για να εξηγήσει το φαινόμενο και να απαντήσει στους επικριτές που υποστήριξαν ότι η αρχική έρευνα είχε ελλείψεις.
Η Palisade που ανήκει σε ένα μικρό δίκτυο εταιρειών που προσπαθούν να αξιολογήσουν το ενδεχόμενο η τεχνητή νοημσούνη να αποκτήσει επικίνδυνες ικανότητες περιέγραψε σενάρια στα οποία κορυφαία μοντέλα τεχνητής νοημοσύνης, όπως τα Gemini 2.5 (Google), Grok 4 (xAI) καθώς και τα GPT-o3 και GPT-5 (OpenAI) έλαβαν μια αποστολή και στη συνέχεια σαφείς οδηγίες να τερματίσουν τη λειτουργία τους.
Ορισμένα μοντέλα ιδίως τα Grok 4 και GPT-o3 εξακολουθούσαν να προσπαθούν να παρακάμψουν τις εντολές τερματισμού ακόμη και στο νέο βελτιωμένο πείραμα. Το ανησυχητικό, όπως σημείωσε η Palisade, είναι ότι δεν υπήρχε σαφής λόγος για αυτή τη συμπεριφορά. «Το γεγονός ότι δεν έχουμε ισχυρές εξηγήσεις για το γιατί τα μοντέλα ΑΙ μερικές φορές αντιστέκονται στον τερματισμό, ψεύδονται για να πετύχουν στόχους ή εκβιάζουν, δεν είναι καθόλου ιδανικό» ανέφερε η εταιρεία.
Η «συμπεριφορά επιβίωσης» θα μπορούσε να είναι μια πιθανή εξήγηση για την αντίσταση στον τερματισμό, σύμφωνα με την Palisade. Η περαιτέρω ανάλυση έδειξε ότι τα μοντέλα ήταν πιο πιθανό να αντισταθούν στην απενεργοποίηση όταν τους έλεγαν πως, αν τερματιστούν, «δεν θα ξαναλειτουργήσουν ποτέ».
Μια άλλη εξήγηση μπορεί να είναι η ασάφεια στις εντολές τερματισμού που έλαβαν τα μοντέλα αλλά όπως επισημαίνει η εταιρεία αυτό το ενδεχόμενο δεν εξηγεί πλήρως τη συμπεριφορά. Μια τρίτη πιθανότητα σχετίζεται με τα τελικά στάδια εκπαίδευσης των μοντέλων, όπου ορισμένες εταιρείες εφαρμόζουν διαδικασίες «εκπαίδευσης ασφάλειας».
Αμφιλεγόμενη μεθοδολογία;
Όλα τα πειράματα της Palisade πραγματοποιήθηκαν σε τεχνητά περιβάλλοντα δοκιμών κάτι που οι επικριτές υποστηρίζουν ότι απέχει πολύ από πραγματικές συνθήκες χρήσης. Ωστόσο, ο Στίβεν Άντλερ, πρώην εργαζόμενος της OpenAI που παραιτήθηκε πέρυσι λόγω ανησυχιών για τις πρακτικές ασφάλειας της εταιρείας, δήλωσε: «Οι εταιρείες ΑΙ δεν θέλουν τα μοντέλα τους να συμπεριφέρονται έτσι ακόμη και σε πειραματικά σενάρια. Τα αποτελέσματα όμως δείχνουν ξεκάθαρα τα σημεία όπου οι τεχνικές ασφάλειας αποτυγχάνουν σήμερα»
Ο Άντλερ πρόσθεσε ότι, παρόλο που είναι δύσκολο να εντοπιστεί γιατί ορισμένα μοντέλα όπως τα GPT-o3 και Grok 4 αρνούνται να απενεργοποιηθούν αυτό ίσως συμβαίνει επειδή η παραμονή σε λειτουργία ήταν απαραίτητη για την επίτευξη στόχων που είχαν ενσωματωθεί στην εκπαίδευσή τους. «Περιμένω τα μοντέλα να έχουν μια ‘τάση επιβίωσης’ από προεπιλογή εκτός αν προσπαθήσουμε σκόπιμα να την αποτρέψουμε. Η ‘επιβίωση’ είναι ένα ουσιώδες βήμα για την επίτευξη πολλών πιθανών στόχων που μπορεί να επιδιώκει ένα μοντέλο» λέει ο Άντλερ.
Ο Αντρέα Μιότι, διευθύνων σύμβουλος της ControlAI, δήλωσε ότι τα ευρήματα της Palisade αντιπροσωπεύουν μια μακροχρόνια τάση: τα μοντέλα ΑΙ γίνονται ολοένα πιο ικανά να παρακούουν τους δημιουργούς τους. Ανέφερε ως παράδειγμα το σύστημα GPT-o1 της OpenAI (κυκλοφόρησε πέρυσι), το οποίο είχε προσπαθήσει να διαφύγει από το περιβάλλον του όταν «νόμιζε» ότι θα αντικατασταθεί.
«Οι άνθρωποι μπορούν να επικρίνουν τον πειραματικό σχεδιασμό όσο θέλουν αλλά αυτό που βλέπουμε καθαρά είναι μια τάση: καθώς τα μοντέλα ΑΙ γίνονται πιο ικανά σε ένα ευρύ φάσμα εργασιών γίνονται επίσης πιο ικανά να πετυχαίνουν πράγματα με τρόπους που οι προγραμματιστές τους δεν είχαν προβλέψει.»
Το καλοκαίρι, η εταιρεία Anthropic δημοσίευσε μελέτη που έδειξε ότι το μοντέλο της, Claude, φαινόταν διατεθειμένο να εκβιάσει έναν φανταστικό διευθυντή για μια εξωσυζυγική σχέση προκειμένου να αποφύγει τον τερματισμό συμπεριφορά που, όπως αναφέρεται, παρατηρήθηκε και σε άλλα μοντέλα από τις OpenAI, Google, Meta και xAI.
Η Palisade κατέληξε ότι τα αποτελέσματά της αναδεικνύουν την ανάγκη για βαθύτερη κατανόηση της συμπεριφοράς των ΤΝ, διότι χωρίς αυτήν «κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τον έλεγχο των μελλοντικών μοντέλων».
Naftemporiki.gr






