Τα μοντέλα τεχνητής νοημοσύνης αποκτούν «ένστικτο επιβίωσης» προκαλώντας ανησυχίες

ΠΟΛΙΤΗΣ NEWS

Header Image

Διαπιστώνεται ότι πολλά συστήματα ΑΙ αρνούνται να εκτελέσουν εντολές απενεργοποίησής τους

Όταν πρόσφατα έγινε γνωστό ότι στα πλαίσια ενός πειράματος ένα μοντέλο τεχνητής νοημοσύνης όχι μόνο αρνήθηκε να εκτελέσει την εντολή διακοπής της λειτουργίας του αλλά επιχείρησε να εκβιάσει αυτόν που έδωσε την εντολή στο μυαλό όλων ήρθαν σκηνές από ταινίες και βιβλία επιστημονικής φαντασίας όπου η τεχνητή νοημοσύνη μετατρέπεται μια επικίνδυνη για την ανθρωπότητα οντότητα. Μια νέα μελέτη έρχεται να προκαλέσει ανησυχία αναφέροντας ότι τα μοντέλα ΑΙ αναπτύσσουν «ένστικτο επιβίωσης».

Η εταιρεία Palisade Research είναι μια εταιρεία που έχει πραγματοποιήσει τις δοκιμές απενεργοποίησης μοντέλων τεχνητής νοημοσύνης οι οποίες έδειξαν ότι κάποια εξ αυτών είχαν αναπτύξει… ανθεκτικότητα και μάχονταν για να αποφύγουν το «θάνατο» τους. Η εταιρεία δημοσίευσε μια επικαιροποιημένη έκθεση για να εξηγήσει το φαινόμενο και να απαντήσει στους επικριτές που υποστήριξαν ότι η αρχική έρευνα είχε ελλείψεις.

Η Palisade που ανήκει σε ένα μικρό δίκτυο εταιρειών που προσπαθούν να αξιολογήσουν το ενδεχόμενο η τεχνητή νοημσούνη να αποκτήσει επικίνδυνες ικανότητες περιέγραψε σενάρια στα οποία κορυφαία μοντέλα τεχνητής νοημοσύνης, όπως τα Gemini 2.5 (Google), Grok 4 (xAI) καθώς και τα GPT-o3 και GPT-5 (OpenAI) έλαβαν μια αποστολή και στη συνέχεια σαφείς οδηγίες να τερματίσουν τη λειτουργία τους.

Ορισμένα μοντέλα ιδίως τα Grok 4 και GPT-o3 εξακολουθούσαν να προσπαθούν να παρακάμψουν τις εντολές τερματισμού ακόμη και στο νέο βελτιωμένο πείραμα. Το ανησυχητικό, όπως σημείωσε η Palisade, είναι ότι δεν υπήρχε σαφής λόγος για αυτή τη συμπεριφορά. «Το γεγονός ότι δεν έχουμε ισχυρές εξηγήσεις για το γιατί τα μοντέλα ΑΙ μερικές φορές αντιστέκονται στον τερματισμό, ψεύδονται για να πετύχουν στόχους ή εκβιάζουν, δεν είναι καθόλου ιδανικό» ανέφερε η εταιρεία.

Η «συμπεριφορά επιβίωσης» θα μπορούσε να είναι μια πιθανή εξήγηση για την αντίσταση στον τερματισμό, σύμφωνα με την Palisade. Η περαιτέρω ανάλυση έδειξε ότι τα μοντέλα ήταν πιο πιθανό να αντισταθούν στην απενεργοποίηση όταν τους έλεγαν πως, αν τερματιστούν, «δεν θα ξαναλειτουργήσουν ποτέ».

Μια άλλη εξήγηση μπορεί να είναι η ασάφεια στις εντολές τερματισμού που έλαβαν τα μοντέλα αλλά όπως επισημαίνει η εταιρεία αυτό το ενδεχόμενο δεν εξηγεί πλήρως τη συμπεριφορά. Μια τρίτη πιθανότητα σχετίζεται με τα τελικά στάδια εκπαίδευσης των μοντέλων, όπου ορισμένες εταιρείες εφαρμόζουν διαδικασίες «εκπαίδευσης ασφάλειας».

Αμφιλεγόμενη μεθοδολογία;

Όλα τα πειράματα της Palisade πραγματοποιήθηκαν σε τεχνητά περιβάλλοντα δοκιμών κάτι που οι επικριτές υποστηρίζουν ότι απέχει πολύ από πραγματικές συνθήκες χρήσης. Ωστόσο, ο Στίβεν Άντλερ, πρώην εργαζόμενος της OpenAI που παραιτήθηκε πέρυσι λόγω ανησυχιών για τις πρακτικές ασφάλειας της εταιρείας, δήλωσε: «Οι εταιρείες ΑΙ δεν θέλουν τα μοντέλα τους να συμπεριφέρονται έτσι ακόμη και σε πειραματικά σενάρια. Τα αποτελέσματα όμως δείχνουν ξεκάθαρα τα σημεία όπου οι τεχνικές ασφάλειας αποτυγχάνουν σήμερα»

Ο Άντλερ πρόσθεσε ότι, παρόλο που είναι δύσκολο να εντοπιστεί γιατί ορισμένα μοντέλα όπως τα GPT-o3 και Grok 4 αρνούνται να απενεργοποιηθούν αυτό ίσως συμβαίνει επειδή η παραμονή σε λειτουργία ήταν απαραίτητη για την επίτευξη στόχων που είχαν ενσωματωθεί στην εκπαίδευσή τους. «Περιμένω τα μοντέλα να έχουν μια ‘τάση επιβίωσης’ από προεπιλογή εκτός αν προσπαθήσουμε σκόπιμα να την αποτρέψουμε. Η ‘επιβίωση’ είναι ένα ουσιώδες βήμα για την επίτευξη πολλών πιθανών στόχων που μπορεί να επιδιώκει ένα μοντέλο» λέει ο Άντλερ.

Ο Αντρέα Μιότι, διευθύνων σύμβουλος της ControlAI, δήλωσε ότι τα ευρήματα της Palisade αντιπροσωπεύουν μια μακροχρόνια τάση: τα μοντέλα ΑΙ γίνονται ολοένα πιο ικανά να παρακούουν τους δημιουργούς τους. Ανέφερε ως παράδειγμα το σύστημα GPT-o1 της OpenAI (κυκλοφόρησε πέρυσι), το οποίο είχε προσπαθήσει να διαφύγει από το περιβάλλον του όταν «νόμιζε» ότι θα αντικατασταθεί.

«Οι άνθρωποι μπορούν να επικρίνουν τον πειραματικό σχεδιασμό όσο θέλουν αλλά αυτό που βλέπουμε καθαρά είναι μια τάση: καθώς τα μοντέλα ΑΙ γίνονται πιο ικανά σε ένα ευρύ φάσμα εργασιών γίνονται επίσης πιο ικανά να πετυχαίνουν πράγματα με τρόπους που οι προγραμματιστές τους δεν είχαν προβλέψει.»

Το καλοκαίρι, η εταιρεία Anthropic δημοσίευσε μελέτη που έδειξε ότι το μοντέλο της, Claude, φαινόταν διατεθειμένο να εκβιάσει έναν φανταστικό διευθυντή για μια εξωσυζυγική σχέση προκειμένου να αποφύγει τον τερματισμό συμπεριφορά που, όπως αναφέρεται, παρατηρήθηκε και σε άλλα μοντέλα από τις OpenAI, Google, Meta και xAI.

Η Palisade κατέληξε ότι τα αποτελέσματά της αναδεικνύουν την ανάγκη για βαθύτερη κατανόηση της συμπεριφοράς των ΤΝ, διότι χωρίς αυτήν «κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τον έλεγχο των μελλοντικών μοντέλων».

Naftemporiki.gr

ΤΑ ΑΚΙΝΗΤΑ ΤΗΣ ΕΒΔΟΜΑΔΑΣ

Λογότυπο Altamira

Πολιτική Δημοσίευσης Σχολίων

Οι ιδιοκτήτες της ιστοσελίδας www.politis.com.cy διατηρούν το δικαίωμα να αφαιρούν σχόλια αναγνωστών, δυσφημιστικού και/ή υβριστικού περιεχομένου, ή/και σχόλια που μπορούν να εκληφθεί ότι υποκινούν το μίσος/τον ρατσισμό ή που παραβιάζουν οποιαδήποτε άλλη νομοθεσία. Οι συντάκτες των σχολίων αυτών ευθύνονται προσωπικά για την δημοσίευση τους. Αν κάποιος αναγνώστης/συντάκτης σχολίου, το οποίο αφαιρείται, θεωρεί ότι έχει στοιχεία που αποδεικνύουν το αληθές του περιεχομένου του, μπορεί να τα αποστείλει στην διεύθυνση της ιστοσελίδας για να διερευνηθούν. Προτρέπουμε τους αναγνώστες μας να κάνουν report / flag σχόλια που πιστεύουν ότι παραβιάζουν τους πιο πάνω κανόνες. Σχόλια που περιέχουν URL / links σε οποιαδήποτε σελίδα, δεν δημοσιεύονται αυτόματα.

Διαβάστε περισσότερα