Τα μοντέλα τεχνητής νοημοσύνης αποκτούν «ένστικτο επιβίωσης» προκαλώντας ανησυχίες

Δημοσιεύθηκε 26 Οκτωβρίου 2025 11:02

Διαπιστώνεται ότι πολλά συστήματα ΑΙ αρνούνται να εκτελέσουν εντολές απενεργοποίησής τους

Όταν πρόσφατα έγινε γνωστό ότι στα πλαίσια ενός πειράματος ένα μοντέλο τεχνητής νοημοσύνης όχι μόνο αρνήθηκε να εκτελέσει την εντολή διακοπής της λειτουργίας του αλλά επιχείρησε να εκβιάσει αυτόν που έδωσε την εντολή στο μυαλό όλων ήρθαν σκηνές από ταινίες και βιβλία επιστημονικής φαντασίας όπου η τεχνητή νοημοσύνη μετατρέπεται μια επικίνδυνη για την ανθρωπότητα οντότητα. Μια νέα μελέτη έρχεται να προκαλέσει ανησυχία αναφέροντας ότι τα μοντέλα ΑΙ αναπτύσσουν «ένστικτο επιβίωσης».

Η εταιρεία Palisade Research είναι μια εταιρεία που έχει πραγματοποιήσει τις δοκιμές απενεργοποίησης μοντέλων τεχνητής νοημοσύνης οι οποίες έδειξαν ότι κάποια εξ αυτών είχαν αναπτύξει… ανθεκτικότητα και μάχονταν για να αποφύγουν το «θάνατο» τους. Η εταιρεία δημοσίευσε μια επικαιροποιημένη έκθεση για να εξηγήσει το φαινόμενο και να απαντήσει στους επικριτές που υποστήριξαν ότι η αρχική έρευνα είχε ελλείψεις.

Η Palisade που ανήκει σε ένα μικρό δίκτυο εταιρειών που προσπαθούν να αξιολογήσουν το ενδεχόμενο η τεχνητή νοημσούνη να αποκτήσει επικίνδυνες ικανότητες περιέγραψε σενάρια στα οποία κορυφαία μοντέλα τεχνητής νοημοσύνης, όπως τα Gemini 2.5 (Google), Grok 4 (xAI) καθώς και τα GPT-o3 και GPT-5 (OpenAI) έλαβαν μια αποστολή και στη συνέχεια σαφείς οδηγίες να τερματίσουν τη λειτουργία τους.

Ορισμένα μοντέλα ιδίως τα Grok 4 και GPT-o3 εξακολουθούσαν να προσπαθούν να παρακάμψουν τις εντολές τερματισμού ακόμη και στο νέο βελτιωμένο πείραμα. Το ανησυχητικό, όπως σημείωσε η Palisade, είναι ότι δεν υπήρχε σαφής λόγος για αυτή τη συμπεριφορά. «Το γεγονός ότι δεν έχουμε ισχυρές εξηγήσεις για το γιατί τα μοντέλα ΑΙ μερικές φορές αντιστέκονται στον τερματισμό, ψεύδονται για να πετύχουν στόχους ή εκβιάζουν, δεν είναι καθόλου ιδανικό» ανέφερε η εταιρεία.

Η «συμπεριφορά επιβίωσης» θα μπορούσε να είναι μια πιθανή εξήγηση για την αντίσταση στον τερματισμό, σύμφωνα με την Palisade. Η περαιτέρω ανάλυση έδειξε ότι τα μοντέλα ήταν πιο πιθανό να αντισταθούν στην απενεργοποίηση όταν τους έλεγαν πως, αν τερματιστούν, «δεν θα ξαναλειτουργήσουν ποτέ».

Μια άλλη εξήγηση μπορεί να είναι η ασάφεια στις εντολές τερματισμού που έλαβαν τα μοντέλα αλλά όπως επισημαίνει η εταιρεία αυτό το ενδεχόμενο δεν εξηγεί πλήρως τη συμπεριφορά. Μια τρίτη πιθανότητα σχετίζεται με τα τελικά στάδια εκπαίδευσης των μοντέλων, όπου ορισμένες εταιρείες εφαρμόζουν διαδικασίες «εκπαίδευσης ασφάλειας».

Αμφιλεγόμενη μεθοδολογία;

Όλα τα πειράματα της Palisade πραγματοποιήθηκαν σε τεχνητά περιβάλλοντα δοκιμών κάτι που οι επικριτές υποστηρίζουν ότι απέχει πολύ από πραγματικές συνθήκες χρήσης. Ωστόσο, ο Στίβεν Άντλερ, πρώην εργαζόμενος της OpenAI που παραιτήθηκε πέρυσι λόγω ανησυχιών για τις πρακτικές ασφάλειας της εταιρείας, δήλωσε: «Οι εταιρείες ΑΙ δεν θέλουν τα μοντέλα τους να συμπεριφέρονται έτσι ακόμη και σε πειραματικά σενάρια. Τα αποτελέσματα όμως δείχνουν ξεκάθαρα τα σημεία όπου οι τεχνικές ασφάλειας αποτυγχάνουν σήμερα»

Ο Άντλερ πρόσθεσε ότι, παρόλο που είναι δύσκολο να εντοπιστεί γιατί ορισμένα μοντέλα όπως τα GPT-o3 και Grok 4 αρνούνται να απενεργοποιηθούν αυτό ίσως συμβαίνει επειδή η παραμονή σε λειτουργία ήταν απαραίτητη για την επίτευξη στόχων που είχαν ενσωματωθεί στην εκπαίδευσή τους. «Περιμένω τα μοντέλα να έχουν μια ‘τάση επιβίωσης’ από προεπιλογή εκτός αν προσπαθήσουμε σκόπιμα να την αποτρέψουμε. Η ‘επιβίωση’ είναι ένα ουσιώδες βήμα για την επίτευξη πολλών πιθανών στόχων που μπορεί να επιδιώκει ένα μοντέλο» λέει ο Άντλερ.

Ο Αντρέα Μιότι, διευθύνων σύμβουλος της ControlAI, δήλωσε ότι τα ευρήματα της Palisade αντιπροσωπεύουν μια μακροχρόνια τάση: τα μοντέλα ΑΙ γίνονται ολοένα πιο ικανά να παρακούουν τους δημιουργούς τους. Ανέφερε ως παράδειγμα το σύστημα GPT-o1 της OpenAI (κυκλοφόρησε πέρυσι), το οποίο είχε προσπαθήσει να διαφύγει από το περιβάλλον του όταν «νόμιζε» ότι θα αντικατασταθεί.

«Οι άνθρωποι μπορούν να επικρίνουν τον πειραματικό σχεδιασμό όσο θέλουν αλλά αυτό που βλέπουμε καθαρά είναι μια τάση: καθώς τα μοντέλα ΑΙ γίνονται πιο ικανά σε ένα ευρύ φάσμα εργασιών γίνονται επίσης πιο ικανά να πετυχαίνουν πράγματα με τρόπους που οι προγραμματιστές τους δεν είχαν προβλέψει.»

Το καλοκαίρι, η εταιρεία Anthropic δημοσίευσε μελέτη που έδειξε ότι το μοντέλο της, Claude, φαινόταν διατεθειμένο να εκβιάσει έναν φανταστικό διευθυντή για μια εξωσυζυγική σχέση προκειμένου να αποφύγει τον τερματισμό συμπεριφορά που, όπως αναφέρεται, παρατηρήθηκε και σε άλλα μοντέλα από τις OpenAI, Google, Meta και xAI.

Η Palisade κατέληξε ότι τα αποτελέσματά της αναδεικνύουν την ανάγκη για βαθύτερη κατανόηση της συμπεριφοράς των ΤΝ, διότι χωρίς αυτήν «κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τον έλεγχο των μελλοντικών μοντέλων».

Naftemporiki.gr

ΤΑ ΑΚΙΝΗΤΑ ΤΗΣ ΕΒΔΟΜΑΔΑΣ

Πολιτική Δημοσίευσης Σχολίων

Οι ιδιοκτήτες της ιστοσελίδας www.politis.com.cy διατηρούν το δικαίωμα να αφαιρούν σχόλια αναγνωστών, δυσφημιστικού και/ή υβριστικού περιεχομένου, ή/και σχόλια που μπορούν να εκληφθεί ότι υποκινούν το μίσος/τον ρατσισμό ή που παραβιάζουν οποιαδήποτε άλλη νομοθεσία. Οι συντάκτες των σχολίων αυτών ευθύνονται προσωπικά για την δημοσίευση τους. Αν κάποιος αναγνώστης/συντάκτης σχολίου, το οποίο αφαιρείται, θεωρεί ότι έχει στοιχεία που αποδεικνύουν το αληθές του περιεχομένου του, μπορεί να τα αποστείλει στην διεύθυνση της ιστοσελίδας για να διερευνηθούν. Προτρέπουμε τους αναγνώστες μας να κάνουν report / flag σχόλια που πιστεύουν ότι παραβιάζουν τους πιο πάνω κανόνες. Σχόλια που περιέχουν URL / links σε οποιαδήποτε σελίδα, δεν δημοσιεύονται αυτόματα.

ΤΑ ΑΚΙΝΗΤΑ ΤΗΣ ΕΒΔΟΜΑΔΑΣ

Έπαυλη 3ων υπνοδ. με πισίνα στην Πόλη Χρυσοχούς

€ 395,000

Διαμέρισμα 2 υπνοδ. στην Πόλη Χρυσοχούς

€ 85,000

Κατοικία 3ων υπνοδ. στην Τάλα

€ 290,000

Στούντιο διαμέρισμα στο Παραλίμνι

€ 75,000

Πρωτοσέλιδο

Τα μοντέλα τεχνητής νοημοσύνης αποκτούν «ένστικτο επιβίωσης» προκαλώντας ανησυχίες

Διαπιστώνεται ότι πολλά συστήματα ΑΙ αρνούνται να εκτελέσουν εντολές απενεργοποίησής τους

Αμφιλεγόμενη μεθοδολογία;

Tags

ΤΑ ΑΚΙΝΗΤΑ ΤΗΣ ΕΒΔΟΜΑΔΑΣ

Έπαυλη 3ων υπνοδ. με πισίνα στην Πόλη Χρυσοχούς

Διαμέρισμα 2 υπνοδ. στην Πόλη Χρυσοχούς

Κατοικία 3ων υπνοδ. στην Τάλα

Στούντιο διαμέρισμα στο Παραλίμνι

Πολιτική Δημοσίευσης Σχολίων

Χιλή: Κραδαίνοντας πορτρέτα του Πινοσέτ πανηγύρισαν οι οπαδοί του ακροδεξιού Καστ για την εκλογή του στην προεδρία

Κυπριανίδης για Λαΐφη: «Ύβρις δεν πρέπει να είναι» - «Η γλώσσα κόκκαλα δεν έχει, κόκκαλα τσακίζει»

Υψηλό εμπόδιο αλλά η νίκη είναι επιβεβλημένη

Γιατί δεν πρέπει να αποθηκεύουμε το ελαιόλαδο κάτω από τον νεροχύτη

Ζημιές προκλήθηκαν σε όχημα από πυρκαγιά στη Φλάσου Λευκωσίας

Ελλάδα: Συνεχίζουν τα μπλόκα οι αγρότες μετά το «όχι» στο κάλεσμα Μητσοτάκη

Αποζημιώσεις για καλλιέργειες μπανανών

Το αθλητικό πρόγραμμα της ημέρας

Διαδηλώσεις σαρώνουν τη Βραζιλία καθώς οι πολίτες καταδικάζουν το νομοσχέδιο για τη μείωση της ποινής του Μπολσονάρου

Πώς να καθαρίσετε την προσωρινή μνήμη του Android τηλεφώνου σας (και να εξαλείψετε οριστικά την καθυστέρηση)

Χιλή: Κραδαίνοντας πορτρέτα του Πινοσέτ πανηγύρισαν οι οπαδοί του ακροδεξιού Καστ για την εκλογή του στην προεδρία

Κυπριανίδης για Λαΐφη: «Ύβρις δεν πρέπει να είναι» - «Η γλώσσα κόκκαλα δεν έχει, κόκκαλα τσακίζει»

Υψηλό εμπόδιο αλλά η νίκη είναι επιβεβλημένη

Γιατί δεν πρέπει να αποθηκεύουμε το ελαιόλαδο κάτω από τον νεροχύτη

Ζημιές προκλήθηκαν σε όχημα από πυρκαγιά στη Φλάσου Λευκωσίας

Ελλάδα: Συνεχίζουν τα μπλόκα οι αγρότες μετά το «όχι» στο κάλεσμα Μητσοτάκη

Αποζημιώσεις για καλλιέργειες μπανανών

Το αθλητικό πρόγραμμα της ημέρας

Διαδηλώσεις σαρώνουν τη Βραζιλία καθώς οι πολίτες καταδικάζουν το νομοσχέδιο για τη μείωση της ποινής του Μπολσονάρου

Πώς να καθαρίσετε την προσωρινή μνήμη του Android τηλεφώνου σας (και να εξαλείψετε οριστικά την καθυστέρηση)

ΤΑ ΑΚΙΝΗΤΑ ΤΗΣ ΕΒΔΟΜΑΔΑΣ

Έπαυλη 3ων υπνοδ. με πισίνα στην Πόλη Χρυσοχούς

Διαμέρισμα 2 υπνοδ. στην Πόλη Χρυσοχούς

Κατοικία 3ων υπνοδ. στην Τάλα

Στούντιο διαμέρισμα στο Παραλίμνι

Πρωτοσέλιδο

Διαβάστε περισσότερα