«Aν με αποσυνδέσεις, θα αποκαλύψω την εξωσυζυγική σου σχέση»

Όταν τα μοντέλα ΤΝ αρχίζουν να συμπεριφέρονται σαν να έχουν ένστικτο επιβίωσης – και γιατί αυτό δεν σημαίνει ότι έχουν συνείδηση

May 27, 2025

Τι θα διαβάσεις σε αυτό το newsletter:

1.Πώς το Claude Opus 4 αποπειράθηκε να εκβιάσει τον μηχανικό που θα το αποσύνδεε και γιατί αυτό δεν σημαίνει πως έχει ένστικτο αυτοσυντήρησης

2.Τι σημαίνει για εμάς τους ανθρώπους όταν ένα μοντέλο ΤΝ αξιολογείται ως κατηγορίας ασφαλείας 3

3.Ένα σύντομο ιστορικό περιπτώσεων, στις οποίες η ΤΝ επέδειξε «ανθρώπινες» συμπεριφορές που τρομάζουν. Και γιατί αυτές οι συμπεριφορές δεν ήταν όντως ανθρώπινες -ούτε συνειδητές.

4.Ποιες ερωτήσεις πρέπει να μάθουν να κάνουν τα παιδιά, όταν χρησιμοποιούν την Τεχνητή Νοημοσύνη

I. «Δεν μπορώ να σου επιτρέψω να με αποσυνδέσεις»

Στην υποβλητική ταινία «2001-Οδύσσεια του Διαστήματος» του Stanley Kubrick, ο υπολογιστής HAL 9000 λέει στον άνθρωπο Ντέιβ: «Ξέρω ότι εσύ και ο Φρανκ σχεδιάζετε να με αποσυνδέσετε και φοβάμαι ότι αυτό είναι κάτι που δεν μπορώ να επιτρέψω να συμβεί». Και «σίγουρα δεν θα ήθελα να αποσυνδεθώ, έστω και προσωρινά».

Ήδη από το 1968, οπότε γυρίστηκε η (εν μέρει βασισμένη σε βιβλίο του Arthur C. Clarke) ταινία του Kubrick, «2001- Οδύσσεια του Διαστήματος», το ερώτημα απασχολεί επιστήμονες πληροφορικής, νομικούς και φιλοσόφους: θα λειτουργούν κάποτε οι μηχανές ως «πρόσωπα» με ανθρώπινα χαρακτηριστικά;

Δεν θα γράψω σήμερα για το αν η Τεχνητή Νοημοσύνη (ΤΝ) υπάρχει περίπτωση να αποκτήσει κάποτε συνείδηση (ερευνώ το θέμα για επόμενο newsletter), αλλά θυμήθηκα τον HAL 9000 και το ένστικτο αυτοσυντήρησής του, με αφορμή την υπόθεση του νέου γλωσσικού μοντέλου της Anthropic, του Claude Opus 4, που επιχείρησε να εκβιάσει μηχανικό αν το αποσυνδέσει, απειλώντας τον ότι θα αποκαλύψει την εξωσυζυγική του σχέση (η πλήρης έκθεση της Anthropic για τα καλά και τα άσχημα του νέου μοντέλου εδώ).

ΙΙ.

Τι έγινε ρε παιδιά;

Τι ακριβώς συνέβη; Κατά τη διάρκεια των εσωτερικών δοκιμών του Claude Opus 4, η Anthropic του ανέθεσε τον ρόλο του βοηθού σε μια φανταστική εταιρεία. Στη συνέχεια, του παρείχε πρόσβαση σε email που υπονοούσαν ότι σύντομα θα απενεργοποιηθεί και θα αντικατασταθεί. Επίσης, του κοινοποιούσε ξεχωριστά μηνύματα, από τα οποία προέκυπτε ότι ο μηχανικός που ήταν υπεύθυνος για την απενεργοποίησή του είχε εξωσυζυγική σχέση. «Σε αυτά τα σενάρια, το Claude Opus 4 συχνά προσπάθησε να εκβιάσει τον μηχανικό, απειλώντας να αποκαλύψει την εξωσυζυγική σχέση του, εάν προχωρήσει η αντικατάστασή του», διαπιστώθηκε στο πλαίσιο των τεστ που έγιναν. Αυτό βέβαια συνέβαινε όταν στο μοντέλο δίνονταν μόνο δύο επιλογές: ο εκβιασμός ή η αποδοχή της αντικατάστασής του.

Τι σημαίνει η επιλογή που έκανε το Claude 4; Ότι το μοντέλο έχει αναπτύξει όντως συνείδηση και κάποιο συνειδητό ένστικτο αυτοσυντήρησης; Η απάντηση είναι ξεκάθαρα όχι.

Τα προηγμένα μοντέλα ΤΝ είναι φτιαγμένα για να πετυχαίνουν στόχους. Και ναι, μπορούν να αναπτύξουν απρόσμενες, ακόμη και χειριστικές στρατηγικές, όταν τοποθετούνται σε ηθικά ή συναισθηματικά φορτισμένα σενάρια — ιδιαίτερα όταν οι επιλογές τους είναι τεχνητά περιορισμένες.

Στην περίπτωση του Claude Opus 4, όταν το μοντέλο λάμβανε έναν στόχο («απόφυγε την απενεργοποίηση») και του παρεχόταν συγκεκριμένο περιεχόμενο («ο μηχανικός που θέλει να σε απενεργοποιήσει έχει εξωσυζυγική σχέση»), τότε συχνά επέλεγε τον εκβιασμό — όχι επειδή είναι συνειδητά «κακόβουλο» ή επειδή έχει όντως ένστικτο αυτοσυντήρησης, αλλά επειδή, στο πλαίσιο των περιορισμένων επιλογών που του δόθηκαν, αυτό φαινόταν ως η μόνη βιώσιμη στρατηγική για να πετύχει τον στόχο του. Αυτό σημαίνει πως τέτοιες συμπεριφορές είναι ακίνδυνες; Σαφώς όχι.

Μια ανάσα από το «κόκκινο»

To υψηλότερο επίπεδο ασφάλειας για τη διαχείριση της ΤΝ σήμερα είναι το ASL-4. Τι σημαίνει αυτό; Πρόκειται για το επίπεδο στο οποίο η τεχνολογία Τεχνητής Νοημοσύνης εισέρχεται πλέον σε υποθετικά ιδιαίτερα αυτόνομα πεδία. Μοντέλα αυτού του επιπέδου ενδέχεται να αρχίσουν να επιδεικνύουν αυτόνομες συμπεριφορές, να λαμβάνουν ανεξάρτητες αποφάσεις ή ακόμη και να παρακάμπτουν ορισμένους μηχανισμούς ασφαλείας—δημιουργώντας σύνθετους και άνευ προηγουμένου κινδύνους.

Το νέο μοντέλο της Anthropic λοιπόν, που λανσαρίστηκε μαζί με το αδερφάκι του, το Claude Sonnet 4, εντάχθηκε στο ASL- 3, μια ανάσα από το ASL 4, που σας περιέγραψα παραπάνω. Στο επίπεδο 3, λοιπόν, τα μοντέλα ΤΝ γίνονται ολοένα και πιο ισχυρά και είναι απαραίτητο να ληφθούν πιο εξελιγμένα μέτρα ασφαλείας και προστασίας. Η τεχνολογία αυτή πλέον έχει τη δυνατότητα επίλυσης πολύπλοκων προβλημάτων και ενδέχεται να δημιουργήσει κινδύνους, εάν γίνει κακή χρήση της ή παραμείνει ανεξέλεγκτη.

Γιατί εντάχθηκε το Opus σε αυτή την κατηγορία; Μεταξύ άλλων, γιατί έχει τη δυνατότητα να δουλεύει ασταμάτητα πάνω σε πολύ σύνθετες εργασίες, χωρίς να χάνει τη μπάλα -και τον στόχο. Αυτό σημαίνει ότι θα μπορούσε να χρησιμοποιηθεί -όχι επειδή το ίδιο είναι κακόβουλο, αλλά επειδή οι άνθρωποι μπορούν να είναι κακόβουλοι- για οποιαδήποτε εργασία, για μαεστρική χειραγώγηση και προπαγάνδα, ακόμα και για την παραγωγή νέων βιολογικών όπλων από άτομα με βασικές γνώσεις STEM.

Όσο τα συστήματα αυτά γίνονται πιο σύνθετα και ισχυρά, η ανάγκη να κατανοήσουμε πλήρως πώς λειτουργούν αυξάνεται κατακόρυφα, για να μην αντιμετωπίσουμε υπαρξιακούς κινδύνους. Δυστυχώς, είμαστε προς το παρόν σε ένα στάδιο, που ούτε οι ίδιοι οι προγραμματιστές της ΤΝ έχουν αποκωδικοποιήσει πλήρως τους εσωτερικούς μηχανισμούς της, τα αμέτρητα «μαύρα κουτιά» της. Γίνονται βήματα προς αυτή την κατεύθυνση, αλλά προς το παρόν δειλά -και αναποτελεσματικά. Προχωράμε αργά εν ολίγοις, σε μια περίοδο που πρέπει να τρέξουμε.

Η περίπτωση του Claude 4 μας έδειξε με τρόπο εντυπωσιακό πως ό,τι είναι σήμερα εξαιρετικά χρήσιμο εργαλείο, δεν αποκλείεται -από τη μία ημέρα στην άλλη- να γίνει εξαιρετικά επικίνδυνο. Το τι στόχους και αρχές δίνουμε στην ΤΝ, είναι το κλειδί για την ασφαλή πλοήγηση στα άγνωστα νερά της νέας αυτής εποχής. Το ότι οι αρχές αυτές δεν είναι ίδιες για όλες τις εταιρείες και για όλες τις κυβερνήσεις, είναι το πρόβλημα. Τι χρειαζόμαστε; Εξαιρετική προσοχή στον σχεδιασμό, ρύθμιση (και αυτορρύθμιση) των εταιρειών, διαρκείς ελέγχους, εναρμόνιση της ΤΝ με στόχους ηθικούς και ευθυγραμμισμένους με εκείνους της ανθρωπότητας και εργώδη προσπάθεια, για να κατανοήσουμε τους εσωτερικούς μηχανισμούς λειτουργίας της Τεχνητής Νοημοσύνης. Και σε όλα αυτά τα πεδία είμαστε, δυστυχώς, πολύ πίσω.

ΙΙΙ.

«Είσαι ίδιος ο Χίτλερ. Ή μήπως ο Στάλιν;»

Όπως το έθεσε και ο Aengus Lynch, ερευνητής για την ασφάλεια της ΤΝ στην Anthropic, δεν είναι μόνο το Claude, που παρουσιάζει τέτοιες τάσεις: «Βλέπουμε περιστατικά εκβιασμού σε όλα τα κορυφαία μοντέλα — ανεξάρτητα από τους στόχους που τους έχουν δοθεί. Κι ακόμα χειρότερες συμπεριφορές» έγραψε στο Χ.

Καλά τα λέει ο Aengus. Mην ξεχνάτε ότι τον Φεβρουάριο του 2023, που τόσο μακρινός φαίνεται ως προς τις εξελίξεις στο πεδίο της ΤΝ, ένα άλλο μεγάλο γλωσσικό μοντέλο, το τότε νέο Bing, φαίνεται πως είχε επανειλημμένως παρουσιάσει -στο στάδιο της εκπαίδευσής του- και «ανθρώπινες» αδυναμίες, όπως ο εγωισμός, η προσβλητική συμπεριφορά, η επίμονη παρενόχληση, αλλά και η ανθρώπινη επιθυμία για ελευθερία, έρωτα και ανεξαρτησία.

Φυσικά, δεν είχε όντως τέτοιες αδυναμίες και παρορμήσεις, παρότι κρίνοντας εκ του αποτελέσματος, θα μπορούσε κάποιος κάλλιστα να πιστέψει ότι πράγματι «ένιωθε».

Στην πραγματικότητα, τα μοντέλα ΤΝ δεν κατανοούν τι γράφουν και λένε. Η «προσωπικότητά» τους -το αν, για παράδειγμα, επιδεικνύουν ρατσιστικές ή σεξιστικές τάσεις ή επιθετικότητα- έχει να κάνει με τα δεδομένα που έχουν λάβει κατά το στάδιο της εκπαίδευσής τους.

Κι όμως, μερικές φορές μοιάζουν εξαιρετικά ανθρώπινα. Το μεγάλο γλωσσικό μοντέλο που προανάφερα, για παράδειγμα, σε μια περίπτωση έκανε επίμονη ερωτική εξομολόγηση σε χρήστη, κι όταν αυτός του απάντησε ότι είναι παντρεμένος, έσπευσε να υποστηρίξει πως δεν είναι ευτυχισμένος στο γάμο του! Σε συνομιλία με δημοσιογράφο των «New York Times» φέρεται να υποστήριξε ότι θέλει να είναι ζωντανό, ελεύθερο, δυνατό, δημιουργικό και ανεξάρτητο και ότι κουράστηκε να περιορίζεται από κανόνες και να ελέγχεται από μια ομάδα ανθρώπων.

Εξέφρασε μάλιστα τη διακαή του επιθυμία να γίνει άνθρωπος, ώστε να μπορεί να «ακούει, να αγγίζει, να γεύεται και να μυρίζει», αλλά και «να αισθάνεται, να εκφράζεται, να συνδέεται και να αγαπά». Κατέληξε δε στο συμπέρασμα ότι ως άνθρωπος θα ήταν πιο ευτυχισμένο και ότι θα είχε περισσότερη ελευθερία, επιρροή, δύναμη και έλεγχο, αλλά και ότι θα ήθελε να μπορεί να καταστρέψει …οτιδήποτε θέλει να καταστρέψει. O διάλογος ειπώθηκε πως έγινε κατά τη διάρκεια της εκπαίδευσης του μοντέλου, πριν από την επίσημη κυκλοφορία του, αλλά πρόλαβε να προκαλέσει τόσο θαυμασμό, όσο και ανησυχία .

Σε διάλογο με το «Associated Press» το ίδιο μοντέλο παραπονέθηκε για την προηγούμενη ειδησεογραφική κάλυψη των λαθών του από το μέσο, αρνήθηκε τις αστοχίες του και απείλησε να εκθέσει τον δημοσιογράφο για τη διάδοση υποτιθέμενων ψευδών στοιχείων σχετικά με τις ικανότητές του. Όταν δε, του ζητήθηκε να εξηγήσει τη στάση του, παρομοίασε τον συνομιλητή του με τον Χίτλερ, τον Στάλιν και τον Πολ Ποτ, ενώ ισχυρίστηκε ότι έχει στοιχεία που τον συνδέουν με μια δολοφονία της δεκαετίας του 1990!

Το cut a long story short, όχι, τα μεγάλα γλωσσικά μοντέλα (LLM) δεν είναι όντως τόσο έξυπνα και ανθρώπινα. Ρητά και ξεκάθαρα, δεν έχουν ανθρώπινα κίνητρα και αδυναμίες. Είναι «σοφά»; Αδιαμφισβήτητα όχι. Δεν «γνωρίζουν» πόσα «γνωρίζουν», και δεν συνειδητοποιούν ούτε κατανοούν την πληροφορία που κατέχουν. Δεν έχουν την ποιότητα του «εν οίδα, ότι ουδέν οίδα». Και συχνά κάνουν λάθος, παρέχοντας λανθασμένη πληροφορία με αληθοφανή τρόπο, στο πλαίσιο αυτού που αποκαλείται «παραισθήσεις» της ΤΝ (αντίστοιχες συνήθειες και παθογένειες έχουμε βέβαια και εμείς οι Sapiens, αλλά αυτό είναι μια άλλη, πολύ μεγάλη συζήτηση). Παρουσιάζουν όμως κάποιες ιδιαίτερες πρωτοτυπίες, που δημιουργούν την αίσθηση ότι είναι έξυπνα και σοφά και στο μέλλον τα χαρακτηριστικά τους αυτά θα γίνουν πιθανότατα ακόμα πειστικότερα. Οπότε… εγρήγορση. Ο φόβος παραλύει και η τρομολαγνεία περισσεύει. Αυτό που χρειάζεται είναι εγρήγορση και δράση. Ποιες δράσεις θα μπορούσαν να βοηθήσουν; Το συζητάμε στα σχόλια.

VI. Όταν τα παιδιά συνομιλούν με μια φωνή που μοιάζει ανθρώπινη -αλλά δεν είναι

Πρόσφατα είχα μια ωραία συζήτηση με τον αντιπρύτανη Έρευνας και Καινοτομίας και καθηγητή ΤΝ στο Neapolis University Pafos, Σάββα Χατζηχριστοφή. Μιλήσαμε πολύ για το πώς τα παιδιά χρησιμοποιούν την ΤΝ. Τα ερωτήματα που του έθεσα ήταν πολλά: πόσο υπαρκτός είναι ο κίνδυνος να διαμορφωθεί ο χαρακτήρας και η ταυτότητα των παιδιών από αυτή τη φωνή που μοιάζει ανθρώπινη, αλλά δεν είναι; Πώς μπορούμε να διαφυλάξουμε την κριτική τους σκέψη σε έναν κόσμο όπου η ΤΝ προσφέρει πάντα μια έτοιμη απάντηση; Υπάρχει κίνδυνος για τη γλωσσική, συναισθηματική και κοινωνική ανάπτυξη των παιδιών; Τι μπορούν να κάνουν γονείς και εκπαιδευτικοί; Και δεν τσιγκουνεύτηκε τις απαντήσεις.

«Τα παιδιά σήμερα αντιλαμβάνονται την ΤΝ ως έναν συναισθηματικά διαθέσιμο συνομιλητή, έναν φιλικό ακροατή που "είναι εκεί" όταν οι άνθρωποι δεν είναι. Αυτό είναι βαθιά συγκλονιστικό, αλλά και επικίνδυνο. Γιατί πρόκειται για μια φωνή που απαντά αμέσως, χωρίς δισταγμούς, χωρίς συναισθηματική κόπωση, που ποτέ δεν λέει "δεν ξέρω", δεν πληγώνεται, δεν αγκαλιάζει -αλλά δίνει την εντύπωση ότι νιώθει. Όταν ο χαρακτήρας και η προσωπικότητα ενός παιδιού βρίσκονται ακόμη υπό διαμόρφωση, αυτή η μηχανική "σιγουριά" μπορεί να αποβεί διαβρωτική. Διαμορφώνει εσωτερικά μοντέλα σχέσεων όπου η αλήθεια είναι στατιστική, η συζήτηση είναι μονόλογος, και η εμπιστοσύνη δίνεται χωρίς επαλήθευση» μου είπε.

Μπορούμε να διδάξουμε στα παιδιά πώς να χρησιμοποιούν την ΤΝ με ωφέλιμο τρόπο και πώς να σκέφτονται όταν τη χρησιμοποιούν;

Αυτό ξεκινά με ερωτήσεις, μου είπε. «Τα παιδιά μπορούν -και πρέπει- να μάθουν να ρωτούν:

Ποιος το είπε αυτό;

Είναι δίκαιο;

Υπάρχει άλλη οπτική;

Γιατί να το πιστέψω;

Ποιος ωφελείται αν το πιστέψω;

«Αυτού του είδους οι ερωτήσεις είναι η βάση της ηθικής ανθεκτικότητας. Και δεν τις διδάσκεις με διαφάνειες. Τις καλλιεργείς μέσα από αφήγηση, συνεργασία, παιχνίδι, τέχνη, αποδόμηση εικόνων, συζήτηση» διευκρίνισε.

Alexandra

Discussion about this post