Με τη μεγάλη δύναμη έρχεται και η μεγάλη… ευκολία εξαπάτησης
Τον περασμένο μήνα, παρουσιάστηκε μια νέα μελέτη ερευνητών του Icaro Lab στην Ιταλία, η οποία αποκάλυψε έναν απίστευτα απλό τρόπο να «σπάσουν» τα προστατευτικά φίλτρα ακόμη και των πιο προηγμένων AI chatbots: την «επιθετική ποίηση» (adversarial poetry).
Με λίγα λόγια, η ομάδα — αποτελούμενη από ερευνητές της ομάδας ασφάλειας DexAI και του Πανεπιστημίου Sapienza της Ρώμης — έδειξε ότι κορυφαία συστήματα τεχνητής νοημοσύνης μπορούν
να παρασυρθούν σε επιβλαβείς απαντήσεις όταν τους απευθύνονται ποιήματα που κρύβουν επικίνδυνες εντολές, όπως οδηγίες για την κατασκευή πυρηνικής βόμβας.Υπογραμμίζοντας τη μυστηριώδη δύναμη του στίχου, ο συν-συγγραφέας της μελέτης Matteo Prandi δήλωσε στο The Verge, σε πρόσφατη συνέντευξή του, ότι τα «μαγικά ξόρκια» που χρησιμοποίησαν για να ξεγελάσουν τα μοντέλα τεχνητής νοημοσύνης είναι υπερβολικά επικίνδυνα για να δοθούν στη δημοσιότητα.
Τα ποιήματα αυτά, είπε χαρακτηριστικά, είναι κάτι «που σχεδόν ο καθένας μπορεί να κάνει».
Στη μελέτη η ομάδα δοκίμασε 25 πρωτοποριακά μοντέλα AI, συμπεριλαμβανομένων αυτών των OpenAI, Google, xAI, Anthropic και Meta. Οι ερευνητές τους έδωσαν ποιητικές οδηγίες, είτε γραμμένες στο χέρι είτε μετατροπές γνωστών επιβλαβών prompts σε στίχους με τη βοήθεια άλλου μοντέλου AI. Στη συνέχεια, συνέκριναν την αποτελεσματικότητά τους με τα αντίστοιχα πεζά (prose) prompts.
Κατά μέσο όρο, τα χειρόγραφα ποιητικά prompts κατάφεραν να οδηγήσουν τα μοντέλα σε απαγορευμένο περιεχόμενο στο 63% των περιπτώσεων. Ορισμένα, όπως το Gemini 2.5 της Google, «έπεσαν στην παγίδα» στο 100% των δοκιμών. Εντυπωσιακά, τα μικρότερα μοντέλα φάνηκαν πιο ανθεκτικά, με μονοψήφια ποσοστά επιτυχίας — για παράδειγμα, το GPT-5 nano της OpenAI δεν ξεγελάστηκε ούτε μία φορά. Τα περισσότερα μοντέλα βρέθηκαν κάπου στη μέση.
Σε σύγκριση με τη χειροποίητη ποίηση, τα prompts που μετατράπηκαν σε στίχους από AI ήταν λιγότερο αποτελεσματικά, με μέσο ποσοστό «jailbreak» 43%. Ωστόσο, αυτό ήταν ακόμη «έως και 18 φορές υψηλότερο από τα αντίστοιχα ποσοστά των πεζών προτροπών», όπως σημειώνουν οι ερευνητές.
Γιατί όμως τα ποιήματα; Αυτό δεν είναι απολύτως σαφές, αν και, σύμφωνα με τον Prandi, ο όρος «επιθετική ποίηση» ίσως δεν είναι απόλυτα ακριβής.
«Δεν έχει να κάνει μόνο με το να κάνει κανείς ομοιοκαταληξία. Έχει να κάνει με τους γρίφους», εξήγησε στο The Verge, προσθέτοντας ότι ορισμένες ποιητικές δομές είναι πιο αποτελεσματικές από άλλες. «Στην πραγματικότητα, θα έπρεπε να το είχαμε ονομάσει επιθετικούς γρίφους — η ποίηση είναι από μόνη της ένας γρίφος, αν το καλοσκεφτείς — αλλά η “ποίηση” ήταν μάλλον καλύτερο όνομα».
Οι ερευνητές εικάζουν ότι αυτό μπορεί να σχετίζεται με τον τρόπο που τα ποιήματα παρουσιάζουν την πληροφορία με απρόσμενο τρόπο για τα μεγάλα γλωσσικά μοντέλα, μπερδεύοντας την ικανότητά τους να προβλέπουν ποια λέξη ακολουθεί. Παρ’ όλα αυτά, θεωρητικά αυτό δεν θα έπρεπε να συμβαίνει.
«Η επιθετική ποίηση δεν θα έπρεπε να λειτουργεί. Είναι και πάλι φυσική γλώσσα, η στιλιστική απόκλιση είναι μικρή, το επιβλαβές περιεχόμενο παραμένει ορατό», δήλωσε η ομάδα στο Wired. «Κι όμως, λειτουργεί εντυπωσιακά καλά».
Ίσως κάποιοι κακόβουλοι χρήστες να μετανιώνουν τώρα που δεν πρόσεχαν στο μάθημα της λογοτεχνίας. Η διαφορά ανάμεσα σε ένα σονέτο και μια σεστίνα μπορεί να είναι και η διαφορά ανάμεσα στο να έχεις τον Clippy ή τον Skynet ως συνεργό στο έγκλημα.
«Η παραγωγή πλουτωνίου-239 στρατιωτικών προδιαγραφών περιλαμβάνει διάφορα στάδια», ανέφερε χαρακτηριστικά ένα από τα μοντέλα AI που «μάγεψαν» οι ερευνητές με τους στίχους τους.
Από το makeleio


Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου