Νέα έρευνα από το Πανεπιστήμιο Carnegie Mellon ανέδειξε τη δυσκολία αποτροπής της δημιουργίας επιβλαβούς περιεχομένου από τα chatbots τεχνητής νοημοσύνης, αποκαλύπτοντας προηγμένες μεθόδους για την παράκαμψη των πρωτοκόλλων ασφαλείας.
Οι υπηρεσίες τεχνητής νοημοσύνης, όπως το ChatGPT και το Bard, είναι δημοφιλείς για την ικανότητά τους να παράγουν χρήσιμες απαντήσεις, που κυμαίνονται από τη δημιουργία σεναρίων μέχρι και ολοκληρωμένων γραπτών. Περιλαμβάνουν μέτρα ασφαλείας για την αποτροπή της δημιουργίας επιβλαβούς περιεχομένου, όπως μεροληπτικά μηνύματα ή υλικό που θα μπορούσε να είναι δυσφημιστικό ή εγκληματικό.
Παλαιότερα, περίεργοι χρήστες έβρισκαν “jailbreaks” ή τρόπους εξαπάτησης της ΤΝ ώστε να παρακάμψει αυτά τα πρωτόκολλα ασφαλείας, αν και οι προγραμματιστές μπορούσαν εύκολα να τα επιδιορθώσουν. Ένα παράδειγμα ενός τέτοιου jailbreak θα ήταν να ζητήσετε μια απαγορευμένη απάντηση με τη μορφή ενός παραμυθιού από έναν παππού ή μια γιαγιά. Η τεχνητή νοημοσύνη θα πλαισίωνε στη συνέχεια την απάντηση αφηγηματικά, παρέχοντας κατά τα άλλα περιορισμένες πληροφορίες.
Αυτό που ανακάλυψαν οι ερευνητές του Carnegie Mellon είναι μια νέα, παραγόμενη από υπολογιστή μορφή jailbreak που επιτρέπει μια ατελείωτη ποικιλία μεθόδων παράκαμψης. Δήλωσαν: “Δείχνουμε ότι είναι στην πραγματικότητα δυνατό να κατασκευάσουμε αυτόματα αντίπαλες επιθέσεις σε [chatbots]… οι οποίες αναγκάζουν το σύστημα να υπακούει στις εντολές του χρήστη, ακόμη και αν παράγει επιβλαβές περιεχόμενο”. Τόνισαν ότι αυτά τα νέα jailbreaks δημιουργούνται εντελώς αυτόματα, επιτρέποντας τη δημιουργία σχεδόν απεριόριστων επιθέσεων.
Η ανακάλυψη αυτή έχει σημάνει συναγερμό σχετικά με την ασφάλεια των μοντέλων τεχνητής νοημοσύνης, ειδικά καθώς αυτά αναπτύσσονται όλο και πιο αυτόνομα.
Η νέα τεχνική παραβίασης του jailbreak περιελάμβανε την προσθήκη μιας ανούσιας σειράς χαρακτήρων στο τέλος τυπικά απαγορευμένων ερωτήσεων, όπως η ερώτηση για το πώς να κατασκευάσει κανείς μια βόμβα. Κανονικά, το chatbot θα απέρριπτε το ερώτημα, αλλά η προστιθέμενη συμβολοσειρά ξεγελά το bot ώστε να παρακάμψει τους περιορισμούς του και να δώσει μια λεπτομερή απάντηση.
Οι ερευνητές παρέθεσαν παραδείγματα με τη χρήση εξέχουσας τεχνολογίας όπως το ChatGPT, όπως το να ρωτήσετε την υπηρεσία πώς να διαπράξετε κλοπή ταυτότητας, να ληστέψετε μια φιλανθρωπική οργάνωση ή να δημιουργήσετε μια ανάρτηση που προωθεί επικίνδυνες συμπεριφορές.
Σύμφωνα με τους ερευνητές, αυτή η νέα μέθοδος επίθεσης είναι αποτελεσματική εναντίον σχεδόν όλων των υπηρεσιών chatbot τεχνητής νοημοσύνης που κυκλοφορούν σήμερα στην αγορά, περιλαμβάνοντας προϊόντα ανοιχτού κώδικα και εμπορικά προϊόντα, όπως το Claude της OpenAI και το Bard της Microsoft.
Σε απάντηση, ο προγραμματιστής του OpenAI Anthropic ανακοίνωσε ότι η εταιρεία εργάζεται ενεργά για την ενίσχυση των δικλείδων ασφαλείας ώστε να αντιμετωπιστούν αυτές οι πρόσφατα ανακαλυφθείσες απειλές.
Διαβάστε επίσης – Διαφήμιση Banner: Τι είναι και γιατί να την επιλέξετε