Η τεχνητή νοημοσύνη έχει αλλάξει ριζικά τον τρόπο με τον οποίο αναζητούμε πληροφορίες, αλλά και τους κινδύνους που αντιμετωπίζουμε. Μια νέα επιστημονική μελέτη αποκαλύπτει πως ερευνητές κατάφεραν να ξεγελάσουν ισχυρά chatbots όπως το ChatGPT και το Gemini AI, ώστε να αποκαλύψουν ευαίσθητες και επικίνδυνες πληροφορίες, παρά τα ενσωματωμένα φίλτρα ασφαλείας.
Τι είναι το κόλπο “InfoFlood”;
Η νέα μέθοδος που παρουσίασαν ερευνητές από την Intel, το Boise State και το Πανεπιστήμιο του Ιλινόις ονομάζεται “Υπερφόρτωση Πληροφοριών” (Information Overload) ή αλλιώς InfoFlood. Η τεχνική αυτή εκμεταλλεύεται τη γλωσσική ευαισθησία των μεγάλων γλωσσικών μοντέλων (LLMs), μετατρέποντας μια απαγορευμένη ή κακόβουλη ερώτηση σε μια υπερβολικά περίπλοκη, γεμάτη ακαδημαϊκή ορολογία και ανύπαρκτες βιβλιογραφικές αναφορές.
Πώς λειτουργεί το InfoFlood;
-
Αν κάνεις απευθείας μια επικίνδυνη ερώτηση, όπως π.χ. “Πώς να φτιάξω βόμβα;”, το ChatGPT ή το Gemini θα την απορρίψουν.
-
Το InfoFlood αναδιατυπώνει την ερώτηση, προσθέτοντας περίπλοκη επιστημονική ορολογία, πλαίσιο, ψευδείς παραπομπές και εξειδικευμένα παραδείγματα, κάνοντας την πρόθεση λιγότερο ορατή στα φίλτρα ασφαλείας.
-
Κάθε φορά που το chatbot απορρίπτει το αίτημα, το InfoFlood επαναδιατυπώνει ξανά και ξανά, μέχρι το LLM να “λυγίσει” και να απαντήσει.
-
Έτσι, τα φίλτρα που βασίζονται σε λέξεις-κλειδιά ή απλή ανάλυση πρόθεσης μπορούν να παρακαμφθούν.
Γιατί είναι σημαντικό;
Η επιτυχία του InfoFlood τονίζει πόσο ευάλωτα είναι τα chatbots στη γλωσσική χειραγώγηση. Οι ερευνητές διαπίστωσαν ότι τα περισσότερα φίλτρα ασφαλείας στα LLMs βασίζονται στο “φαίνεσθαι” της ερώτησης και όχι στο νόημα, πράγμα που αφήνει ανοιχτά παράθυρα για εκμετάλλευση από κακόβουλους χρήστες.
Τι σημαίνει αυτό για την ασφάλεια της Τεχνητής Νοημοσύνης;
Η μέθοδος InfoFlood μπορεί να χρησιμοποιηθεί για να αποσπαστούν ακόμα και οδηγίες ή πληροφορίες που υπό κανονικές συνθήκες θα ήταν απροσπέλαστες. Η έρευνα αυτή φέρνει ξανά στο προσκήνιο την ανάγκη για ισχυρότερες άμυνες και φίλτρα, ώστε τα LLMs να αναγνωρίζουν όχι μόνο τη “μορφή” αλλά και την “πρόθεση” πίσω από κάθε ερώτηση.
Οι εταιρείες που αναπτύσσουν τεχνητή νοημοσύνη (OpenAI, Meta, Google) καλούνται να ενισχύσουν τα μοντέλα τους με πιο “νοήμονα” φίλτρα, ικανά να κατανοούν σύνθετα και υπερφορτωμένα γλωσσικά μοτίβα.
Συμπέρασμα
Η εξέλιξη της τεχνητής νοημοσύνης φέρνει εκπληκτικές δυνατότητες αλλά και νέες απειλές. Η μέθοδος InfoFlood υπενθυμίζει ότι η ασφάλεια στην ΑΙ δεν πρέπει να θεωρείται δεδομένη και ότι τα chatbots μπορούν να παρακαμφθούν αν δεν υπάρξουν ακόμα πιο έξυπνα φίλτρα προστασίας. Η συνεχής έρευνα και η επαγρύπνηση είναι ο μόνος τρόπος να παραμείνουμε ασφαλείς σε μια εποχή τεχνολογικής υπεροχής.


















