Την Παρασκευή, η Google παρουσίασε το Robotics Transformer 2 (RT2), ένα προηγμένο μοντέλο VLA (Vision-Language-Action), ικανό να μεταφράζει κείμενο και εικόνες σε ρομποτικές ενέργειες.
Ο Vincent Vanhoucke, επικεφαλής του τμήματος ρομποτικής στο Google DeepMind, εξήγησε σε ένα blog post ότι το RT-2 μαθαίνει από τα δεδομένα του διαδικτύου για να καθοδηγήσει τη ρομποτική συμπεριφορά, παρόμοια με τον τρόπο που τα γλωσσικά μοντέλα απορροφούν κείμενο από το διαδίκτυο για να κατανοήσουν γενικές έννοιες. Χαριτολογώντας είπε: “Το RT-2 μπορεί να μιλήσει ρομποτικά”.
Σε αντίθεση με τα chatbots, τα οποία μπορούν να εκπαιδευτούν σε συγκεκριμένα θέματα, τα ρομπότ απαιτούν μια βαθύτερη σύνδεση με τον πραγματικό κόσμο, που αναφέρεται ως “γείωση”. Ο Vanhoucke χρησιμοποίησε το παράδειγμα ενός κόκκινου μήλου, εξηγώντας ότι ενώ ένα chatbot μπορεί να καταλάβει μια περιγραφή ενός μήλου, ένα ρομπότ πρέπει να το αναγνωρίσει, να το διαφοροποιήσει από παρόμοια αντικείμενα, όπως μια κόκκινη μπάλα, και να καταλάβει πώς να το χειριστεί.
Αυτό που διαφοροποιεί το RT-2 από τον προκάτοχό του, το RT-1, και άλλα μοντέλα είναι η ικανότητά του να χρησιμοποιεί δεδομένα από τον ιστό. Με τα προηγούμενα μοντέλα, χρειαζόταν ειδική εκπαίδευση για να μάθει ένα ρομπότ πώς να αναγνωρίζει και να απορρίπτει τα σκουπίδια, για παράδειγμα. Το RT-2, ωστόσο, μπορεί να διακρίνει μόνο του τι είναι τα σκουπίδια και πώς να τα διαχειριστεί, χρησιμοποιώντας πληροφορίες που συλλέγονται από το διαδίκτυο.
Διαβάστε επίσης – Prompt Engineering: Τι είναι και πως εφαρμόζεται