Από μια νίκη εναντίον των καλύτερων παικτών Go, για παράδειγμα, μέχρι πιο πρόσφατα, την πρόγνωση του καιρού με πρωτοφανή ακρίβεια, οι εξελίξεις στην Τεχνητή Νοημοσύνη συνεχίζουν να εκπλήσσουν. Ένα ακόμη πιο ανησυχητικό αποτέλεσμα είναι η δημιουργία εντυπωσιακά ρεαλιστικών εικόνων, που τροφοδοτούν μια κάποια σύγχυση μεταξύ αληθούς και ψευδούς. Αλλά πώς δημιουργούνται αυτόματα αυτές οι εικόνες;
Τα μοντέλα δημιουργίας εικόνων βασίζονται στη βαθιά μάθηση, δηλαδή σε πολύ μεγάλα νευρωνικά δίκτυα που μπορούν να φτάσουν σε αρκετά δισεκατομμύρια παραμέτρους. Ένα νευρωνικό δίκτυο μπορεί να θεωρηθεί ως μια συνάρτηση που θα συσχετίσει δεδομένα εισόδου με προβλέψεις εξόδου. Αυτή η συνάρτηση αποτελείται από ένα σύνολο παραμέτρων (αριθμητικών τιμών) αρχικά τυχαίων, τις οποίες το δίκτυο θα μάθει να διορθώνει μαθαίνοντας.
Για να δώσουμε μια τάξη μεγέθους, το μοντέλο Σταθερής Διάχυσης , ικανό να παράγει ρεαλιστικές εικόνες, αποτελείται από 8 δισεκατομμύρια παραμέτρους και το κόστος εκπαίδευσής του ανήλθε σε 600.000 δολάρια.
Αυτές οι παράμετροι πρέπει να μαθευτούν. Για να εξηγήσουμε τη μάθησή τους, μπορούμε να εξετάσουμε την απλούστερη περίπτωση της ανίχνευσης αντικειμένων από εικόνες. Μια εικόνα παρουσιάζεται ως είσοδος στο δίκτυο και το δίκτυο πρέπει να προβλέψει πιθανές ετικέτες αντικειμένων (αυτοκίνητο, άτομο, γάτα κ.λπ.) ως έξοδο.
Η μάθηση συνίσταται στη συνέχεια στην εύρεση ενός καλού συνδυασμού παραμέτρων που επιτρέπει την πιο σωστή δυνατή πρόβλεψη των αντικειμένων που υπάρχουν στις εικόνες. Η ποιότητα της μάθησης θα εξαρτηθεί κυρίως από την ποσότητα των δεδομένων με ετικέτα, το μέγεθος των μοντέλων και τη διαθέσιμη υπολογιστική ισχύ.
Στην περίπτωση της δημιουργίας εικόνων, θέλουμε κατά κάποιο τρόπο να ακολουθήσουμε την αντίστροφη διαδικασία: από ένα κείμενο που περιγράφει μια σκηνή, η έξοδος του μοντέλου αναμένεται να δημιουργήσει μια εικόνα που αντιστοιχεί σε αυτήν την περιγραφή, κάτι που είναι πολύ πιο περίπλοκο από την πρόβλεψη μιας ετικέτας.
Καταστρέψτε για να δημιουργήσετε
Καταρχάς, ας ξεχάσουμε το κείμενο και ας επικεντρωθούμε μόνο στην εικόνα. Αν η δημιουργία μιας εικόνας είναι μια πολύπλοκη διαδικασία ακόμη και για έναν άνθρωπο, η καταστροφή της (το αντίστροφο πρόβλημα) είναι ένα ασήμαντο πρόβλημα. Συγκεκριμένα, από μια εικόνα που αποτελείται από pixel, η τυχαία αλλαγή του χρώματος ορισμένων pixel αποτελεί μια απλή μέθοδο τροποποίησης.
Μπορούμε να παρουσιάσουμε ένα νευρωνικό δίκτυο με μια ελαφρώς τροποποιημένη εικόνα ως είσοδο και να του ζητήσουμε να προβλέψει την αρχική εικόνα ως έξοδο. Στη συνέχεια, μπορούμε να εκπαιδεύσουμε το μοντέλο ώστε να μάθει πώς να αφαιρεί τον θόρυβο από εικόνες, κάτι που αποτελεί το πρώτο βήμα προς τη δημιουργία εικόνων. Έτσι, αν ξεκινήσουμε από μια εικόνα με υψηλό θόρυβο και επαναλάβουμε την κλήση του μοντέλου διαδοχικά, θα λαμβάνουμε σε κάθε κλήση μια εικόνα που είναι όλο και λιγότερο θορυβώδης μέχρι να λάβουμε μια εικόνα εντελώς απαλλαγμένη από θόρυβο.
Αν υπερβάλουμε στη διαδικασία, θα μπορούσαμε στη συνέχεια να ξεκινήσουμε με μια εικόνα που αποτελείται εξ ολοκλήρου από θόρυβο (ένα χιόνι από τυχαία pixel), με άλλα λόγια μια εικόνα που δεν περιέχει τίποτα, και να επαναλάβουμε τις κλήσεις στο μοντέλο "αποθορυβοποίησης" μας για να καταλήξουμε σε μια εικόνα όπως αυτή που φαίνεται παρακάτω:
Στη συνέχεια, έχουμε μια διαδικασία ικανή να παράγει εικόνες αλλά περιορισμένου ενδιαφέροντος επειδή, ανάλογα με τον τυχαίο θόρυβο, μπορεί μετά από αρκετές επαναλήψεις να καταλήξει να παράγει οτιδήποτε ως εικόνα εξόδου. Χρειαζόμαστε λοιπόν μια μέθοδο για να καθοδηγήσουμε τη διαδικασία αποθορυβοποίησης και για αυτήν την εργασία θα χρησιμοποιηθεί κείμενο.
Από τον θόρυβο στην εικόνα
Για τη διαδικασία αποθορυβοποίησης χρειαζόμαστε εικόνες, οι οποίες προέρχονται από το διαδίκτυο και μας επιτρέπουν να αποτελέσουμε το σύνολο δεδομένων εκπαίδευσης. Για το κείμενο που απαιτείται για την καθοδήγηση της αποθορυβοποίησης, χρησιμοποιούνται απλώς οι λεζάντες των εικόνων που βρίσκονται στο Διαδίκτυο. Παράλληλα με την εκμάθηση της αποθορυβοποίησης εικόνας, συσχετίζεται ένα δίκτυο που αναπαριστά το κείμενο. Έτσι, όταν το μοντέλο μαθαίνει να αφαιρεί τον θόρυβο από μια εικόνα, μαθαίνει επίσης με ποιες λέξεις σχετίζεται αυτή η αφαιρεση θορύβου. Μόλις ολοκληρωθεί η εκπαίδευση, λαμβάνουμε ένα μοντέλο το οποίο, από ένα περιγραφικό κείμενο και τον συνολικό θόρυβο, θα εξαλείψει, με διαδοχικές επαναλήψεις, τον θόρυβο για να συγκλίνει προς μια εικόνα που ταιριάζει με την περιγραφή κειμένου.
Η διαδικασία εξαλείφει την ανάγκη για συγκεκριμένη χειροκίνητη επισήμανση. Τροφοδοτείται από τα εκατομμύρια εικόνες που σχετίζονται με τις λεζάντες τους που υπάρχουν ήδη στο διαδίκτυο. Τέλος, μια εικόνα αξίζει όσο χίλιες λέξεις, για παράδειγμα, η παραπάνω εικόνα δημιουργείται από το ακόλουθο κείμενο: "τηγανητά λουλούδια αυγών στον κήπο με το μπέικον" από το μοντέλο Σταθερής Διάχυσης.
Christophe Rodrigues , Λέκτορας-ερευνητής στην επιστήμη των υπολογιστών, Pôle Léonard de Vinci
Αυτό το άρθρο αναδημοσιεύεται από το The Conversation με άδεια Creative Commons. Διαβάστε το αρχικό άρθρο .