Sora: Η δημιουργία βίντεο είναι πλέον υπόθεση μερικών λέξεων

Το Sora, το νέο μοντέλο μετατροπής κειμένου σε βίντεο της OpenAI, είναι διαθέσιμο εδώ και λίγες εβδομάδες και παρά τα μικροπροβλήματά του, προσφέρει μια εικόνα από το μέλλον – και μαζί της μπόλικη τροφή για σκέψη.

Από τον Τίμο Κουρεμένο

Τα νέα για το Sora δεν είναι ακριβώς «φρέσκα» αφού η OpenAI είχε δώσει στη δημοσιότητα πέρυσι τον Φεβρουάριο ορισμένα ιδιαίτερα εντυπωσιακά demo από αυτά που – υποτίθεται πως – θα ήταν σε θέση να κάνει το μοντέλο.

Photo credit: Sora

Τι κάνει ένας δεινόσαυρος σε μια μεγαλούπολη; Η παραπάνω φωτογραφία αποτελεί στιγμιότυπο από ένα βίντεο παράδειγμα των δυνατοτήτων του Sora.

Η διάθεση του τελευταίου έγινε τον Δεκέμβριο του 2024 στους συνδρομητές Plus και Pro του ChatGPT σε επιλεγμένες χώρες, με την Ελλάδα να μη βρίσκεται στη σχετική λίστα προς το παρόν.

Τι είναι το Sora

Τι είναι όμως το Sora; Πρόκειται για ένα μοντέλο δημιουργικής τεχνητής νοημοσύνης (generative AI ή GenAI) βίντεο μικρής διάρκειας βάσει εντολών που δίνει ο χρήστης με τη μορφή κειμένου. Το περιβάλλον του είναι εξαιρετικά απλό, δίχως να απαιτεί την παραμικρή τεχνική ή εξειδικευμένη γνώση.

Ο χρήστης καλείται απλά να περιγράψει το αποτέλεσμα που θέλει, προσθέτοντας προαιρετικά κάποια εικόνα για ακόμα μεγαλύτερη ακρίβεια, να ορίσει κάδρο, ανάλυση και διάρκεια, με τους servers της OpenAI κατόπιν να αναλαμβάνουν να παραγάγουν το σχετικό περιεχόμενο.

Video credit: OpenAI

Μια μέρα στη ζωή ενός «εργαζόμενου» δελφινιού όπως τη φαντάστηκε και σχεδίασε με τη βοήθεια του Sora, η Liana Paberza, ιδρύτρια του Chimera Lab. Από την άλλη, μια ομάδα ερευνητών και ερευνητριών από το MIT, το Χάρβαρντ και το Πανεπιστήμιο της Καλιφόρνια, ανέπτυξε μία Δημιουργική Τεχνητή Νοημοσύνη η οποία προσομοιώνει μία πιθανή, μελλοντική εκδοχή του εαυτού μας. Διαβάστε περισσότερα στο άρθρο «Καλημέρα 2035: Έχετε μήνυμα από τον μελλοντικό εαυτό σας».

Τρόπος λειτουργίας & περιορισμοί

Προς ώρας οι περιορισμοί είναι αρκετοί, αφού τα βίντεο είναι χαμηλής ανάλυσης, ξεκινώντας από τα 480p και φτάνοντας τα 1080p (η μέγιστη ανάλυση μάλιστα είναι διαθέσιμη μόνο για τους συνδρομητές Pro) και διάρκειας έως και 20 δευτερόλεπτα. Ο χρήστης έχει στη διάθεσή του συγκεκριμένο αριθμό credits σε μηνιαία βάση, μετά τη χρήση των οποίων, στα βίντεο του θα δίνεται χαμηλότερη προτεραιότητα. Πέραν της παραγωγής πρωτότυπων βίντεο, το Sora δίνει τη δυνατότητα προσαρμογής υπαρχόντων που έχουν δημιουργηθεί μέσα από αυτό με εξαιρετικά απλό τρόπο.

Τα αποτελέσματα του Sora μέχρι στιγμής είναι ανάμεικτα. Σε κάποιες περιπτώσεις η δουλειά του είναι άκρως εντυπωσιακή, σε άλλες πάλι τα κλιπ του θυμίζουν τα πρώτα δείγματα γραφής της GenAI στις στατικές εικόνες. Το τελευταίο ήταν λίγο-πολύ αναμενόμενο, έστω κι αν οι – υπερβολικές, αν όχι ψευδείς – υποσχέσεις της OpenAI στο ξεκίνημα του 2024 έδιναν τελείως διαφορετική εικόνα. Η λογική λέει πως όσο το μοντέλο εκπαιδεύεται και οι αλγόριθμοι στους οποίους βασίζεται αναπτύσσονται, τόσο θα βελτιώνεται και η ποιότητα των αποτελεσμάτων του.

Το Sora δεν είναι το πρώτο μοντέλο στην εν λόγω κατηγορία. Οι συνεχείς καθυστερήσεις στην ανάπτυξή του, έδωσαν την ευκαιρία σε άλλες εταιρείες να λανσάρουν πρώτες τα δικά τους (Meta Movie Gen, Google Veo 2, Runway Gen-3 Alpha κ.α.). Ωστόσο η λύση της OpenAI αναμενόταν με μεγάλο ενδιαφέρον, δεδομένης της εμπειρίας της τελευταίας σε οτιδήποτε αφορά την τεχνητή νοημοσύνη.

Photo credit: Sora

Ένας αρκούδος που σερβίρει καφέ; Σύμφωνα με ορισμένους επιστήμονες, όταν τα ρομπότ θα μπορούν να ανταγωνιστούν την εμπειρία και τη φινέτσα ενός ή μίας barista προκειμένου να μας ετοιμάσουν και να μας σερβίρουν ένα φλυτζάνι φρέσκου καφέ, θα είναι πλέον σε θέση να «αισθάνονται, να σκέφτονται και να ενεργούν» ακριβώς όπως ένας άνθρωπος. Διαβάστε περισσότερα στο άρθρο «Πόσο έξυπνη είναι η Τεχνητή Νοημοσύνη; Το τεστ του καφέ».

Πλεονεκτήματα & ερωτηματικά

Οι δε εφαρμογές που μπορεί να έχει η ευρύτερη υιοθέτηση τέτοιων μοντέλων είναι πολλές. Οι δημιουργοί περιεχομένου θα έχουν την ευκαιρία να εμπλουτίσουν τις παραγωγές τους με μικρό κόστος, ο οποιοσδήποτε θα μπορεί να δημιουργήσει μία ταινία μικρού μήκους βγάζοντας τον σκηνοθέτη που κρύβει μέσα του, ενώ η εξυπηρέτηση πελατών θα γίνει ακόμα πιο αποτελεσματική με βίντεο που περιγράφουν αναλυτικά συγκεκριμένες διαδικασίες.

Φυσικά, τα ερωτήματα που αφορούν τη GenAI γενικότερα, βρίσκουν απόλυτη εφαρμογή και στον τομέα του βίντεο (και στο Sora) παρ’ ό,τι η OpenAI έχει θέσει αρκετούς περιορισμούς ως προς το τι είναι σε θέση να εισάγει και να ζητήσει ο χρήστης. Τι αντίκτυπο θα έχει αυτή η εξέλιξη στην παραπληροφόρηση; Θα οδηγήσει στη γιγάντωση προβλημάτων και φαινομένων όπως οι κάθε λογής απάτες και η ρητορική μίσους; Ένα βίντεο που έχει δημιουργηθεί μέσω Sora υπόκειται σε πνευματικά δικαιώματα;

Καθώς οι δυνατότητες των μοντέλων GenAI βίντεο θα βελτιώνονται με τα χρόνια, τα παραπάνω θα μας απασχολούν ολοένα και περισσότερο. Για την ώρα, μπορούμε απλά να πειραματιστούμε με το Sora, όταν αυτό διατεθεί και στην Ελλάδα.