Ο Mati Staniszewski αυτή την εβδομάδα θα υπογράψει μνημόνιο συνεργασίας με την ελληνική κυβέρνηση, με στόχο την αξιοποίηση προϊόντων της ElevenLabs σε ψηφιακές δημόσιες υπηρεσίες, στον τουρισμό και στην πολιτιστική διατήρηση.
Στην Ευρώπη έχουμε απίστευτους ανθρώπους, και αυτοί οι άνθρωποι θέλουν να δουλέψουν σε φιλόδοξα projects. Παλαιότερα υπήρχαν λιγότερες ευκαιρίες για να δουλέψεις στην αιχμή της τεχνολογίας. Ελπίζω ότι η ElevenLabs είναι μία από αυτές τις ευκαιρίες —και πιστεύω ότι είναι.
Ο Mati Staniszewski βρίσκεται αυτή την εβδομάδα στην Αθήνα για δύο λόγους: για να ανέβει στη σκηνή στα Panathēnea ως κεντρικός ομιλητής, αλλά και για να υπογράψει μνημόνιο συνεργασίας με την ελληνική κυβέρνηση, με στόχο την αξιοποίηση προϊόντων της ElevenLabs σε ψηφιακές δημόσιες υπηρεσίες, στον τουρισμό και στην πολιτιστική διατήρηση. Το τελευταίο, όπως λέει στο WIRED Greece, θα μπορούσε να αποτελέσει «το μεγαλύτερο πρόγραμμα τέτοιας κλίμακας» για την εταιρεία.
Λίγο πριν τη συνάντησή του με την Αθήνα, μιλήσαμε για το πώς χτίζεται ένας ευρωπαϊκός AI γίγαντας, για το αν η φωνή είναι το επόμενο μεγάλο interface του ψηφιακού κόσμου, και για το πώς η τεχνητή νοημοσύνη μπορεί να μεταμορφώσει από τις δημόσιες υπηρεσίες μέχρι τη διάσωση γλωσσικών διαλέκτων.
— Πάντα έβρισκα ενδιαφέρον πως η ιστορία της ElevenLabs ξεκινά, κατά κάποιον τρόπο, από μια παιδική ενόχληση: το κακό dubbing στις ξένες ταινίες. Περιέγραψέ μου την στιγμή που άναψε τη σπίθα; Και πώς φτάσατε, ξεκινώντας το 2022 από την Πολωνία, να χτίσετε μια εταιρεία τέτοιας κλίμακας;
Ξεκινήσαμε το 2022, αλλά στην πραγματικότητα η ιστορία αρχίζει 17 χρόνια πριν, όταν γνώρισα τον συνιδρυτή μου, τον Piotr. Γίναμε κολλητοί στο λύκειο, κάναμε τα ίδια μαθήματα, δουλέψαμε, σπουδάσαμε και ζήσαμε μαζί για χρόνια.
Ο Piotr ακολούθησε την διαδρομή της έρευνας. Είναι ένας από τους κορυφαίους ερευνητές στον χώρο του audio AI και έχει συγκεντρώσει μερικούς από τους καλύτερους ανθρώπους στο πεδίο για να χτίσουν foundation models. Το δικό μου υπόβαθρο είναι περισσότερο στα μαθηματικά, στο product και στην εφαρμογή αυτής της τεχνολογίας σε πελάτες σε όλο τον κόσμο.
Η έμπνευση ήρθε από την Πολωνία, από όπου καταγόμαστε και οι δύο. Εκεί συμβαίνει κάτι πολύ ιδιαίτερο: όταν βλέπεις μια ξένη ταινία ή ξένο περιεχόμενο στα πολωνικά, όλες οι φωνές, ανδρικές και γυναικείες, αποδίδονται από έναν μόνο αφηγητή. Όλο το συναίσθημα, όλος ο τόνος, όλη η ερμηνεία εξαφανίζονται. Όλοι στην Πολωνία μεγαλώσαμε με αυτό. Και συμβαίνει ακόμη.
Όταν ο Piotr δούλευε στη Google και εγώ στην Palantir, έγινε σαφές ότι στο μέλλον ο τρόπος με τον οποίο φτάνει το περιεχόμενο σε κοινά σε όλο τον κόσμο θα αλλάξει. Όσο το ψάχναμε βαθύτερα, συνειδητοποιήσαμε ότι το πρόβλημα δεν περιοριζόταν στο dubbing. Αφορά συνολικά τον ήχο. Λιγότερο από το 1% των βιβλίων γινόταν audiobook. Τα γλωσσικά εμπόδια δεν θα έπρεπε να υπάρχουν. Και, ίσως ακόμη πιο σημαντικό, ο τρόπος με τον οποίο θα επικοινωνούμε με ψηφιακές συσκευές —και στο μέλλον με ρομπότ— θα αλλάξει. Η φωνή και η τεχνητή νοημοσύνη θα παίξουν τεράστιο ρόλο σε αυτό.
Σήμερα, η ElevenLabs συνδυάζει αυτά τα δύο πράγματα: χτίζουμε foundation models για τον ήχο και προϊόντα που πηγαίνουν πέρα από τον ήχο, συνδυάζοντάς τον με νοημοσύνη. Αυτό μπορεί να σημαίνει conversational agents για υποστήριξη πελατών, πωλήσεις ή λειτουργίες, ή εργαλεία δημιουργίας, αφήγησης και localization για marketing και περιεχόμενο.
— Πόσο αισιόδοξος είσαι ότι η Ευρώπη μπορεί σήμερα να χτίσει περισσότερες εταιρείες τέτοιας κλίμακας; Είναι η εποχή της τεχνητής νοημοσύνης μια ευκαιρία για ευρωπαϊκές ιδέες να κάνουν άλμα και να γίνουν παγκόσμιοι παίκτες;
Απολύτως. Ένα από τα πράγματα που αλλάζει η τεχνητή νοημοσύνη είναι η εξίσωση του πώς μπορείς να χτίσεις μια παγκόσμια εταιρεία από οπουδήποτε. Έχεις πρόσβαση σε απίστευτη τεχνολογία και μπορείς να απευθυνθείς σε παγκόσμιες αγορές από την πρώτη μέρα.
Αυτό είναι το πρώτο συγκεκριμένο πράγμα που θα έλεγα σε κάποιον που χτίζει από την Ευρώπη: δεν πρέπει να σκέφτεσαι μόνο τη δική σου αγορά. Μπορείς από την πρώτη μέρα να σκέφτεσαι πώς θα αναπτύξεις τη δουλειά σου στις ΗΠΑ, στην Ασία, στη Λατινική Αμερική.
Το δεύτερο είναι το ταλέντο. Στην Ευρώπη έχουμε απίστευτους ανθρώπους, και αυτοί οι άνθρωποι θέλουν να δουλέψουν σε φιλόδοξα projects. Παλαιότερα υπήρχαν λιγότερες ευκαιρίες για να δουλέψεις στην αιχμή της τεχνολογίας. Ελπίζω ότι η ElevenLabs είναι μία από αυτές τις ευκαιρίες —και πιστεύω ότι είναι. Βλέπουμε όμως όλο και περισσότερες τέτοιες εταιρείες στην Ευρώπη.
Το τρίτο είναι ότι για εμάς η ιστορία της ElevenLabs δεν θα μπορούσε να είχε συμβεί αλλού. Η Ευρώπη, με τον αριθμό των γλωσσών και των διαλέκτων της, μας άνοιξε τα μάτια για το πόσο μεγάλο είναι το πρόβλημα και πώς μπορεί να λυθεί τεχνολογικά.
Στον ήχο, δεν μπορείς να αντιμετωπίσεις τις άλλες γλώσσες ως κάτι που θα προσθέσεις εκ των υστέρων. Δεν μπορείς να ξεκινήσεις εύκολα μόνο από τα αγγλικά και μετά απλώς να κλιμακώσεις. Πρέπει από την αρχή να χτίσεις την αρχιτεκτονική και τα data pipelines ώστε να μπορείς να υποστηρίξεις πολλές γλώσσες. Αυτό κάναμε κι εμείς. Και νομίζω ότι το ίδιο μάθημα ισχύει και σε άλλους τομείς.
— Όταν ο κόσμος σκέφτεται σήμερα την τεχνητή νοημοσύνη, συνήθως σκέφτεται τα μεγάλα γλωσσικά μοντέλα. Πώς συγκρίνονται τα audio models με τα LLMs; Και τι είναι αυτό που κάνει μια συνθετική φωνή να ακούγεται τόσο ανθρώπινη;
Όταν χτίζεις οποιοδήποτε AI model, έχεις τρεις μεγάλες προκλήσεις: compute, δεδομένα και αρχιτεκτονική. Στον χώρο των LLMs ή των visual models, το bottleneck είναι συχνά το compute ή τα δεδομένα. Στον ήχο, το μεγαλύτερο εμπόδιο είναι η έρευνα και η αρχιτεκτονική. Εκεί είναι που φαίνεται η ιδιοφυΐα του Piotr και της ερευνητικής μας ομάδας — ένας από τους lead research engineers μας, μάλιστα, είναι Έλληνας.
Όπως και στα LLMs, έτσι και στον ήχο χρειάζεται να κάνεις «tokenize» τον χώρο. Πρέπει να βρεις πώς θα κωδικοποιήσεις και θα αποκωδικοποιήσεις το waveform, δηλαδή το κύμα του ήχου, με πιο έξυπνο τρόπο. Αλλά στον ήχο έχεις επιπλέον πολυπλοκότητα. Δεν χρειάζεται μόνο να καταλάβεις το ύφος της ομιλίας, τον τόνο, το συναίσθημα. Πρέπει να αποκωδικοποιήσεις και τον ίδιο τον ομιλητή: τη διάλεκτο, τη γλώσσα, την ηλικία, το φύλο, χαρακτηριστικά που δεν υπάρχουν με τον ίδιο τρόπο σε ένα text model.
Οι δύο βασικές καινοτομίες που φέραμε όταν ξεκινήσαμε ήταν, πρώτον, η κατανόηση του context. Με βάση το περιεχόμενο του κειμένου, το μοντέλο μπορούσε να αποδώσει τον σωστό τόνο και συναίσθημα. Δεύτερον, βρήκαμε έναν τρόπο να παίρνουμε μια φωνή χωρίς να της «λέμε» ρητά τα χαρακτηριστικά της και να αφήνουμε το ίδιο το μοντέλο να τα αποκωδικοποιεί.
Σήμερα έχουμε επεκταθεί πολύ πέρα από το text-to-speech. Δουλεύουμε και στο transcription, δηλαδή στο πώς κατανοούμε καλύτερα τον ήχο, αλλά και στους voice agents. Αυτό είναι ίσως το πιο συναρπαστικό πρόσφατο κομμάτι: ο συνδυασμός audio models και LLMs σε κάτι που δεν έχει μόνο IQ αλλά και EQ. Ένας agent μπορεί να καταλάβει τα συναισθήματα της άλλης πλευράς και να απαντήσει ανάλογα. Αν κάποιος είναι στρεσαρισμένος, μπορεί να απαντήσει πιο ήρεμα. Αν κάποιος ζητά να μιλά πιο αργά, μπορεί να το καταλάβει και να προσαρμοστεί.
— Έχετε ήδη δουλέψει με κυβερνήσεις και δημόσιους φορείς, από την Πολωνία και τη Γαλλία μέχρι την Ουκρανία. Ποια projects ξεχωρίζεις; Και ποια είναι η φιλοσοφία πίσω από τη συνεργασία σας με τον δημόσιο τομέα;
Ένα από τα πιο ενδιαφέροντα πράγματα είναι όταν βλέπεις ένα πρόβλημα που υπάρχει πραγματικά και μπορείς να το λύσεις στην πράξη. Στον δημόσιο τομέα, πολλά προβλήματα έχουν να κάνουν με χωρητικότητα: πόσοι άνθρωποι υπάρχουν, πόσες υπηρεσίες πρέπει να εξυπηρετηθούν, πόσες κλήσεις μένουν αναπάντητες.
Ένα καλό παράδειγμα είναι η Τσεχία. Υπάρχει ένας φορέας που παρέχει πληροφορίες στους πολίτες για επιδόματα, εργασία και άλλες υπηρεσίες. Πριν συνεργαστούμε, περίπου το 40% των κλήσεων έμενε αναπάντητο. Δημιουργήσαμε έναν voice agent που μπορεί να απαντά σε αυτές τις κλήσεις και να παρέχει πληροφορίες. Σήμερα, πάνω από το 98% των κλήσεων περνάει από τον voice agent και περίπου το 80% διαχειρίζεται πλήρως από AI, ενώ οι υπόλοιπες περιπτώσεις προωθούνται σε ανθρώπους για πιο εξειδικευμένη βοήθεια. Μιλάμε για περίπου 5.000 κλήσεις την ημέρα.
Το συναρπαστικό είναι ότι αυτό μπορεί να γίνει όχι μόνο αντιδραστικά, αλλά και προληπτικά. Αν έχεις αφήσει τα στοιχεία σου και προκύψει μια νέα ευκαιρία ή παροχή που σε αφορά, ένας agent μπορεί να σε καλέσει πίσω.
Βλέπουμε παρόμοιες ανάγκες στα εθνικά συστήματα υγείας. Άνθρωποι προσπαθούν να κλείσουν ραντεβού, περιμένουν στην ουρά, ξεχνούν τα ραντεβού τους, χρειάζονται υπενθυμίσεις ή follow-up μετά από μια επίσκεψη. Μόλις ανακοινώσαμε, μάλιστα, τη συνεργασία μας με το πολωνικό εθνικό σύστημα υγείας για έναν νέο voice agent στον χώρο της υγείας.
Η Ουκρανία είναι ένα διαφορετικό παράδειγμα. Με τον πόλεμο, οι άνθρωποι χρειάζονται πρόσβαση σε πληροφορίες — όχι μόνο για το τι συμβαίνει, αλλά και για την εκπαίδευση, για διαθέσιμα προγράμματα, για βασικές υπηρεσίες. Η κυβέρνηση έχει δημιουργήσει το Diia, μια κεντρική εφαρμογή μέσω της οποίας οι πολίτες μπορούν να λαμβάνουν πολλές από αυτές τις πληροφορίες. Συνεργαζόμαστε μαζί τους ώστε αυτές οι υπηρεσίες να γίνουν ακόμη πιο προσβάσιμες μέσω φωνής: να μπορείς να καλείς, να αλληλεπιδράς φωνητικά ή να λαμβάνεις φωνητικές ειδοποιήσεις.
— Είναι εντυπωσιακό πως ακόμα και σε περίοδο πολέμου η Ουκρανία καινοτομεί στο κομμάτι της προσβασιμότητας. Ας περάσουμε στην Ελλάδα: τι μπορείς να μοιραστείς για το μνημόνιο συνεργασίας με την ελληνική κυβέρνηση που υπογράφετε σήμερα; Ποιες θα είναι οι βασικές περιοχές εφαρμογής;
Πρώτα απ’ όλα, συμφωνώ απολύτως με αυτό που είπες για την Ουκρανία. Είναι εντυπωσιακό το πώς, παρά όσα συμβαίνουν, συνεχίζει να ηγείται σε θέματα ψηφιακής καινοτομίας. Αλλά, με κάθε ειλικρίνεια, και η δική σας κυβέρνηση είναι πολύ τεχνική και πολύ γρήγορη στο πώς σκέφτεται την αλλαγή που φέρνει το AI. Αυτό που κάνετε ήδη με το Gov.gr είναι ένα πολύ καλό παράδειγμα.
Η Ελλάδα έχει πολλές μοναδικές διαλέκτους και μια πολύ βαθιά γλωσσική κληρονομιά. Θέλουμε να βοηθήσουμε ώστε αυτές οι φωνές, αυτές οι διάλεκτοι, να διατηρηθούν και να γίνουν προσβάσιμες.
Για εμάς υπάρχουν τρεις περιοχές στις οποίες θα εμβαθύνουμε στο πλαίσιο του μνημονίου συνεργασίας. Η πρώτη είναι οι ψηφιακές υπηρεσίες. Θέλουμε να προσθέσουμε φωνή στις 2.200 υπηρεσίες που υπάρχουν στο Gov.gr, ώστε οι πολίτες να μπορούν να τις χρησιμοποιούν με πιο προσβάσιμο τρόπο: μέσω τηλεφώνου, μέσω website, μέσα από ένα πιο φυσικό interface.
Ένα από τα δύσκολα σημεία σε τέτοιες εμπειρίες είναι το πώς βρίσκεις την πληροφορία που χρειάζεσαι. Στο agentic μέλλον, θα μπορείς ιδανικά να ανοίγεις ένα site, να λες τι χρειάζεσαι και το site να σε κατευθύνει αυτόματα στο σωστό σημείο και να σε βοηθά να ολοκληρώσεις την υπηρεσία.
Η δεύτερη περιοχή είναι ο τουρισμός. Πώς μπορούμε να βοηθήσουμε τον ψηφιακό τουρισμό μέσω voice AI; Μπορεί κανείς να φανταστεί tour guides σε διαφορετικές περιοχές της Ελλάδας, μέσα από τα ακουστικά σου, που σε βοηθούν να καταλάβεις τι βλέπεις και πού βρίσκεσαι.
Η τρίτη περιοχή είναι η πολιτιστική διατήρηση. Η Ελλάδα έχει πολλές μοναδικές διαλέκτους και μια πολύ βαθιά γλωσσική κληρονομιά. Θέλουμε να βοηθήσουμε ώστε αυτές οι φωνές, αυτές οι διάλεκτοι, να διατηρηθούν και να γίνουν προσβάσιμες.
Αυτές είναι οι τρεις βασικές περιοχές: δημόσιες υπηρεσίες, τουρισμός και πολιτιστική διατήρηση.
— Το τρίτο κομμάτι είναι ιδιαίτερα ενδιαφέρον, ειδικά αν σκεφτεί κανείς ότι πολλές διάλεκτοι δεν υπάρχουν κυρίως σε γραπτή μορφή. Υπάρχουν προφορικά. Αυτό μοιάζει με φυσικό πεδίο εφαρμογής για ένα audio model. Έχετε κάνει κάτι αντίστοιχο στο παρελθόν;
Σε αυτή την κλίμακα όχι, θα είναι η πρώτη φορά.
Πέρα από αυτό, θέλω να κάνω και μια αναφορά και στο ελληνικό στοιχείο της ElevenLabs, ανθρώπους σαν τον Πιέρη Χριστοφή, ελληνοκύπριο Forward Deployed Engineer, και τον Άγγελο Περιβολαρόπουλο, Research Engineer, που βρίσκονται πίσω από ένα κομμάτι της τεχνολογίας φωνής που αναπτύσσει σήμερα η ElevenLabs. Είναι από τους πιο παθιασμένους και πιο συναρπαστικούς ανθρώπους με τους οποίους έχουμε τη χαρά και το προνόμιο να δουλεύουμε.
— Πού βρίσκεται σήμερα η αιχμή της τεχνολογίας στους voice agents; Και ποιες είναι οι πιο υποτιμημένες ευκαιρίες για μεγάλες εταιρείες ή για founders που θέλουν να καινοτομήσουν σε αυτόν τον χώρο;
Αυτό που βλέπουμε καθαρά είναι ότι υπάρχουν use cases στα οποία οι voice agents μπορούν να λύσουν προβλήματα πολύ καλύτερα από ό,τι γινόταν μέχρι σήμερα. Όλοι ξέρουμε το παλιό IVR: καλείς, πατάς 1 για αυτό, 2 για εκείνο. Αυτό εξαφανίζεται — και εξαφανίζεται γρήγορα.
Το βλέπουμε ήδη και στην Ελλάδα. Η Alpha Bank έχει αναπτύξει customer support σε περίπου 20 τραπεζικά τμήματα, στα ελληνικά και στα αγγλικά. Ο Όμιλος Σφακιανάκη χρησιμοποιεί voice agents για inbound και outbound customer interactions. Η Box Now, το μεγαλύτερο δίκτυο parcel lockers, χρησιμοποιεί αντίστοιχες λύσεις για υποστήριξη πελατών: πού είναι το δέμα μου, πώς το παραλαμβάνω, ποιος είναι ο κωδικός μου.
Σε χώρους όπως η εκπαίδευση, η υγεία ή η εργασία πεδίου, όπου δεν μπορείς πάντα να αλληλεπιδράς με ένα παραδοσιακό text interface, η φωνή θα γίνει κεντρικό στοιχείο. Νομίζω ότι είμαστε πολύ κοντά στο να γίνει αυτό η νέα πραγματικότητα.
Η υποστήριξη πελατών έχει περάσει το κατώφλι αυτό. Είναι πλέον πολύ καλύτερη από ό,τι υπήρχε πριν. Οι άνθρωποι μπορούν να παίρνουν άμεση πληροφορία και βοήθεια, είτε αντιδραστικά, όταν έχουν ένα πρόβλημα, είτε προληπτικά, μέσα από υπενθυμίσεις ή follow-up.
Το επόμενο όριο είναι να περάσουμε από την υποστήριξη πελατών σε ολόκληρη την εμπειρία του καταναλωτή. Ο στόχος μας για φέτος είναι να περάσουμε το Turing test για voice agents σε όλες τις συνθήκες.
— Βρισκόμαστε, λοιπόν, σε σημείο αλλαγής interface; Μετά το κείμενο, έρχεται η φωνή;
Δεν νομίζω ότι θα είναι μόνο φωνή. Θα έχουμε συνδυασμό κειμένου, φωνής και εικόνας. Υπάρχουν περιπτώσεις όπου το κείμενο είναι καλύτερο και άλλες όπου η φωνή είναι καλύτερη.
Αλλά το σημερινό interface δεν είναι κατάλληλο για πολλά πράγματα. Αν συμπληρώνεις μια φόρμα, είναι πολύ πιο εύκολο να το κάνεις με φωνή. Ακόμη και στη δική μας συζήτηση, μέσα από τη φωνή μπορείς να μεταφέρεις πολύ περισσότερη πληροφορία από ό,τι με το κείμενο.
Σε χώρους όπως η εκπαίδευση, η υγεία ή η εργασία πεδίου, όπου δεν μπορείς πάντα να αλληλεπιδράς με ένα παραδοσιακό text interface, η φωνή θα γίνει κεντρικό στοιχείο. Νομίζω ότι είμαστε πολύ κοντά στο να γίνει αυτό η νέα πραγματικότητα.
Το μεγάλο τεχνικό ζήτημα είναι πώς συνδυάζεις την ποιότητα της φωνής με την πληροφορία: την ενσωμάτωση με τα τοπικά συστήματα, το context του ποιος καλεί, και έναν αξιόπιστο μηχανισμό που επιστρέφει τη σωστή πληροφορία στον χρήστη.
— Ρωτήσαμε τους αναγνώστες μας τι θα ήθελαν να ρωτήσουν τον CEO μιας κορυφαίας ευρωπαϊκής AI εταιρείας. Μία από τις ερωτήσεις ήταν: υπάρχει κάποια απόφαση που μετανιώνεις περισσότερο στην πορεία της ElevenLabs; Και τι σου έμαθε για τις αποφάσεις που παίρνεις σήμερα;
Η συνηθισμένη μου απάντηση είναι η ταχύτητα. Υπήρχαν πράγματα που θα ήθελα να είχαμε κάνει πιο γρήγορα. Σε σχεδόν κάθε περίπτωση, όταν ξέραμε ότι κάτι έπρεπε να γίνει, θα έπρεπε να το είχαμε κάνει νωρίτερα.
Ένα απλό παράδειγμα: λανσάραμε κάποτε ένα προϊόν που δεν δούλευε τόσο καλά. Θα έπρεπε να το είχαμε κλείσει γρηγορότερα, αντί να συνεχίσουμε να το κρατάμε.
Υπάρχει και κάτι ακόμη. Πιστεύω ότι οι εταιρείες στον χώρο του AI —είτε είναι καθαρά AI εταιρείες είτε όχι— μπορούν να πάνε πολύ καλά όταν έχουν μικρές ομάδες που δουλεύουν ανεξάρτητα, σαν μικρά speedboats. Αυτό τις βοηθά να υιοθετούν γρηγορότερα την τεχνολογία, δίνει μεγαλύτερη αίσθηση ιδιοκτησίας και τις κάνει να κινούνται πιο γρήγορα. Σε κάποια φάση, βάλαμε ίσως περισσότερη δομή από όση χρειαζόταν. Οι μικρές ομάδες ήταν από την αρχή πολύτιμες — και έπρεπε να μείνουμε ακόμη πιο πιστοί σε αυτόν τον κανόνα.
— Ένας άλλος αναγνώστης ανησυχεί για τις επιπτώσεις στην αγορά εργασίας. Ρωτά τι θα έλεγες σε κάποιον που εργάζεται σε έναν κλάδο που αλλάζει εξαιτίας της τεχνολογίας σας — για παράδειγμα σε έναν voice actor που φοβάται ότι μπορεί να χάσει τη δουλειά του; Υπάρχει τρόπος το AI να ενισχύσει, αντί απλώς να αντικαταστήσει, τη δουλειά του;
Το βασικό είναι ότι οι άνθρωποι που υιοθετούν το AI θα επηρεάσουν, φυσικά, εκείνους που δεν το υιοθετούν. Με κάποιον τρόπο, οι άνθρωποι που δουλεύουν με AI θα αντικαταστήσουν ανθρώπους που δεν δουλεύουν με AI.
Αυτό που θέλουμε να κάνουμε είναι να βρούμε τρόπους ώστε οι άνθρωποι να μπορούν να συμμετέχουν σε αυτή την αλλαγή μέσα από την πλατφόρμα μας. Ένα καλό παράδειγμα είναι το Voice Marketplace. Μπορείς να δημιουργήσεις τη φωνή σου, εμείς την πιστοποιούμε, μπορείς να τη διαθέσεις και, όταν χρησιμοποιείται η AI φωνή σου, λαμβάνεις αποζημίωση.
Είναι ένα μοντέλο royalties — και είναι κάτι που δεν υπήρχε μέχρι τώρα σε αυτόν τον χώρο. Προσπαθούμε να κάνουμε κάτι αντίστοιχο και σε άλλα κομμάτια, όπως τα agent templates.
Αυτό ανοίγει νέες ευκαιρίες. Αν η φωνή σου είναι ξεχωριστή, αυτό αποκτά αξία. Ξαφνικά μπορείς να «μιλήσεις» άλλες γλώσσες. Μπορείς να δημιουργήσεις όχι μόνο στατικό περιεχόμενο, αλλά και διαδραστικό περιεχόμενο. Οι voice agents δεν θα μπορούσαν να υπάρξουν χωρίς φωνές.
Βέβαια, πολλές δουλειές θα αλλάξουν. Κάποιες θα εξαφανιστούν και άλλες, εντελώς νέες, θα δημιουργηθούν. Αυτό που προσπαθούμε να κάνουμε ως εταιρεία είναι να βοηθήσουμε ανθρώπους που ήδη ανήκουν σε αυτό το οικοσύστημα να γίνουν μέρος της λύσης και να βρούμε μαζί νέα επιχειρηματικά μοντέλα.
— Μίλησες πριν για την ταχύτητα. Στην εποχή του AI, οι εταιρείες πρέπει να κινούνται γρήγορα για να επιβιώσουν. Είναι όμως δυνατόν να χτίζεις με τέτοια ταχύτητα και ταυτόχρονα να διατηρείς την ασφάλεια στο προϊόν;
Είναι βασική ευθύνη όταν αναπτύσσεις μια τέτοια τεχνολογία. Ως μία από τις εταιρείες που ηγούνται στον χώρο των voice agents και των communication platforms, θεωρούμε ότι έχουμε ευθύνη να βοηθήσουμε να διαμορφωθεί το μέλλον της επικοινωνίας.
Για εμάς, αυτό σημαίνει τρία πράγματα. Πρώτον, διαφάνεια και δυνατότητα ταυτοποίησης προέλευσης: κάθε περιεχόμενο που δημιουργείται πρέπει να είναι ανιχνεύσιμο ως AI-generated. Δεύτερον, moderation: πρέπει να υπάρχουν ισχυρά φίλτρα για το περιεχόμενο που δημιουργείται. Τρίτον, συνεισφορά στον ευρύτερο χώρο, με εργαλεία που μπορούν να είναι δημόσια διαθέσιμα για την ανίχνευση AI περιεχομένου.
Το δύσκολο είναι ότι εμείς κάνουμε πολλή δουλειά για να προετοιμαστούμε για αυτό το μέλλον, αλλά ο χώρος συνολικά δεν επιβραδύνει. Εμφανίζεται ένας μεγάλος αριθμός νέων μοντέλων. Αν κοιτάξουμε τον επόμενο έναν ή δύο χρόνια, μεγάλο μέρος του περιεχομένου στο διαδίκτυο θα είναι AI-generated. Μεγάλο μέρος της online επικοινωνίας θα είναι AI-generated. Θα χρειαστούμε μηχανισμούς που να μας επιτρέπουν να ξέρουμε: είναι αυτό AI ή όχι;
Αυτό προσπαθούμε να λύσουμε. Αλλά και η δική σας δουλειά, ως δημοσιογράφοι, είναι κρίσιμη για να ενημερωθεί ο κόσμος για αυτό που έρχεται.
Ο Mati Staniszewski θα βρεθεί στην Αθήνα στο πλαίσιο της συμμετοχής του στα Panathēnea 2026
Φωτ.: Getty Images/Wired Greece

Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου