Τι είναι η σύνθεση ομιλίας: Σημαντικοί τύποι και 5+ προκλήσεις

https://pixlr.com/stock/details/1001104012-robot-saying-hello/

Το θέμα της συζήτησης: Ρομπότ Text-to-Speech και η σύνθετη τέχνη της σύνθεσης του λόγου

Ρομπότ κειμένου σε ομιλία

Σύνθεση ομιλίας

Η μέθοδος δημιουργίας τεχνητής ομιλίας που μοιάζει με τον άνθρωπο με τη βοήθεια μηχανών ονομάζεται σύνθεση ομιλίας. Ένα σύστημα υπολογιστή που χρησιμοποιείται για την εκτέλεση αυτής της διαδικασίας ονομάζεται συνθέτης ομιλίας. Το σύστημα απαιτεί περαιτέρω εφαρμογή είτε σε λογισμικό είτε σε υλικό και μπορούμε να παρατηρήσουμε μία εφαρμογή του σε ένα σύστημα Text-to-Speech (TTS). Ένα σύστημα Text-to-Speech δέχεται την καθημερινή ανθρώπινη γλώσσα σε μορφή κειμένου ως είσοδο και τη μετατρέπει σε ομιλία ως έξοδο.

Σύνθεση ομιλίας
Επισκόπηση του συστήματος TTS

Η σύνθεση ομιλίας γίνεται με αλληλουχία της καταγεγραμμένης ομιλίας με τη μορφή μονάδων που αποθηκεύονται σε μια βάση δεδομένων. Τα συστήματα διαφέρουν στο μέγεθος των αποθηκευμένων μονάδων φωνής. Η πιο εκτεταμένη γκάμα εξόδου παρέχεται από ένα σύστημα που αποθηκεύει τηλέφωνα ή τηλέφωνα με πιθανότητα απώλειας σαφήνειας.

Η αποθήκευση ολόκληρων λέξεων ή προτάσεων επιτρέπει παραγωγή υψηλής ποιότητας για συγκεκριμένους τομείς χρηστών. Αυτή η μέθοδος μπορεί να αντικατασταθεί ενσωματώνοντας ένα μοντέλο φωνητικής οδού και διάφορα άλλα χαρακτηριστικά που ανήκουν στην ανθρώπινη φωνή και δημιουργώντας τεχνητή έξοδο φωνής.

Η ποιότητα εξόδου ενός συνθέτη ομιλίας εξαρτάται από την εγγύτητά του με την πραγματική ανθρώπινη φωνή και πόσο εύκολο να γίνει κατανοητό. Η χρήση της συσκευής σύνθεσης ομιλίας είναι εμφανής από τη δεκαετία του 1990, η οποία έχει αναπτυχθεί διεξοδικά για να βοηθήσει άτομα με ειδικές αναπηρίες και αναπηρίες.

Επισκόπηση του συστήματος κειμένου σε ομιλία

Υπάρχουν δύο σημαντικά μέρη μιας ομιλίας κειμένου σε ομιλία:

  • Front End- Είναι υπεύθυνη για τη μετατροπή του κειμένου εισαγωγής που περιέχει διάφορα σύμβολα, αριθμούς και συντομογραφίες σε ισοδύναμη μορφή κατανοητών και μετατρέψιμων δεδομένων. Αυτή η διαδικασία ονομάζεται ομαλοποίηση κειμένου ή προεπεξεργασία των δεδομένων. Στη συνέχεια, κάθε λέξη εκχωρείται με φωνητικές μεταγραφές και διαχωρίζει και επισημαίνει το κείμενο σε προωδικές ενότητες, όπως προτάσεις, ρήτρες και φράσεις, μέσω μιας διαδικασίας που ονομάζεται text-to-phoneme ή grapheme-to-phoneme. Στη συνέχεια, οι δύο πτυχές συνδυάζονται για τη δημιουργία των δεδομένων εξόδου που περιέχουν τη συμβολική γλωσσική αναπαράσταση.
  • Επιστροφή- Γενικά αναφέρεται ως "synthesizer", αυτό το μέρος ευθύνεται για τη συμβολική γλωσσική αναπαράσταση στον ήχο. Σε προηγμένο σύστημα, αυτή η διαδικασία ακολουθείται περαιτέρω από τον υπολογισμό της προσώδους στόχου (περίγραμμα βήματος, χρόνοι φωνήματος), ο οποίος θα χρησιμοποιηθεί στην ομιλία εξόδου.

Τεχνολογίες που εμπλέκονται στη σύνθεση ομιλίας

Η φυσικότητα και η κατανόηση είναι τα πιο σημαντικά χαρακτηριστικά που καθορίζουν την ποιότητα μιας συσκευής σύνθεσης ομιλίας. Η φυσικότητα καθορίζεται από την ικανότητα της συσκευής να αντιγράφει την ανθρώπινη φωνή όσο το δυνατόν πιο κοντά και η ευκρίνεια καθορίζει πόσο εύκολα η συσκευή μπορεί να κατανοήσει τον ήχο εξόδου. Οι συνθέτες ομιλίας προσπαθούν να παράγουν βέλτιστα αποτελέσματα και στις δύο αυτές πτυχές.

Η συνδυαστική σύνθεση και η σύνθεση μυρμηγκιών είναι οι δύο βασικές τεχνολογίες που δημιουργούν συνθετικές κυματομορφές ομιλίας. Υπάρχουν πλεονεκτήματα και μειονεκτήματα σε κάθε τεχνολογία και οι κοινές χρήσεις μιας μεθόδου σύνθεσης συνήθως υπαγορεύουν την επιλογή μιας από αυτές τις προσεγγίσεις.

Συνδυαστική σύνθεση

Η αλληλουχία των θραυσμάτων της ηχογραφημένης ομιλίας με έναν ορισμένο τρόπο ονομάζεται συνθετική σύνθεση. Αυτή η διαδικασία παράγει συνήθως τη συνθετική ομιλία με τον πιο φυσικό ήχο. Ωστόσο, οι ασυνέπειες μεταξύ των φυσικών παραλλαγών ομιλίας και του σχεδιασμού των αυτοματοποιημένων μεθόδων τμηματοποίησης κυματομορφής συχνά οδηγούν σε ακουστικές βλάβες εξόδου.

Υπάρχουν τρεις σημαντικοί υπο-τύποι συνδυαστικής σύνθεσης.

  1. Σύνθεση επιλογής μονάδας- Η είσοδος για αυτήν την τεχνική selectin είναι μια εκτεταμένη βάση δεδομένων ηχογραφημένης ομιλίας. Η τμηματοποίηση της βάσης δεδομένων πραγματοποιείται χρησιμοποιώντας ένα αναγνωριστικό ομιλίας που έχει ρυθμιστεί σε κατάσταση αναγκαστικής στοίχισης. Τα αποτελέσματα τμηματοποίησης σε μονάδες όπως τηλέφωνα, τηλέφωνα, λέξεις, φράσεις, συλλαβές, μορφές, προτάσεις, κ.λπ. Η ευρετηρίαση αυτών των μονάδων βασίζεται σε διάφορες παραμέτρους όπως το βήμα, η διάρκεια, η θέση στη συλλαβή και τα γειτονικά τηλέφωνα. Η διαδικασία δέντρου αποφάσεων επιλέγει τις πιο κατάλληλες μονάδες για να σχηματίσει μια αλυσίδα για εκτέλεση. Όσο πιο εκτεταμένη η βάση δεδομένων, τόσο πιο φυσική είναι η ομιλία εξόδου. Αυτή η τεχνική προσφέρει την πιο εξαιρετική φυσικότητα για την ομιλία εξόδου βάσει των καταγεγραμμένων δεδομένων.
  2. Σύνθεση Diphone- Η βάση δεδομένων για αυτήν την τεχνική αποτελείται μόνο από τηλέφωνα, γεγονός που το καθιστά σχετικά μικρό. Η φωνοτακτική μιας επιλεγμένης γλώσσας καθορίζει το σύνολο όλων των μοναδικών τηλεφώνων που πρέπει να ληφθούν υπόψη. Η βάση δεδομένων ομιλίας αποτελείται από μία εγγραφή κάθε τηλεφώνου. Διάφορες τεχνικές επεξεργασίας ψηφιακού σήματος όπως PSOLA, MBROLA, γραμμική προγνωστική κωδικοποίηση χρησιμοποιούνται για την υπέρθεση της πρότασης στόχου σε αυτές τις μονάδες τηλεφώνου. Η χρήση της σύνθεσης diphone περιορίζεται στην έρευνα, επειδή η ομιλία στερείται φυσικότητας, ακούγεται πολύ ρομποτική και περιέχει ηχητικές δυσλειτουργίες.
  3. Σύνθεση για συγκεκριμένο τομέα- Η βάση δεδομένων για αυτήν την τεχνική περιορίζεται σε προ-ηχογραφημένες λέξεις και φράσεις. Η δυνατότητα εφαρμογής αυτής της μεθόδου σύνθεσης περιορίζεται στον τομέα βάσει του οποίου δημιουργείται η βάση δεδομένων, για παράδειγμα, ανακοινώσεις σιδηροδρομικού σταθμού, αναφορές καιρού, ρολόγια ομιλίας κ.λπ. Η εφαρμογή αυτής της τεχνολογίας είναι απλή και ταυτόχρονα υψηλό επίπεδο Η φυσικότητα μπορεί να επιτευχθεί λόγω περιορισμένων προτάσεων εξόδου. Για να επιτευχθεί ομαλός συνδυασμός λέξεων με φυσική ομιλία, πρέπει να ληφθούν υπόψη πολλές γλωσσικές παραλλαγές.

Μορφή σύνθεσης

Για πολλές εφαρμογές, η φυσικότητα του λόγου δεν είναι στόχος. μάλλον, η αξιοπιστία, η ευφυΐα και η ακρίβεια υψηλής ταχύτητας είναι πιο σημαντικές. Αυτό μπορεί να επιτευχθεί χρησιμοποιώντας σύνθεση σύνθεσης, η οποία δημιουργεί μια συνθετική ομιλία που χρησιμοποιεί πρόσθετη σύνθεση και ακουστική μοντελοποίηση. Αυτή η μέθοδος, που ονομάζεται επίσης σύνθεση βασισμένη σε κανόνες, δημιουργεί μια τεχνητή κυματομορφή ομιλίας με διάφορες παραμέτρους, όπως συχνότητα, επίπεδα θορύβου και φωνή.

Η τεχνητή, ρομποτική ομιλία που δημιουργήθηκε από την τεχνολογία σύνθετης σύνθεσης είναι πολύ απίθανο να εκληφθεί ως ανθρώπινη ομιλία. Ακουστικές δυσλειτουργίες, οι οποίες είναι κοινές σε συνδυαστικά συστήματα, εξαλείφονται κυρίως σε αυτήν την τεχνική. Λόγω της απουσίας μιας εκτεταμένης βάσης δεδομένων ηχογραφήσεων, αυτά τα προγράμματα είναι σχετικά μικρά επειδή βρίσκουν χρήση σε ενσωματωμένα συστήματα όπου η ισχύς για επεξεργασία είναι περιορισμένη.

Είναι δυνατόν να μεταφέρετε μια ποικιλία από φωνητικούς τόνους και συναισθήματα εκτός από τυπικές ερωτήσεις και δηλώσεις, επειδή τα συστήματα που βασίζονται σε μορφή εμφανίζουν πλήρη έλεγχο όλων των πτυχών της εξόδου. Για παράδειγμα, πολλά αξιόλογα βιντεοπαιχνίδια έχουν χρησιμοποιήσει τεχνολογία σύνθεσης μορφής για διαδραστική ομιλία.

Αρθρωτική σύνθεση

Η μέθοδος που χρησιμοποιείται για τη δημιουργία ήχων ομιλίας με βάση το μοντέλο ανθρώπινης φωνητικής οδού ονομάζεται σύνθεση άρθρωσης. Στόχος είναι να προσομοιώσει τους αρθρωτές ομιλίας με έναν ή περισσότερους τρόπους. Προσφέρει έναν τρόπο να κατανοήσουμε την εξέλιξη του λόγου και να ερευνήσουμε τη φωνητική.

Η συσσωμάτωση είναι μια φυσική επίδραση σε ένα τέτοιο μοντέλο και θα πρέπει να είναι δυνατόν να αντιμετωπιστεί σωστά θεωρητικά με τις ιδιότητες της γλωσσικής πηγής, τη σχέση της φωνητικής οδού με τις φωνητικές πτυχές και τον τρόπο με τον οποίο το υπογλωσσικό σύστημα, η ρινική οδός και Οι κοιλότητες κόλπων επηρεάζουν τη δημιουργία ανθρώπινης ομιλίας μέσω αυτού του μοντέλου.

Η αρθρωτική σύνθεση τυπικά περιλαμβάνει δύο ξεχωριστά συστατικά: τον φωνητικό σωλήνα, ο οποίος χωρίζεται σε διάφορα υπο-συστατικά, και τις αντίστοιχες περιοχές διατομής που χρησιμοποιούνται παραμετρικά για την αντανάκλαση των χαρακτηριστικών του φωνητικού κορδονιού. Στο ακουστικό μοντέλο, μια ηλεκτρική αναλογική γραμμή μετάδοσης προσεγγίζει κάθε πεδίο διατομής.

Η προσομοίωση της φωνητικής οδού υπόκειται στις αλλαγές που εμφανίζονται στις λειτουργίες της περιοχής σχετικά με το χρόνο. Η διαμόρφωση στόχου που κατανέμεται σε κάθε ήχο καθορίζει τον ρυθμό της κίνησης των φωνητικών οδών. Εάν κατασκευαστεί σωστά, ο αρθρικός συνθεσάιζερ μπορεί να αναπαραγάγει κάθε σχετικό αποτέλεσμα στην ανάπτυξη fricatives και plosives και να μοντελοποιήσει τις μεταβάσεις συνένωσης για να επαναλάβει τις διαδικασίες που εμπλέκονται στην παραγωγή πραγματικής ομιλίας.

Στα μέσα της δεκαετίας του 1970, στα Haskins Laboratories, οι Philip Rubin, Tom Baer και Paul Mermelstein δημιούργησαν τον πρώτο αρθρωτικό συνθετικό που χρησιμοποιείται συνήθως για εργαστηριακά πειράματα.

Σύνθεση βασισμένη σε HMM

Αυτή είναι μια Στατιστική Παραμετρική Σύνθεση ακολουθώντας τα «κρυφά μοντέλα Markov». ΗΜΜ ταυτόχρονα μοντελοποιήστε το φάσμα συχνοτήτων, τη θεμελιώδη συχνότητα και τη διάρκεια ομιλίας σε αυτήν τη μέθοδο. Οι κυματομορφές ομιλίας που δημιουργούνται με βάση το κριτήριο της μέγιστης πιθανότητας δημιουργούνται από τα ίδια τα HMM.

Ένα κρυφό μοντέλο Markov (HMM) στην Υπολογιστική Βιολογία είναι μια μαθηματική τεχνική που χρησιμοποιείται κυρίως για τη βιολογική μοντελοποίηση ακολουθιών. Μια ακολουθία διαμορφώνεται ως έξοδος μιας διακριτής στοχαστικής μεθόδου κατά την εφαρμογή της, η οποία προχωρά μέσω ενός συνόλου διαδοχικών καταστάσεων που είναι «κρυμμένες» από τον παρατηρητή.

Σύνθεση Sinewave

Η σύνθεση Sinewave, ή η φωνή sinewave, είναι μια μέθοδος σύνθεσης ομιλίας, αντικαθιστώντας τους σφυρίχτρες καθαρού τόνου για τους σχηματιστές (εξέχουσες ζώνες ενέργειας). Ο Philip Rubin δημιούργησε το πρώτο λογισμικό σύνθεσης sinewave (SWS) για την αυτοματοποιημένη παραγωγή ερεθισμάτων για αντιληπτικά πειράματα στα Haskins Laboratories τη δεκαετία του 1970.

Το Sinewave Speech είναι ένα παράξενο φαινόμενο, όπου ορισμένα από τα χαρακτηριστικά ομιλίας αναλαμβάνονται από έναν μικρό αριθμό ημιτονοειδών - που δεν μοιάζουν καθόλου με τις περισσότερες απόψεις. Υψηλή κατανόηση μπορεί να επιτευχθεί χρησιμοποιώντας τρία ημιτονοειδή που παρακολουθούν τη συχνότητα και το πλάτος των τριών πρώτων μορφών ομιλίας.

Σύνθεση βασισμένη σε βαθιά μάθηση

Σε αντίθεση με την προσέγγιση που βασίζεται στο HMM, η μέθοδος Deep Learning βασίζεται ρητά στους γλωσσικούς χαρακτήρες στα ακουστικά χαρακτηριστικά με τα βαθιά νευρικά δίκτυα που αποδεικνύεται εξαιρετικά επιτυχημένα στην εκμάθηση εγγενών χαρακτηριστικών δεδομένων. Οι άνθρωποι έχουν προτείνει διάφορα μοντέλα στη μακρά παράδοση μελετών που ακολουθούν μεθόδους βαθιάς μάθησης για τη σύνθεση ομιλίας.

Ένα χρήσιμο εργαλείο για τη σύνθεση ομιλίας έχει γίνει βαθιά μάθηση ικανός να εκμεταλλευτεί τεράστιες ποσότητες δεδομένων εκπαίδευσης. Πρόσφατα, πραγματοποιήθηκε ολοένα και περισσότερη έρευνα σχετικά με τεχνικές βαθιάς μάθησης ή ακόμη και συστήματα από άκρο σε άκρο και έχει επιτευχθεί υπερσύγχρονη επιτυχία.

Πηγή εικόνας: Αρχικό αρχείο: Avimanyu786 Έκδοση SVG: Tukijaaliwa, AI-ML-DL, CC BY-SA 4.0

Ο Σεπτέμβριος 2016 σηματοδότησε την αρχή του WaveNet από Deepmind, ένα βαθύ δημιουργικό μοντέλο ακατέργαστων κυματομορφών ήχου. Κατέστησε προφανές ότι τα μοντέλα βαθιάς μάθησης μπορούν να μοντελοποιήσουν ακατέργαστες κυματομορφές και να αποδίδουν καλά από ακουστικά χαρακτηριστικά όπως φασματογραφήματα ή συγκεκριμένα προεπεξεργασμένα γλωσσικά χαρακτηριστικά για τη δημιουργία έκφρασης.

Πλεονεκτήματα των end-to-end συστημάτων-

  • Περιορισμένη ικανότητα ανάλυσης κειμένου χρησιμοποιώντας ένα μόνο σύστημα.
  • Περιορισμένη ποσότητα εφαρμοσμένης μηχανικής.
  • Πλούσια ρύθμιση των υπαρχόντων χαρακτηριστικών και εύκολη προσαρμογή σε νεότερα.
  • Αυξημένη φυσικότητα και κατανοητότητα
  • Πιο στιβαρό σε σύγκριση με μοντέλα πολλαπλών σταδίων.

Μειονεκτήματα συστημάτων από άκρο σε άκρο-

  • Ύπαρξη προβλήματος βραδείας συναγωγής.
  • Τα μικρότερα δεδομένα έχουν ως αποτέλεσμα λιγότερο ισχυρή ομιλία εξόδου.
  • Περιορισμένη ικανότητα ελέγχου από την συνδυαστική προσέγγιση.
  • Η επίπεδη prosody αναπτύσσεται με μέσο όρο πάνω από τα εκπαιδευτικά δεδομένα.

Προκλήσεις που εμπλέκονται στη σύνθεση ομιλίας

  1. Διαμονή διαφορετικών λέξεων με την ίδια ορθογραφία, με βάση το πλαίσιο.
  2. Συμπεράσματα για τον τρόπο επέκτασης ενός αριθ. με βάση τη γύρω λέξη, τον αριθμό και τα σημεία στίξης. Για παράδειγμα, το 1465 μπορεί να είναι "χίλια τετρακόσια εξήντα πέντε" ή μπορεί επίσης να διαβαστεί ως "ένα τέσσερα έξι πέντε", "δεκατέσσερα εξήντα πέντε" ή "δεκατέσσερα εκατόν εξήντα πέντε".
  3. Αβεβαιότητα στις συντομογραφίες. Για παράδειγμα, «in» για «ίντσες» πρέπει να διαφοροποιηθεί από τη λέξη «in».
  4. Η προσέγγιση που βασίζεται στο λεξικό (αναζητώντας κάθε λέξη στο λεξικό και αντικαθιστώντας την ορθογραφία με την προφορά που περιγράφεται λεπτομερώς στο λεξικό για να επιλέξετε τη σωστή προφορά κάθε λέξης) της διαδικασίας κειμένου σε φωνή αποτυγχάνει εντελώς για οποιαδήποτε λέξη που μπορεί να βρεθεί το λεξικό.
  5. Προσέγγιση βάσει κανόνα (για να αξιολογήσουν τις προφορές τους με βάση την ορθογραφία τους, οι κανόνες προφοράς εφαρμόζονται σε λέξεις ή η προσέγγιση του «μαθαίνοντας πώς να διαβάζω») της διαδικασίας text-to-phoneme αποτυγχάνει καθώς το σχήμα λαμβάνει υπόψη ασυνήθιστα ορθογραφία ή προφορές, επειδή η πολυπλοκότητα των κανόνων αυξάνεται σημαντικά.
  6. Δυσκολία στην αξιόπιστη αξιολόγηση συστημάτων σύνθεσης ομιλίας λόγω της έλλειψης γενικά αποδεκτών αντικειμενικών προτύπων απόδοσης.
  7. Μετατόπιση του περιγράμματος του βήματος της πρότασης, ανάλογα με το αν είναι θετική, ανακριτική ή θαυμαστική έκφραση.

Για προηγούμενο άρθρο σχετικά με το ρομπότ Mecanum Wheeled, Κάντε κλικ ΕΔΩ.

Σχετικά με την Esha Chakraborty

Έχω ένα υπόβαθρο στην Αεροδιαστημική Μηχανική, επί του παρόντος εργάζομαι για την εφαρμογή της Ρομποτικής στην Άμυνα και τη Διαστημική Επιστήμη Βιομηχανία. Είμαι συνεχής μαθητής και το πάθος μου για τις δημιουργικές τέχνες με κάνει να τείνω να σχεδιάζω νέες ιδέες μηχανικής.
Με τα ρομπότ να αντικαθιστούν σχεδόν όλες τις ανθρώπινες ενέργειες στο μέλλον, θέλω να φέρω στους αναγνώστες μου τις θεμελιώδεις πτυχές του θέματος με έναν εύκολο αλλά ενημερωτικό τρόπο. Μου αρέσει επίσης να ενημερώνω ταυτόχρονα τις εξελίξεις στον κλάδο της αεροδιαστημικής.

Συνδεθείτε μαζί μου με το LinkedIn - http://linkedin.com/in/eshachakraborty93

Lambda Geeks