Mi, 23.01.2019 14:30

Personalized (almost) end-to-end speech synthesis

ISF Gastvortrag von Markus Toman

Text-To-Speech (TTS) systems traditionally encode linguistic and acoustic domain knowledge in form of vast codebases, hand-crafted rules and statistical models. Recent advances in machine learning led to the gradual replacement of individual components of such systems with neural networks. This talk highlights the most important aspects of this shift towards end-to-end synthesis, where (almost) the whole process of generating waveforms from text is performed by a neural network, inferring domain knowledge exclusively from data. The mechanics of prominent model architectures like WaveNet and Tacotron are presented and specific challenges of personalized speech synthesis, like speaker adaptation and multi-speaker models, are also addressed.

Informationen

23. Jänner 2019
End-to end speech synthesis
14.30
Seminar Room, Wohllebengasse 12-14 / Ground Floor

Zurück

Diese Website verwendet Cookies. Sie gewährleisten wesentliche Funktionalitäten der Website und ermöglichen uns, Inhalte laufend zu optimieren. Helfen Sie uns dabei, indem Sie der Erhebung statistischer Daten und der Darstellung externer multimedialer Inhalte zustimmen. Die Zustimmung ist jederzeit widerrufbar. Weitere Informationen finden Sie in den Cookie-Einstellungen sowie in der Datenschutzerklärung.

Notwendig

Diese Cookies werden für eine reibungslose Funktion unserer Website benötigt.

Name	Zweck	Speicherdauer	Typ	Anbieter
CookieConsent	Speichert Ihre Einwilligung zur Verwendung von Cookies.	1 Jahr	HTML	Web Consent
fe_typo_user	Ordnet Ihren Browser einer Session auf dem Server zu. Dies beeinflusst nur die Inhalte, die Sie sehen und wird von uns nicht ausgewertet oder weiterverarbeitet.	-	HTTP	Web User

Statistik

Mit Hilfe dieser Cookies sind wir bemüht, unser Angebot für Sie noch attraktiver zu gestalten. Mittels pseudonymisierter Daten von Websitenutzer:innen kann die Benutzung analysiert und interpretiert werden. Dies gibt uns die Möglichkeit, Websiteinhalte zu optimieren.

Name	Zweck	Speicherdauer	Typ	Anbieter
_pk_id	Wird verwendet, um ein paar Details über den Benutzer wie die eindeutige Besucher-ID zu speichern.	13 Monate	HTML	Matomo-id
_pk_ref	Wird benutzt, um die Informationen der Herkunftswebsite des Benutzers zu speichern.	6 Monate	HTML	Matomo-ref
_pk_ses	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo-ses
_pk_cvar	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo-cvar
_pk_hsr	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo

Multimedia

Mit Hilfe dieser Cookies bemühen wir uns, unser Informations-Angebot für unsere Nutzer:innen durch die Bereitstellung beispielsweise von Videoinhalten zu verbessern.

Name	Zweck	Speicherdauer	Typ	Anbieter
YouTube	Es wird eine Verbindung mit YouTube hergestellt, um Videos anzuzeigen.	-	Verbindung	YouTube
SoundCloud	Es wird eine Verbindung mit SoundCloud hergestellt, um Audio-Dateien abzuspielen.	-	Verbindung	SoundCloud
Twitter	Es wird eine Verbindung mit Twitter hergestellt, um Tweets anzuzeigen.	-	missing translation: type.	Twitter

Personalized (almost) end-to-end speech synthesis

Informationen

Kontakt

Presse

Institut für Schallforschung