
Welche Technologien werden für Akzentumwandlung bei Chinesisch genutzt
Für die Akzentumwandlung bei Chinesisch werden insbesondere Technologien der Sprachsignalverarbeitung und des maschinellen Lernens eingesetzt.
Ein Ansatz ist die Verwendung von Encoder-Decoder-Modellen für eine End-to-End-Akzentumwandlung, wobei Modelle wie TDNN (Time Delay Neural Networks) und 1D-CNN (einschichtige Convolutional Neural Networks) für die Akzenterkennung und -konvertierung trainiert werden. Hierbei werden akustische Merkmale wie MFCCs (Mel-Frequency Cepstral Coefficients) und Spektrogramme genutzt. Diese Modelle können verschiedene chinesische Akzente erkennen und konvertieren. 1
Neuere Methoden nutzen auch generative Modelle, die auf semantischer Token-Ebene operieren und die Umwandlung der Prosodie und Aussprache anstreben. Dabei wird die synthetisierte Sprache mit dem Zielakzent erzeugt, wobei das Modell parallele Daten mit minimaler Überwachung benötigt. 2
Ein weiterer moderner Ansatz ist die Nutzung diskreter Einheiten, die aus selbstüberwachten Sprachrepräsentationen gewonnen werden, als Vermittler für die Akzentumwandlung. Diese Herangehensweise sorgt für eine bessere Erhaltung der Sprecheridentität und ermöglicht die Umwandlung verschiedener Akzente in den Standardakzent. 3
Auch Text-to-Speech Systeme spielen eine Rolle, indem sie mehrsprachige oder dialektale Texte transliterieren und daraus mit Hilfe neuronaler Netze akzentuierte Sprachsamples erzeugen, die für das Training von Akzentumwandlungssystemen genutzt werden. 4, 5
Zusammenfassend sind die wichtigsten Technologien für die Akzentumwandlung bei Chinesisch:
- Neuronale Netze wie TDNN, 1D-CNN für Akzenterkennung
- Encoder-Decoder-Modelle für End-to-End Akzentumwandlung
- Nutzung akustischer Merkmale (MFCCs, Spektrogramme)
- Semantische Token-basierte generative Modelle
- Diskrete Einheiten aus selbstüberwachten Sprachrepräsentationen
- Multilinguale Text-to-Speech-Systeme mit Transliteration
Diese Technologien zielen darauf ab, den Akzent in der Sprache zu verändern, während Inhalt und Sprecheridentität erhalten bleiben. 5, 1, 2, 3, 4
Verweise
-
A New Approach to Accent Recognition and Conversion for Mandarin Chinese
-
Convert and Speak: Zero-shot Accent Conversion with Minimum Supervision
-
Accent conversion using discrete units with parallel data synthesized from controllable accented TTS
-
MacST: Multi-Accent Speech Synthesis via Text Transliteration for Accent Conversion
-
A Novel Chinese Dialect TTS Frontend with Non-Autoregressive Neural Machine Translation
-
Chinas komplexe Digitalwelt – Ein Überblick von Alibaba bis Zhihu
-
AccentSpeech: Learning Accent from Crowd-sourced Data for Target Speaker TTS with Accents
-
Acoustic Inspired Brain-to-Sentence Decoder for Logosyllabic Language
-
Foreign accent conversion in computer assisted pronunciation training