1.4. Das Sprachsignal

Sprache besteht aus zusammenhängenden quasiperiodischen und aperiodischen Schallsignalen. Stimmhafte Sprachsignale werden gebildet, indem die Stimmbänder im Kehlkopf als Reaktion auf die ausströmende Luft vibrieren und dadurch die Luft im Rachen und in der Mundhöhle zum Vibrieren bringen. Stimmlose Sprachsignale sind z. B. Reibelaute, die erzeugt werden, indem Luft durch eine Verengung strömt, z. B. zwischen den Zähnen und den Lippen.

Sprache besteht aus quasiperiodischen und aperiodischen Sprachsignalen.

Beim Sprechen ändert sich die Position der Zunge, Lippen und Kiefer ständig. Dabei verändert sich eben- falls die Resonanz in der Mundhöhle, wodurch die unterschiedlichen Sprachsignale mit ihren einzigartigen Klangfarben erzeugt werden. Dies nennt man Artikulation.

Die akustischen Eigenschaften eines Sprachsignals können auf verschiedene Weise beschrieben werden. Wir werden im Folgenden drei Darstellungsarten näher betrachten:

• das Oszillogramm
• das Spektrogramm
• das Langzeitspektrum

1.4.1. Das Oszillogramm

Das Oszillogramm zeigt, wie die Amplitude des Sprachsignals als Funktion der Zeit variiert. Im Oszillogramm lässt sich das aperiodische und quasiperiodische Wellenmuster erkennen, das beim Aussprechen der einzelnen Wörter entsteht.

Oszillogramm

Oszillogramm des Satzes „This is a speech signal“. Im Wort „speech“ z.B. ergeben die Konsonanten, am Wortanfang /s/ und /p/ und am Ende der /ch/-Laut, ein aperiodisches Wellenmuster. Der /e/-Vokal in der Mitte des Wortes zeigt eine quasiperiodische Wellenform.

1.4.2. Das Spektrogramm

Eine detailliertere Darstellung der Eigenschaften des Sprachsignals kann durch die Aufzeichnung eines Spektrogramms gewonnen werden. Die Zeit wird – wie im Oszillogramm – auf der horizontalen Achse dargestellt. Auf der vertikalen Achse wird die Frequenz aufgetragen, wobei die Dunkelheit der Schwärzung den Schalldruckpegel anzeigt. Das Spektrogramm zeigt, wie sich die Konsonanten und Vokale der Sprache innerhalb eines gegebenen Zeitintervalls abwechseln.

Das Spektogramm zeigt, wie sich die einzelnen Sprachsignale über die Zeit ändern.

Spektrogramm

Spektrogramm des Satzes „This is a speech signal“.

Das Word „speech“ enthält zunächst das aperiodische Geräusch des /s/-Lauts. Das Geräusch wird durch die Turbulenz erzeugt, die entsteht, indem Luft durch die Verengung zwischen der Zungenspitze und der Innenseite der Zähne im oberen Teil des Mundes strömt.

Auf den /s/-Laut folgt eine Pause, während der sich ein Luftdruck hinter den geschlossenen Lippen aufstaut. Dieser Luftdruck wird als ein explosives Geräusch abgelassen, das den /p/-Laut kurz vor dem Vokal ausmacht.

Der /e/-Vokal wird durch die periodischen Vibrationen der Stimmbänder erzeugt. Er ist durch mehrere fast horizontale Streifen gekennzeichnet, die über das Frequenzspektrum verteilt sind. Diese Streifen stellen die Formanten dar und sind Gruppen von Teiltönen, die durch Resonanz im Rachen und in der Mundhöhle verstärkt werden.

Die Form des Rachens und die Öffnung des Mundes verändern sich ständig, wenn wir verschiedene Konsonanten und Vokale aussprechen. Dadurch ändern sich die Resonanzbedingungen, was an den sogenannten Formanttransitionen abgelesen werden kann, d. h. an der Art und Weise, wie sich die Formanten nach oben oder unten im Frequenzspektrum bewegen. Die Formanten spielen eine große Rolle bei der Wahrnehmung von Sprachsignalen.

Am Ende des Wortes „speech“ haben wir den /ch/-Laut, der auf ähnliche Weise wie der /s/-Laut erzeugt wird.

1.4.3. Das Langzeitsprachspektrum – LTASS

Das Sprachsignal lässt sich auch dadurch darstellen, dass das mittlere Spektrum eines langen Sprachsignals gemessen wird, z. B. während eine Person aus einem Zeitungsartikel vorliest. Das Ergebnis ist ein Langzeitsprachspektrum, das zeigt, wie die Sprachenergie über das Frequenzspektrum verteilt ist. Das Langzeitsprachspektrum heißt auf Englisch „Long-Term Average Speech Spectrum“ und wird daher als „LTASS“ abgekürzt.

Ein Langzeitsprachspektrum zeigt, wie die Sprachenergie im Durchschnitt über das Frequenzspektrum verteilt ist.

Langzeitsprachspektrum

Das Langzeitsprachspektrum bei Frauen und Männern mit normaler Stimmintensität. Die Langzeitsprachspektren von Frauen und Männern unterscheiden sich im niedrigen Frequenzbereich. Die Grundfrequenz ist bei Männern im Allgemeinen niedriger (etwa 100-150 Hz) als bei Frauen (etwa 200-300 Hz).

Bei normaler Stimmintensität zeigt das LTASS die meiste Energie typischerweise bei niedrigen Frequenzen und allmählich weniger Energie bei höheren Frequenzen. Dies spiegelt die Tatsache wider, dass die energiereichen Vokale der Sprache im niedrigen und mittleren Frequenzbereich positioniert sind, während die energie- ärmeren Konsonanten im hohen Frequenzbereich liegen.

Nächstes Thema: Ausbreitung, Reflexion und Beugung von Schall | Zurück zum Inhaltsverzeichnis