Duplex perception of speech

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Unter duplex perception of speech, also der doppelten Wahrnehmung von Sprache, auch einfach nur als duplex perception bezeichnet, versteht man ein stimmliches (phonetisches) bzw. sprachliches (linguistisches) Phänomen, bei welchem ein akustisches Signal sowohl als sprachliches als auch als nicht-sprachliches Signal wahrgenommen (perzipiert) wird.

Im Grunde handelt es sich bei der duplex perception lediglich um eine Theorie, die durch verschiedene Experimente belegbar sein soll. Bei diesen Experimenten wurden bestimmte Silben vorgespielt, bei denen die Übergänge zwischen den Lauten (bestimmten Konsonanten, den Plosiven, und einem Vokal) teilweise entfernt wurden. Diese Übergänge, also der Moment zwischen der Aussprache der Laute, wurden ebenfalls aufgenommen und isoliert vorgespielt. Im letzten Teil des Experiments wurde dann die Silbe ohne den isolierten Übergang auf dem einen Ohr und der isolierte Übergang auf dem anderen Ohr abgespielt, um feststellen zu können, ob der Übergang einerseits ausschließlich als Geräusch (nicht-sprachliches Signal), andererseits aber auch als Bestandteil der Silbe (und damit sprachlich) wahrgenommen wird.

Das menschliche Gehör kann in der Regel Frequenzen im Bereich von 20 bis 20.000 Hertz wahrnehmen. Ein Ton besteht allerdings nicht nur aus einer einzigen Frequenz, sondern setzt sich aus vielen Partial- oder Teiltönen zusammen. Um einen bestimmten Vokal (also a, e, i, o oder u) identifizieren zu können, ist es u. a. notwendig, dass bei diesem Vokallaut bestimmte Frequenzen bzw. Frequenzbereiche verstärkt sind. Diese verstärkten Frequenzbereiche bezeichnet man in der Akustik bzw. in der Phonetik als Formanten. Beim Laut o ist beispielsweise der Bereich um 500 Hertz verstärkt und auch der Frequenzbereich um 1000 Hz bildet einen sogenannten Gipfel. Bei der Bezeichnung der Formanten (F1, F2, F3 usw.) geht man von den niedrigen Frequenzen zu den höheren. Der Laut o hat also den Formant F1 bei 500 Hz und den Formant F2 bei 1000 Hz.

Die beiden ersten Gipfel in den unteren Frequenzbereichen sind mitentscheidend für die Erkennung der Vokale, während die Gipfel in den oberen Frequenzbereichen dafür weniger relevant sind, sondern mehr Parameter wie die Klangfarbe u. ä. beeinflussen.

Ein Plosivlaut (als weiterer in den Experimenten benutzter Laut) entsteht durch eine kurzzeitige Unterbrechung des Atemflussstromes und die sich daran sofort anschließende Freisetzung der angestauten Luft. Stimmlich führt dies zu einer kleinen Explosion, die den Klang produziert. Die Freisetzung der angestauten Luft findet bei den verschiedenen Plosivlauten an verschiedenen Stellen im Mund- bzw. Rachenraum statt. Bei den Lauten b und p wird die Luft unmittelbar hinter den Lippen gestaut, bei den Lauten d und t wird die Luft hinter den Zähnen und bei den Lauten g und k schließlich am hinteren Zungenrücken bzw. am Gaumen gestaut.

Experimente zur duplex perception

[Bearbeiten | Quelltext bearbeiten]

Bei den Experimenten zur duplex perception wurden Versuchspersonen Silben vorgesprochen, die jeweils aus der Kombination eines Plosivlauts (also aus einem der Konsonanten b, p, t, d, k oder g) und aus einem Vokal bestanden. Dadurch ergaben sich also Silben wie ba, ta, pu, ko oder da.

Bei dieser Kombination (Silbe) beeinflusst der Plosivlaut für einen kurzen Moment die Formanten des nachfolgenden Vokals. Bei Silben wie pa, ta oder ga gehen die Sprachlaute fließend ineinander über. Da die Artikulationsstelle bei den Plosiven allerdings unterschiedlich ist, wird auch der folgende Vokal jeweils von einer anderen Ausgangsposition angegangen, wobei die Formanten des Vokals kurzzeitig beeinflusst werden. Die Werte für die Formanten werden erst nach einem kurzen Übergang erreicht. Dieser Übergang, der als Transition bezeichnet wird, kann sowohl von unten als auch von oben erfolgen.

Beispiel: Die Werte für die Formanten, die beim a bei 1000 Hz (F1) und bei 1400 Hz (F2) liegen, werden bei der Silbe ba von unten erreicht, weil das b für einen kurzen Zeitraum von 20 bis 40 msec dafür sorgt, dass diese Frequenzbereiche verstärkt werden und sich dann dem Normalwert angleichen. Dieses Angleichen bezeichnet man als Glissando, weil sich die Tonhöhe etwas nach oben verschiebt. Bei den Silben da und ga wird F1 ebenfalls von unten erreicht, F2 aber von oben, so dass ein gegensätzliches Glissando entsteht.

Ein Glissando kommt in der gesprochenen Sprache wesentlich häufiger vor als in der Musik. Es stellt den Übergang von einer Tonhöhe zu einer anderen (höher oder tiefer) dar, ohne dass dabei wie bei den meisten Musikinstrumenten ein Sprung oder ein Absatz entsteht. Das bekannteste Beispiel für ein (gesprochenes) Glissando stellt wohl das Ende eines Fragesatzes dar, bei dem der Sprecher mit der Stimme meist auf den letzten beiden Silben deutlich "nach oben" (bezogen auf die Tonhöhe) geht, um die Frage zu kennzeichnen.

In der Musik werden wesentlich häufiger deutlich voneinander getrennte Tonhöhen verwendet. Man kann sich die Veränderung der Tonhöhe bei einer Melodie wie eine Treppe (jede Stufe entspricht einer Tonhöhe) vorstellen, die immer wieder die Richtung wechselt, wobei die Tonhöhenunterschiede sehr verschieden (also mal größer, mal kleiner) sein können. Glissandi kommen in der Musik seltener vor, da sie nicht mit allen Instrumenten möglich sind. Ein Glissando kann man sich wie ein Teilstück einer Achterbahn (hoch oder runter) vorstellen, bei der es eben keine Sprünge gibt, da die Bahn von einer Höhe zur anderen gleitet.

Im ersten Experiment wurden nun die Übergänge zwischen den Lauten verändert, indem der F3-Übergang (also das Glissando) isoliert und entfernt wurde. Die Versuchspersonen konnten nun nicht mehr erkennen, wo der Plosivlaut im Mundraum gebildet wurde, konnten also die Artikulationsstelle des Plosivs nicht zuordnen.

Wurde den Probanden der Übergang isoliert dargeboten, so nahmen sie diesen auch nur als Glissando und damit als nicht-sprachliches Phänomen wahr.

Wurde den Versuchspersonen im letzten Experiment auf einem Ohr die defekte Plosiv-Vokal-Silbe und auf dem anderen Ohr die Transition vorgespielt, wurde nicht nur die Silbe eindeutig mit Artikulationsstelle identifiziert, sondern gleichzeitig auch das Glissando wahrgenommen.

  • C. A. Fowler, L. D. Rosenblum: Duplex perception: a comparison of monosyllables and slamming doors. In: Journal of experimental psychology. Human perception and performance. Band 16, Nummer 4, November 1990, S. 742–754. PMID 2148589.
  • H. K. Vorperian, M. T. Ochs, D. W. Grantham: Stimulus intensity and fundamental frequency effects on duplex perception. In: The Journal of the Acoustical Society of America. Band 98, Nummer 2, Pt 1, August 1995, S. 734–744. PMID 7642812.

Literaturquellen

[Bearbeiten | Quelltext bearbeiten]
  • A. M. Liberman, D. Isenberg, B. Rakerd: Duplex perception of cues for stop consonants: evidence for a phonetic mode. In: Perception & psychophysics. 30(2), Aug 1981, S. 133–143.
  • Friedrich Michael Dannenbauer: Sprachwissenschaftliche Grundlagen. In: Manfred Grohnfeldt (Hrsg.): Lehrbuch der Sprachheilpädagogik und Logopädie. DNB 959330410.
  • Gerhard Böhme: Sprach-, Sprech-, Stimm- und Schluckstörungen. DNB 951684094.