Die Sprachdetektive des BKA

Bild: Morgenpost

Ein
leistungsfähiger Rechner mit Soundkarte, ein paar Kopfhörer – der
Arbeitsplatz von Olaf Köster ist unspektakulär. Seine Arbeit ist es
nicht. Gerade hat er wieder eine brisante Datei auf seinem Bildschirm.
Bauchige Wölbungen auf einer Geraden, die Abbildung einer verrauschten
Tonaufnahme. Sie stammt von einer Videoüberwachungskamera. Das Gerät
hat einen Todesfall in einem Yachthafen aufgezeichnet, nicht als Bild,
sondern akustisch. Eine Frau ist umgekommen. War es Mord oder ein
Unfall? Schreie sind zu hören, Wortfetzen. Für den Laien
unverständlich. Köster spielt die Datei wieder und wieder ab. Was wird
gesprochen und von wem? Welche Hintergrundgeräusche sind zu hören? 

Solche Analysen sind Alltag für den 38-jährigen Phonetiker im
Bundeskriminalamt (BKA). Olaf Köster und eine Handvoll anderer Experten
arbeiten im Fachbereich forensische Sprecherkennung, einer noch jungen
Disziplin, die das BKA in den 1980er Jahren aufgebaut hat. Es geht
darum, akustische Spuren auszuwerten: Telefonaufzeichnungen von
Entführern oder Erpressern, Anrufe mutmaßlicher Gewalttäter bei der
Polizei, Mitschnitte von Telefonüberwachungen oder auch Aufzeichnungen
von Voicerekordern, die nach einem Flugzeugabsturz geborgen wurden.
Dramatisches Material, das Köster zuweilen an die Grenzen des
Ertragbaren bringt.

Zum Beispiel die Bänder des Armin Meiwes. Der heute 45-Jährige ist
als "Kannibale von Rotenburg" bekannt, weil er 2001 einen
Internetbekannten entmannte, tötete und teilweise verspeiste. Meiwes
hatte seine Handlungen per Video dokumentiert.

Vor Gericht behauptete er unter anderem, er sei überzeugt gewesen,
dass sein Opfer bereits tot gewesen sei, als er dem Mann den Hals
durchtrennt habe. Köster begutachtete die Tonspur der betreffenden
Passage aus dem Videomitschnitt – und widerlegte die Behauptung. Den
genauen Wortlaut von Meiwes‘ Gemurmel darf er nicht preisgeben, nur so
viel: Meiwes ging beim tödlichen Schnitt davon aus, dass sein Opfer
noch lebte.

Eine wichtige Information für das Gericht, um das Strafmaß zu
bestimmen. Die Geräusche, die Köster viele Dutzend Male hören musste,
wird er so schnell nicht vergessen: "Ich konnte eine Weile kein Fleisch
mehr essen."

Die Wissenschaft von der forensischen Sprechererkennung hat ihre
Wurzeln in den USA. Dort war 1932 das Baby des Atlantiküberquerers
Charles Lindbergh entführt worden. Als zwei Jahre später der
deutschstämmige Einwanderer Bruno Richard Hauptmann als mutmaßlicher
Täter verhaftet wurde, glaubte Lindbergh, dessen Stimme an ihrem
starken deutschen Akzent wiederzuerkennen. Hauptmann wurde
hingerichtet, ohne gestanden zu haben – obwohl schon Zeitgenossen diese
Art der Beweisführung als kriminalistisch äußerst fragwürdig
einstuften. In der Folge erschienen die ersten beiden empirischen
Studien, die sich mit der Wiedererkennbarkeit von Stimmen befassten.

In Deutschland etablierte sich das Fach zur Zeit des
RAF-Terrorismus. Damals wollte man vor Gericht objektive Sachbeweise,
die unabhängig von Zeugenaussagen Bestand hatten. An diese Zeit
erinnert sich auch Hermann Künzel, der die Abteilung Sprecherkennung
beim Bundeskriminalamt aufgebaut hat.

In einem seiner Gutachten identifizierte er Peter-Jürgen Boock als
einen der Entführer von Hanns Martin Schleyer. Die RAF hatte ihre
Interviews mit dem später von ihr ermordeten Arbeitgeberpräsidenten
aufgezeichnet, um sie für die Nachwelt zu erhalten. Boock verriet sich
durch einen charakteristischen Pfeiflaut, den er aufgrund einer Lücke
zwischen den Schneidezähnen produzierte. Wenn er "sch" sprach, war die
Energie der entsprechenden Frequenz in der Spektralanalyse 100-mal so
hoch wie bei jemandem, der das "sch" ohne Pfeifton sagte. "Das war für
das Gericht in Stammheim sehr schön zu sehen", sagt Künzel, "als roter
Spektralfleck auf grünem Hintergrund." Peter-Jürgen Boock wurde zu
dreimal lebenslänglich verurteilt.

Seither haben Sprachdetektive des BKA mitgeholfen, etliche der
spektakulärsten Kriminalfälle der jüngeren deutschen Geschichte
aufzuklären: den Polizistenmord in Holzminden Anfang der 1990er Jahre,
die Entführung des Millionenerben Jan Philipp Reemtsma, die Erpressung
des Lebensmittelkonzerns Nestlé. Der geflüchtete Immobilienspekulant
Jürgen Schneider wurde mit ihrer Hilfe gefasst, und auch dem
Kaufhauserpresser Arno Funke alias Dagobert kamen sie auf die Spur.

Stimme und Sprechweise eines Menschen lassen allerdings längst nicht
so eindeutige Rückschlüsse auf seine Identität zu wie etwa ein
Fingerabdruck oder eine DNA-Spur. Die Phonetiker im BKA operieren daher
mit einer sechsstufigen Skala von Wahrscheinlichkeiten. Um den
maximalen Wert zu erreichen, die "an Sicherheit grenzende
Wahrscheinlichkeit", muss schon so einiges an Indizien zusammenkommen.

Denn die Stimme eines Menschen ist zwar charakteristisch, aber auch
sehr variabel. Morgens klingt sie frischer als abends, in jungen Jahren
heller als im Alter, während einer Depression monotoner als sonst. Vor
allem wandelt sie sich mit der Situation: Beim Drogendeal per
Mobiltelefon aus dem Lastwagen hört sich ein Mann ganz anders an, als
wenn er entspannt mit der Freundin telefoniert.

Wie schwierig die Identifizierung einer Person über die Stimme sein
kann, zeigte sich kürzlich bei einem Prozess vor dem Landgericht
Potsdam. Es ging um den Überfall auf Ermyas Mulugeta am Ostersonntag
2006.

Der aus Äthiopien stammende Deutsche war von zwei Männern
niedergeschlagen und lebensgefährlich verletzt worden. Die
Handy-Mailbox seiner Ehefrau hatte das Wortgefecht zwischen Mulugeta
und einem der Täter aufgezeichnet. Dessen Stimme klang ungewöhnlich
hoch, hatte einen großen Umfang und eine mittelmärkische Sprachfärbung
– ähnlich wie die des Angeklagten Björn L. Aber das reichte für eine
Verurteilung nicht aus: Der Handy-Mitschnitt war von schlechter
Qualität, und Björn L. litt nach Auskunft eines Arztes um Ostern 2006
an einer Kehlkopfentzündung. Dass der Unbekannte mit ihm identisch sein
könnte, hielt die Gutachterin vom Landeskriminalamt Brandenburg
lediglich für "wahrscheinlich" – das ist der zweitniedrigste Wert auf
der sechsstufigen Skala. Björn L. wurde freigesprochen.

Das Beispiel illustriert eines der Hauptprobleme der
Stimmenidentifizierung: "Nur der Geheimdienst produziert High
Fidelity", sagt Hermann Künzel, der heute Phonetik an der Universität
Marburg lehrt. Die meisten Aufzeichnungen sind "schmutzig", schon
aufgrund der Übertragungswege.

Am Telefon etwa werden nur Frequenzen bis rund 3400 Hertz
übermittelt. Erst jenseits dieses Frequenzbereichs lassen sich aber
beispielsweise die Laute f und s unterscheiden. Die
Mobiltelefon-Kommunikation hat die Arbeit der Ermittler noch einmal
erschwert. Zum eingeschränkten Frequenzbereich kommt bei billigen
Providern ein Brummton von 240 Hertz. Obendrein wird manchmal
sogenanntes Comfort Noise zugespielt, das den Teilnehmern in
Gesprächspausen signalisieren soll, dass die Verbindung gehalten wird.

Solches Material für die Fahndung über Rundfunk und Fernsehen
aufzubereiten, ist eine Wissenschaft für sich. Zwar gibt es technische
Hilfsmittel, die Störfrequenzen aus einer Aufzeichnung herausfiltern
können, aber dabei geht leicht auch das Charakteristische einer Stimme
verloren. Künzel vergleicht seine Arbeit mit der Operation an einem
Gehirntumor. Wenn der Chirurg den Krebs sauber wegschneidet,
beeinträchtigt er womöglich lebenswichtige Funktionen des Patienten.
Entfernt er zu wenig, ist das Grundproblem nicht beseitigt. Zu
technischen Details schweigt er. "Es läge nicht im Interesse der Sache,
dazu Weiteres zu sagen."

Um Sprachproben besser analysieren zu können, arbeiten die
BKA-Experten mit Hochschulen in Saarbrücken, Trier oder Koblenz
zusammen, forschen aber auch selbst. "Je mehr man quantifizieren und
statistisch absichern kann, desto besser", sagt der Phonetiker Olaf
Köster. Zum Beispiel hat das BKA eine repräsentative Datenbank
zusammengestellt, aus der unter anderem hervorgeht, wie die
Stimmbandfrequenzen von Männern und Frauen verteilt sind. Weil Männer
einen größeren Kehlkopf und somit längere Stimmlippen haben, sprechen
sie in der Regel tiefer, mit durchschnittlich 118 Hertz. Gerät aber ein
Mann mit normaler Stimmtonlage unter Stress oder in eine laute
Umgebung, kann seine Stimme durchaus einmal 60 Hertz höher liegen –
dann klingt er fast wie eine Frau.

Die Hintergrundstatistik für dieses Phänomen lieferten dem BKA 100
Polizeibeamte, die unter anderem "Der Nordwind und die Sonne" lasen,
eine Fabel des antiken Dichters Äsop, die Phonetiker als Mustertext
schätzen. Erst lasen die Männer mit normaler Stimme; und dann noch
einmal, während sie per Kopfhörer lautes Rauschen zugespielt bekamen.
Ergebnis: Lautstärke und Stimmbandgrundfrequenz nahmen zu, die
Testpersonen artikulierten etwas offener und produzierten weniger Ähs.

Die Kollegen müssen auch in anderen Versuchen als Probanden für die
Sprachdetektive herhalten. Ein Ölunfall auf der Unterelbe, den ein
trunkener Lotse verschuldet hatte, inspirierte die Fahnder dazu, den
Einfluss von Alkohol auf Sprache und Sprechweise systematisch zu
untersuchen. Für die Studie betranken sich 40 Polizeischüler im Dienst.
Die Testflüssigkeit war 40-prozentiger Wodka, pur oder mit Wasser
verdünnt. Nach jeder Runde lasen die Männer die Äsop-Fabel vor. Sie
konnten den Versuch jederzeit abbrechen, doch alle gaben ihr Bestes –
eine der Testpersonen hielt durch bis fast zur Alkoholvergiftung. Der
selbstlose Einsatz bescherte dem BKA neue Erkenntnisse: Schon ab 0,4
Promille lasen die Polizisten den einfachen Text nicht mehr fehlerfrei.
Bei zwei Dritteln der Teilnehmer erhöhte sich unter Alkoholeinfluss die
Stimmfrequenz. Jenseits von 1,2 Promille klangen alle mehr oder weniger
heiser. Mit zunehmenden Promille nahm die Sprechgeschwindigkeit ab, die
Zahl der Pausen dagegen zu.

Etwa 100 Fälle bearbeiten die Sprachdetektive des BKA im Jahr, rund
zwei Drittel davon haben mit Stimmenvergleich und Stimmenanalyse zu
tun. Henry Higgins, der Phonetikprofessor aus dem Theaterstück
"Pygmalion" von George Bernard Shaw, hätte seine Freude an den Kollegen
vom BKA. So wie er das Blumenmädchen Eliza Doolittle an ihrem
Cockney-Akzent als Arbeiterkind aus dem Osten Londons identifizierte,
können die BKA-Fahnder die Herkunft eines Täters mitunter anhand der
Sprachfärbung bis auf wenige Quadratkilometer eingrenzen.

Einem wie Olaf Köster macht es auch keine Mühe zu erkennen, in
welcher Region ich, die Interviewerin, aufgewachsen bin. Ich spreche
zum Beispiel das Wort "Kirche" wie "Kiache" aus, mit hellem,
breitgezogenem i- und offenem a-Laut – und schon ist dem Mann klar,
dass ich aus Westfalen stamme. Aber selbst der beste Phonetiker kennt
nicht alle deutschen Unterdialekte. Die BKA-Experten schufen deshalb
bereits vor Jahren eine Datenbank regionaler Umgangssprachen, die mit
200 repräsentativen Sprechern aus dem Deutschen Sprachatlas in Marburg
bestückt wurde. Der Sprachatlas hält mehrere tausend Sprachproben aller
möglichen deutschen Dialekte bereit. Ideal für die Zwecke der Fahnder
war diese Sammlung allerdings nicht. "Das sind teils alte, grummelige
Aufnahmen, und die Sprecher erzählen noch von der Telegrafie", sagt
Köster.

Man beschloss, eine neue Datenbank anzulegen, mit zeitgenössischen
Sprechern. Es sollten möglichst keine Akademiker sein, denn diese sind
unter Erpressern selten vertreten. Gewünscht waren außerdem eine
natürliche Kommunikation und eine regional gefärbte Sprache anstelle
von reinem Dialekt. "Die bösen Burschen kommen zwar mitunter aus einem
Milieu, das dialektgeprägt ist, aber sie wollen sich ja verständlich
machen und versuchen deshalb, Hochdeutsch zu reden." Wer konnte dies am
besten simulieren? Die Beamten aus den Notrufzentralen der Polizei,
hieß es.

Nachdem die nötigen Genehmigungen vorlagen, besorgten sich die
BKA-Phonetiker Aufzeichnungen von Polizeistationen wie
Kirchheimbolanden, Herborn oder Waldshut-Tiengen. Mitschnitte von 321
Sprechern kamen so zusammen. Die Kollegen aus den Notrufzentralen
lieferten zusätzlich eine vorgelesene Textprobe – wiederum die
Äsop-Fabel. Das gesamte Material wurde in Orthographie und Lautschrift
der deutschen Standardsprache verschriftet und dann nach Worten und
grammatischen Einheiten segmentiert in den Computer eingegeben.

Künftig können Segmente eines Erpresseranrufs mit den entsprechenden
Eingaben aus der Datenbank verglichen werden. Wenn ein Täter einen
Dialekt oder Akzent nachzumachen versucht, irritiert das die BKA-Leute
nur mäßig. Kaum jemand schafft es, sich länger als wenige Sekunden zu
verstellen. Das musste auch "Goldadler" erfahren, ein Erpresser, der
Lebensmittel einer rheinländischen Supermarktkette mit Arsen vergiftet
hatte. Zwar hatte der Mann geschickt verschiedene Akzente imitiert.
Doch als es kurz vor der Geldübergabe hektisch wurde, verriet er sich
durch ein einziges Wort. Er sprach "warten" auf die sogenannte
ripuarische Weise als "wachten" aus, mit einem ach-Laut vor dem t. Das
macht nur ein echter Rheinländer. Diese Information bestätigte die
Ermittler – sie hatten einen Mann aus dem Raum Bonn in Verdacht.

Die neueste Entwicklung sind sogenannte "Total-Voice-Systeme". Sie
berechnen Resonanzkoeffizienten im Mund-Nasen-Rachenraum. Damit könnten
auch Personen identifiziert werden, die in einer völlig unbekannten
Sprache sprechen. Denn die Resonanzräume in Mund, Nase und Rachen eines
Menschen sind sehr charakteristisch, viel individueller als etwa die
Stimmtonerzeugung in seinem Kehlkopf. Die zweite Besonderheit des
Systems: Es setzt die Wahrscheinlichkeit, dass zwei Stimmen einander
rein zufällig ähneln, ins Verhältnis zur Wahrscheinlichkeit, dass der
eine Sprecher mit dem anderen identisch ist. Ein Riesenschritt hin zu
einer verlässlicheren Analyse.

Das System, das Künzel seit mehreren Jahren erprobt, wurde für die
Guardia Civil in Spanien entwickelt, um ETA-Terroristen zu
identifizieren. Auch das BKA forscht in dieser Richtung. In Europa
werden Total-Voice-Systeme vereinzelt bereits vor Gericht eingesetzt.

Als Künzel kürzlich bei einer Zusammenkunft der iberoamerikanischen
Polizeichefs davon berichtete, zeigten sich insbesondere die Kollegen
aus Kolumbien interessiert. Dort haben sich Entführungen zu einer Art
Wirtschaftszweig entwickelt – mit einem engen Täterkreis. Mithilfe des
Total-Voice-Systems will man die Erpresser künftig schnell und
zuverlässig identifizieren.

Geschulte Phonetiker wie Künzel ersetzt aber auch die ausgefeilteste
Technik nicht. "Gerät ein solches Verfahren in falsche Hände, ist das,
als ob Sie ein hochgetuntes Auto an jemanden geben, der nicht fahren
kann."

Quelle: http://www.morgenpost.de/content/2007/10/14/biz/926354.html