Können wir (noch) anonym bloggen?

von simoncolumbus

Auf dem 26. Chaos Communication Congress (26C3) sprach Michael Brennan über “Stilometrie“.
Dahinter verbirgt sich die Untersuchung der sprachlichen Eigenschaften
von Texten mit den Mitteln der Statistik. Das stellt eine Bedrohung für
alle dar, die anonym Texte veröffentlichen wollen. Brennan lieferte
daher die passenden Gegenmittel gleich mit.

[netzpolitik.org] Stilometrie-Programme bedienen sich Künstlicher Intelligenz, die an
Texten in der Erkennung sprachlicher Muster trainiert wird. Später
sollen sie ihr “Wissen” in der Anwendung selbstständig erweitern. Auf
diese Weise ist eine automatisierte Autorenerkennung möglich. “6500
Worte” seien zur Aufdeckung der Identität des Verfassers eines Textes
ausreichend, sagt Brennan.

Der Wissenschaftler unterscheidet zwei mögliche Szenarien:
“Supervised” und “unsupervised stylometry”. Bei letzterer werden
Dokumente, deren Urheber nicht bekannt sind, darauf untersucht, welche
die selben Autoren haben. “Supervised stylometry” arbeitet mit
Dokumenten, deren Autoren bekannt sind, um die Verfasser weiterer Texte
zu identifizieren.

Brennan hat beide Szenarien mit verschiedenen stilometrischen
Methoden untersucht. Für große Textmengen weniger Autoren erweist sich
die Analyse als ausgesprochen treffsicher. Die Untersuchung von 20 bis
200 Wörtern langen Texte aus Foren von neun verschiedenen Autoren mit
“unsupervised stylometry” ergab eine Genauigkeit von 35%. Mit
umfangreicherem Ausgangsmaterial (500 bis 750 Worte) von nur noch fünf
Urhebern stieg die Genauigkeit auf beinahe 90%. “Supervised stylometry”
zeigt sich bei einer geringen Anzahl an Autoren noch effektiver. Wenn
lediglich zwei Urheber für einen Text infrage kommen, lässt sich der
tatsächliche Verfasser mittels Stilometrie mit beinahe 100% Genauigkeit
feststellen. Aussagen für Szenarien mit vielen Autoren gibt es noch
keine.

Wie kann man sich also gegen diese Autorenerkennung zur Wehr setzen?
Brennan nennt zwei mögliche Angriffe: Verschleierung und Imitation. Man
kann also versuchen, entweder den eigenen Schreibstil zu verstecken
oder stilistische Eigenheiten eines anderen Autors aufgreifen. Beide
Angriffe erweisen sich als effektiv. Verschleierung lässt die
Treffsicherheit der Stilometrie-Methoden auf Zufallsniveau fallen;
Imitation senkt sie sogar auf nahezu null. Texte durch
Übersetzungsprogramme zu schicken hat sich dagegen als wenig
erfolgsversprechend gezeigt.

Was tut man also, wenn man Texte anonym veröffentlichen will? Einen
anderen Autor imitieren – und wenig schreiben, empfiehlt Brennan. Er
warnt allerdings, dass in Zukunft effektivere Stilometrie-Programme zu
anderen Ergebnissen kommen könnten. Ein Wettrüsten zwischen den
Entwicklern von Stilometrie-Programmen und anonymen Autoren sei gut
denkbar. Brennan schlägt daher die Entwicklung einer Software vor, die
eine Maschinen-gestützte Anonymisierung von Dokumenten ermöglichen soll.

Michael Brennan und seine Kollegin Rachel Greenstadt sammeln derzeit
weitere Dokumente, um ihre Untersuchungen auf größere Autorengruppen
auszuweiten. Wer sie dabei unterstützen möchte, kann dazu eigene Texte beitragen.

Source: http://www.netzpolitik.org/2009/koennen-wir-noch-anonym-bloggen/