Wie wir die Daten aufbereitet haben
Die Grafik zeigt, wie oft einzelne Begriffe und Begriffskombinationen auftauchen in den Veröffentlichungen der russischen Präsidenten vom Jahr 2000 an bis einschließlich 16. Januar 2024.
Bei der Aufbereitung und Darstellung der Daten haben wir uns weitgehend orientiert am Vorgehen der Kollegen von Zeit Online in ihrem Projekt 70 Jahre Bundestag – Darüber spricht der Bundestag.
Um welche Daten geht es?
Ausgangsbasis der Analyse sind die über 10.000 Stenogramme, die zwischen dem 1. Januar 2000 und dem 16. Januar 2024 auf der Seite des Kreml veröffentlicht wurden. Das können offizielle Ansprachen des russischen Präsidenten sein, Gesprächsprotokolle, Interviews, aber auch etwa Gastbeiträge in Zeitungen.
Vom 7. Mai 2008 bis zum 6. Mai 2012 war Dimitri Medwedew Präsident der Russischen Föderation, Wladimir Putin übernahm derweil das Amt des Premierministers. Das heißt, für die Zeit der sogenannten „Rochade“ beziehen sich die Daten auf Medwedew, erst ab dem 7. Mai 2012 wieder auf Putin. Wir haben die Jahrgänge in der Grafik entsprechend gekennzeichnet.
In den auf kremlin.ru veröffentlichten Stenogrammen sind nicht nur die Redebeiträge des Präsidenten abgebildet, sondern auch die von Gesprächspartnern, Interviewern etc. Letztere haben wir für unsere Grafik so gut es geht vorab herausgefiltert, jedoch sind diese Beiträge nicht immer einheitlich markiert, sodass wir leichte Verzerrungen hier nicht einhundertprozentig ausschließen können.
Wie sind wir vorgegangen?
Für die Analyse haben wir die gefilterten Stenogramme zunächst in Einzelwörter – sogenannte Tokens – zerlegt. Die Liste der Einzelwörter haben wir dann um sogenannte Stopwords bereinigt – das sind Wörter wie „und“ (и), „so“ (так) oder „nur“ (только), die für die Analyse keine besondere Relevanz haben.
Da die Begriffe (insbesondere im Russischen) in verschiedenen Formen auftreten können (газета, газеты, газете, газету, …), ging es als nächstes darum, alle Varianten zu vereinheitlichen, sie in ihre Grund- bzw. Lexikonform zu bringen. Dieser Schritt wird in der Computerlinguistik Lemmatisierung genannt. Hierfür verwenden wir einen Algorithmus, den der russische Suchmaschinenanbieter Yandex entwickelt hat. (In der englischen Version verwenden wir den StanfordNLP LemmaProcessor).
Da uns nicht nur Einzelbegriffe interessieren, sondern auch Wortverbindungen wie „künstliche Intelligenz“ (искусственный интеллект) oder „Großer Vaterländischer Krieg“ (Великая Отечественная Война), haben wir die Daten außerdem nach Wörtern durchsucht, die besonders häufig in Zweier- und Dreier-Kombinationen auftreten (sogenannte N-Gramme).
Schließlich haben wir gezählt, wie oft die Wörter und Wortverbindungen jeweils in den Dokumenten der einzelnen Jahre auftauchen. Um Verzerrungen durch unterschiedliche Publikationsvolumina in den Jahren auszuschließen, zeigen wir in der Grafik nicht die absolute, sondern die relative Häufigkeit: wie oft ein Wort bzw. eine Wortverbindung pro 100.000 Wörter in einem Jahr auftaucht.
Was sollte noch beachtet werden?
Rechtschreibfehler können wie in den Originaldokumenten enthalten sein. Um den Datensatz überschaubar zu halten, zeigen wir nur Begriffe, die mindestens dreimal im gesamten Zeitraum vorkommen.
Für die deutsche und russische Version dieser Grafik wurden die russischsprachigen Veröffentlichungen des Kreml verwendet, für die englische Grafikversion die englischsprachigen. Da auf der englischen Kreml-Seite etwas weniger Dokumente veröffentlicht sind, die Übersetzungen zum Teil von den Originalen abweichen können und auch die Schreibweise nicht immer einheitlich ist („modernisation“ vs. „modernization“) kann es zu Unterschieden zwischen der englischen und der russischen Version kommen.
In der deutschen Version können bedarfsweise maschinelle Übersetzungen der russischen Suchbegriffe angezeigt werden. Hierfür verwenden wir eine Kombination aus Yandex.Dictionary und Yandex.Translate.
Putin entschlüsseln
Im März 2000 wurde Wladimir Putin zum ersten Mal zum russischen Präsidenten gewählt. Nun ist er 20 Jahre an der Macht. 20 Jahre sind viel. Und viel ist passiert: Terroranschläge, Wirtschaftskrisen, der Russisch-Georgische Krieg, die Krim-Annexion und der Krieg im Osten der Ukraine, Sanktionen gegen Russland und Gegensanktionen. Umfangreiche Reformen wurden durchgeführt, es gab fünfmal ein neues Parlament und es gab große Protestaktionen.
Das dekoder-Special 20 Jahre Putin ist ein Versuch, Putin zu entschlüsseln. Nicht nur im übertragenen Sinn, sondern tatsächlich in einem technischen. Dafür haben wir ein Tool entwickelt, das die Texte der offiziellen Webseite des russischen Präsidenten grafisch aufbereitet und die Häufigkeit der von Putin (2000–2008 und 2012–2020) und Dmitri Medwedew (2008–2012) verwendeten Wörter in Grafiken zeigt. Wissenschaftler aus europäischen Universitäten greifen sich einzelne dieser Begriffe heraus und schreiben kurze Stories.
Duma entschlüsseln – das neue Special
27 Jahre, 7 Legislaturperioden, 385.000 Redebeiträge. dekoder hat gemeinsam mit der Novaya Gazeta die Sitzungs-Stenogramme der russischen Staatsduma durchforstet, um herauszufinden worüber und wie oft welche Abgeordneten seit 1994 gesprochen haben – Die Duma spricht