Как мы обрабатывали данные
График показывает, как часто появляются отдельные понятия и словосочетания в выступлениях президентов России с 2000 по 2019 год включительно.
В процессе обработки и визуал изации данных мы ориентировались на проект наших коллег из Zeit Online «70 лет Бундестага: О чем говорит Бундестаг» (70 Jahre Bundestag – Darüber spricht der Bundestag).
Какие данные мы использовали?
Базой для нашего анализа послужили более 10 тысяч стенограмм, опубликованных на сайте kremlin.ru между 1 января 2000 и 31 декабря 2019 года. Эти тексты включают официальные выступления российских президентов Владимира Путина и Дмитрия Медведева (2008–2012), протоколы встреч, интервью, а также статьи, написанные для СМИ.
С 7 мая 2008 до 6 мая 2012 года президентом Российской Федерации был Дмитрий Медведев, а Владимир Путин в это время занимал пост премьер-министра. Поэтому материалы, вышедшие в период так называемой рокировки, относятся к Медведеву, а начиная с 7 мая 2012-го — снова к Путину. Мы пометили этот промежуток в нашем графике.
Стенограммы, опубликованные на kremlin.ru, содержат не только речи и обращения президента, но и выступления его собеседников, вопросы интервьюеров и т. д. При построении графиков мы по возможности отсеивали такого рода тексты, хотя, поскольку в стенограммах нет однородной маркировки источника текстов, мы не можем стопроцентно исключить легкие искажения за счет вкраплений речи третьих лиц.
Как мы обрабатывали данные?
Стенограммы, прошедшие фильтр, мы разделили на отдельные слова — так называемые токены. Из списка токенов мы исключили так называемые стоп-слова, такие как «и», «так», «только», не имеющие значения для анализа.
Поскольку в русском языке существует множество словоформ (газета, газеты, газете, газету…), на следующем этапе мы привели их к единообразию, то есть свели к их основной — словарной — форме. В компьютерной лингвистке этот шаг называется лемматизацией. Для этого мы использовали алгоритм, разработанный создателями «Яндекса». (В английской версии мы использовали алгоритм лемматизации StanfordNLP LemmaProcessor.)
Поскольку нас интересовали не только отдельные понятия, но и словосочетания, такие как «искусственный интеллект» или «Великая Отечественная война», мы провели еще и поиск устойчивых сочетаний — так называемых N-грамм (биграммы, триграммы и т. д.)
И наконец, мы посчитали частотность появления слов и словосочетаний в документах каждого года. Поскольку объем опубликованных текстов год от года меняется, мы показываем в графике не абсолютную, а относительную частотность, то есть количество появлений слова или словосочетания на 100 тысяч слов по каждому году.
На что еще следует обратить внимание?
Орфографические ошибки могут иметь место, если они были в оригинале. Для того чтобы массив данных оставался обозримым, мы показываем только понятия, появившиеся не менее трех раз за весь рассматриваемый период.
Русская и немецкая версии графика основаны на русскоязычных публикациях kremlin.ru, английская версия опирается на англоязычные тексты. Поскольку английская версия сайта содержит несколько меньше документов, переводы иногда отклоняются от оригинала, и орфография не всегда единообразна (например, возможны разные написания: modernisation или modernization), поэтому между русской и английской версиями графика возможны различия.
Расшифровать Путина
В марте 2000 года Владимир Путин был избран президентом России в первый раз. С того момента он остается у власти уже 20 лет. За это время произошло многое: террористические акты, экономические кризисы, война в Грузии, аннексия Крыма и война на востоке Украины, были введены санкции и антисанкции, проведены крупные реформы, сменились пять составов Госдумы, прошли крупные протестные акции.
Спецпроект dekoder «20 лет Путина» — это попытка расшифровать русского президента. Не только в переносном смысле, но и в буквальном, техническом. Для этого мы создали программу, которая анализирует тексты официального сайта российского президента и показывает частоту использования Путиным и Медведевым (занимавшим президентский пост в 2008–2012 годах) отдельных слов и словосочетаний. Истории, рассказанные журналистами и исследователями из европейских университетов, поясняют, в каком контексте использовались эти слова.