1

Цифровые гуманитарные науки

Опубликовано: 24.12.2013


Digital Humanities — исследования на стыке компьютерных и гуманитарных наук. Эти проекты на грани литературы и математики начали активно развиваться в последние двадцать лет и, кажется, окрепли настолько, чтобы прийти и в школы. Edutainme собрали заметные инициативы, которые пригодятся прямо сейчас.

Национальный корпус русского языка

Корпус — это хранилище текстов, описанных особым образом. Существуют корпуса газетных заметок, поэтических произведений и даже целых языков: с их помощью можно писать довольно серьезные научные работы или просто проводить нескучные уроки. Один из самых кропотливо сделанных проектов — Национальный корпус русского языка, в котором есть разные разделы. Обучающий корпус специально ориентирован на школьный курс русского языка и помогает освоить орфографические, грамматические и синтаксические правила. Там собраны самые характерные примеры, из которых легко понять, как пишется слово в разных случаях и что оно обозначает. Можно искать примеры определенных форм (например, деепричастия, образованные от переходных глаголов совершенного вида) и составлять на их основе упражнения. В поэтическом корпусе хранится значительная часть русских стихотворений XVIII-XX веков. Кстати, это единственный пример национального поэтического корпуса — на других языках такого пока нет. Раздел пригодится тем, кто изучает вопросы цитирования, хочет разобраться в тонкостях стиховых размеров или составить представление о поэтическом словаре конкретного автора. Один из самых новых — мультимедийный корпус, для которого разметили кинофильмы 1930-2000-ых годов. С его помощью можно проделывать совсем уже удивительные вещи: например, найти фильм по жестам, даже если вы помните только, что герой истошно выкрикивал какое-нибудь слово и топал ногой. Конечно, развитие корпуса требует колоссальных финансовых и интеллектуальных вложений, поэтому пока там не всё идеально. Тем не менее, НКРЯ по праву считается одним из самых полных и хорошо продуманных в мире.

Британский Национальный Корпус

Британцы тоже разработали свой корпус — попроще, чем русский, но все равно впечатляющий. British National Corpus (BNC) показывает, как современный английский язык функционирует в реальной жизни. В нем собраны тексты разного типа: можно проверить, в каких ситуациях используется словосочетание, или проследить историю употребления слова. Примерно десятую часть от всех материалов составляют расшифровки устных рассказов людей разного возраста и происхождения — пригодится тем, кто, как доктор Дулиттл из пьесы Бернарда Шоу, хочет различать сотни акцентов. Любители северноамериканского произношения могут заглянуть в похожий Корпус Современного Американского Английского (COCA).

Весь Толстой в один клик

Проект «Весь Толстой в один клик»

Льву Толстому выпала честь стать первым русским писателем, чье творчество будет целиком превращено в корпус. Классик еще при жизни отказался от авторских прав и невольно стал символом глобализации: на титульных листах всех девяноста томов значится «Перепечатывать разрешается безвозмездно». В России стандартов оцифровки культурного наследия пока нет — лингвисты с факультета филологии НИУ ВШЭ решились их придумать сами. С помощью краудсорсинга тексты уже распознали в рекордные сроки и сейчас вычитывают; потом их разметят и прикрепят к собранию специальные механизмы поиска. Если все получится, так можно будет разметить любое электронное издание: эту матрицу планируют использовать при подготовке других текстов. Кстати, «толстовский» корпус, скорее всего, выделят в отдельный раздел НКРЯ.

Стэнфордская Литературная Лаборатория

Проекты Стэнфордской лаборатории — пожалуй, самые мощные примеры того, что можно сделать на основе корпусов. Ученые занимаются литературными исследованиями социального, количественного и эволюционного характера. Например, анализируют связь между длиной заглавия и сюжетом английского романа XIX века, следят за выживанием детектива как жанра или изучают популярность переводных фильмов за границей. Результаты представляются в виде карт, графиков и сложных кустистых схем. Основатели лаборатории называют этот подход distant reading (англ. — чтение на расстоянии, удаленное чтение): он позволять рассматривать литературу на макроуровне и выявлять глобальные закономерности. Это прямая противоположность close reading, чересчур пристального чтения — когда на занятиях гадают, как в известном анекдоте, что символизируют синие занавески.

Отношения между героями «Гамлета», представленные в виде сети

Из песни... не выкинешь

Онлайн-проект «Из песни... не выкинешь» — научное исследование, замаскированное под игру. На самом деле с помощью полученных данных филологи анализируют мнемонические механизмы, но игра затягивает, и о своем подопытном статусе почти сразу забываешь. Участнику предлагается стихотворный отрывок с пропущенным словом и несколько вариантов ответа. Угадал — получай очки. Если задание с открытым ответом, предположения нужно вписывать самому — они понадобятся разработчикам, чтобы сбивать с толку будущих игроков. В корпус игры входят как тексты школьной программы, так и произведения малоизвестных авторов. Как ни странно, путаться начинаешь довольно быстро, но от того еще веселей. Игра развивает стиховую память и чувство языка, а исследователи в это время строят графики и делают выводы.

RhymeZone

Забавная корпусная игра есть у английских коллег — RhymeZone опирается на тексты Шекспира. Игроку предлагается первое слово одной строчки из произведения и наиболее частотные варианты ее продолжения: нужно составить всю фразу, постепенно выбирая слово за словом из списка. Можно устроить литературный вариант конкурса «Угадай мелодию» («Я угадаю эту строчку из Гамлета с двух слов!») или просто удивляться тому, как часто повторяются даже такие великие авторы.


Маша Канатова, Саша Милякина