Научи бота! — разметка эмоций и семантики русского языка
Со всех сторон на нас сыпятся перспективы светлого роботического будущего. Или не очень светлого, в духе Матрицы и Терминатора. В самом деле — машины уже уверено справляются с переводами, не хуже и намного быстрее людей распознают лица и предметы окружающего мира, учатся понимать и синтезировать речь. Круто? Не то слово! Но дело серьёзно осложняется тем, что компьютеры так и научились ориентироваться в нашем мире. Всё, что они так хорошо делают, они делают по аналогии, не вдаваясь в суть и не нагружая себя смыслом происходящего. Может оно и к лучшему — дольше проживём, не будучи порабощены бездушным племенем машин. Но любопытство подталкивает к рискованным шагам, а именно к попыткам познакомить компьютер с нашим миром, в том числе и с внутренним — чувствами, эмоциями и переживаниями. Как мы планируем прокачать сознание машин, научить их эмоциям, чувствам и оценочным суждениям, а также где вы можете свободно скачать размеченные данные — читайте в статье.
Не хочу читать, покажите результат!
Можно сразу попробовать обучить бота по ссылке: Научи бота! Если понравится отвечать — создайте свою Карту и результат будет запоминаться.
Ограничения дистрибутивной семантики
В чём, собственно, проблема понимания компьютером текстов, ведь машина может изучить всё текстовое культурное наследие и научиться всему оттуда? Лучше слов расскажет результат работы word2vec. Для лексемы «мужчина»:
женщина 0.650 замужний 0.594 немолодой 0.542 антимужчина 0.538 … беременный 0.519 нерожавший 0.516 девушка 0.498 ...
Или для слова «горячий»:
теплый 0.510 … холодный 0.498 остыть 0.486 жаркое 0.467 ...
А для сильноположительной эмоции «восторг»:
восхищение 0.715 … негодование 0.609 ярость 0.597 ужас 0.586 отчаяние 0.584 … трепет 0.531 смятение 0.523 недоумение 0.522 … бешенство 0.472 ...
Или для широкого понятия «техника»:
… технология 0.569 искусство 0.451 мастерство 0.410 … самолётостроение 0.393 индустрия 0.392 медицина 0.379 ремесло 0.375 … промышленность 0.370 … знание 0.360 наука 0.358 ...
Собственно эти примеры ярко показывают, сколько информации даёт контекст. Достаточно много, но явно недостаточно, чтобы разводить антонимы, часть-целое, общее-частное, делать различие между вертикальными и горизонтальными связями. Поэтому, вполне разумно, что многие исследователи наряду с подходами дистрибутивной семантики (читай: word2vec) используют тезаурусы. Для английского языка таким ресурсом является WordNet, для русского — РуТез, Викисловарь.
Очевидное не так очевидно
Каждый исследователь, решившийся на дерзкую попытку объяснить машине смыслы, рано или поздно столкнётся с тем, что самые казалось бы тривиальные вещи компьютеру совершенно неочевидны. Более того, даже в детских книжках о них не написано ни слова. Мир, в целом ряде аспектов, познаётся нами через наши органы восприятия — посредством зрения, слуха, обоняния, осязания, вкуса и других. Затем мы уже коммуницируем друг другу предельно сжатый и краткий контекст ситуации, который разворачивается в отдельно взятой голове в детальную картину. Причём у каждого человека ситуация раскрывается по-разному, в зависимости от личного опыта, культурного фона, особенностей характера и мировосприятия.
Эмоции, чувства, переживания
Слова и словосочетания несут в себе гораздо больше смысла, чем зафиксировано в толковых словарях. В первую очередь это связано с такими зыбкими и слабоосязаемыми свойствами, как оценка и сопутствующая эмоциональная окраска. Например, словосочетание тяжкие муки несёт в себе сильную отрицательную эмоцию. А словосочетание бурная радость — сильную положительную. Не подарок — это что-то отрицательное, но не слишком. А, к примеру, виртуоз имеет довольно сильную положительную оценку. Сложность с фиксацией таких тонких характеристик слов в том, что они предельно субъективны и плохо формализуемы. Скажем, слово стратегия — оно положительное или нейтральное? Согласиться можно лишь с тем, что не отрицательное. Тем не менее эмоциональные и оценочные атрибуты являются неотъемлемой частью языковых единиц и играют довольно важную роль в человеческой коммуникации. Следовательно, если мы хотим сделать машину более человечной и приятной в общении, она тоже должна проникнуться этими тонкими материями. Что делать?
Вручную создать такого рода словарь было бы крайне трудоёмко, ведь размечать хочется не только слова, но и словосочетания. К тому же все оценки будут сильно привязаны к субъективному мнению исследователя. Хорошие новости! мы живём в 2017-ом году и нам доступны такие замечательные технологии, как Интернет и краудсорсинг. Последний позволяет одновременно справляться как с проблемой трудоёмкости, так и c субъективностью оценок. Конечно это рождает эффект «среднего по больнице», но для первого приближения мы позволим себе закрыть глаза на неровности такого рода.
Научи бота! — разметка эмоций и семантики русского языка
Идея реализована на языковой платформе Карта слов. Работа будет вестись по нескольким направлениям:
Оценочная разметка. Задача — разметить слова и выражения русского языка по критериям положительное/нейтральное/отрицательное и силе выраженности признака.
Эмоциональная разметка. Задача — разметить эмоционально окрашенные слова и выражения по поляризации и силе эмоционального фона.
Разметка тезауруса. Задача — разметить вертикальные и горизонтальные связи между словами, проставить семантические теги для слов и выражений.
Экспериментальная разметка отношений по теории „Смысл ⇔ Текст“, предложенной И. А. Мельчуком: MAGN(кофе) = крепкий кофе, MAGN(чувство) = сильное чувство и т.д.
Чтобы использовать человеческий труд с максимальной пользой и сделать задания интересными для отвечающих, применяются подходы дистрибутивной семантики и машинное обучение. За основу системы семантических категорий мы взяли классификацию, используемую для НКРЯ.
Как принять участие?
Важная цель нашей инициативы — восполнение недостающих лингвистических ресурсов для русского языка, открытых для использования исследователями, учёными-лингвистами и инженерами-практиками. Мы рассчитываем, что основываясь на данных разметки будут проведены интересные исследования, написаны научные статьи, статьи на Хабре, появятся инженерные продукты и открытые технологии. Вы можете помочь проекту следующими способами:
Участвовать в обучении бота. Это легко и увлекательно, а также позволяет прокачивать своё языковое сознание и подмечать интересные особенности русского языка.
Лайк, шер, Алишер! Делитесь ссылками на проект в социальных сетях, расскажите о нём в своём блоге или на сайте.
Конструктивная критика помогает развиваться и не погружаться в болото собственных иллюзий. Обсуждение очень важно, чтобы вовремя корректировать курс и создавать действительно полезный ресурс. Единственное пожелание: критикуете — предлагайте.
Семантика и когнитивная лингвистика. Мы стараемся прокачать своё понимание современных подходов к семантике и созданию такого рода ресурсов. Будем рады совету или рекомендации, что почитать, что изучить, с кем посоветоваться.
Распространение информации. Нам пригодится ваш совет о том, где ещё можно рассказать о проекте — это может быть ваш любимый техноблог, онлайн-журнал о технологиях, группа во ВКонтакте/Слаке/Телеграме или что-то другое.
Агрегированные результаты разметки будут открыты для скачивания и доступны по лицензии CC BY-NC 4.0. Получить и опубликовать первые результаты мы рассчитываем к середине/концу июля — всё будет зависеть от активности отвечающих. Чтобы ничего не пропустить, ставьте звёздочки и подписывайтесь на наш гитхаб:
Открытые данные на Карте слов
Где деньги, Зин?
Здорово попробовать совместить в одном проекте краудсорсинг и краудфандинг, что мы и сделали, запустив кампанию по сбору средств на Планете.ру:
Важно. Проект мы уже делаем и доведём до результата своими силами и имеющимися ресурсами. Собранные данные, как и обещали, будут открытыми и доступными всем желающим. Вопрос лишь в сроках и объёме разметки. Сейчас мы рассчитываем получить базовый результат (10.000 самых частотных слов) за три месяца, разметка полного объёма займёт около двух лет. Дополнительные ресурсы помогут существенно ускорить получение результата. Нам нужно помогать разработчикам, задействованным в создании и совершенствовании системы разметки, добавлять новые семантические категории и проводить исследовательскую работу. Также средства необходимы для продвижения проекта и проведения конкурсов. Пожертвовать на кампанию можно любое количество денег — при этом вы будете знать, что в общем успехе есть и ваш вклад, а каждый вложенный рубль будет потрачен на крутое и полезное дело. Не забывайте, что вы можете помочь инициативе и без денег. Ставьте лайки и рассказывайте о проекте в социальных сетях — это очень простой, совершенно бесплатный, но очень действенный способ продвижения.
И помните...
Корпорейт спонсоршип
Вы представляете устоявшийся бизнес и вам интересно развитие открытых лингвистических данных в России? Становитесь корпоративным спонсором проекта! Вы получаете вечную графическую ссылку со страницы проекта, дополнительную рекламу на многотысячную аудиторию и неземной респект от сообщества. Каждый вложенный рубль мы потратим с невероятной эффективностью, а за несколько месячных окладов одного программиста в крупной компании сделаем весь проект, результатами которого будут пользоваться тысячи исследователей, учёных и инженеров.
Коммерческое использование
По вопросам коммерческого использования или бизнес-специфичной разметки пишите на kartaslov@mail.ru или в ЛС автору статьи.
Благодарности
Большую благодарность хочется выразить организаторам и участникам Диалога-2017 — 23-ей международной конференции по компьютерной лингвистике и интеллектуальным технологиям. Именно в кулуарных обсуждениях мероприятия стала понятна необходимость такого рода разметки, а также собрана группа единомышленников для обсуждения экспериментальной разметки отношений по теории „Смысл ⇔ Текст“. Хочется надеяться, что в следующем году, основываясь на собранных данных, можно будет запустить новое интересное соревнование в рамках Dialogue Evaluation.
Ссылки