Стремление к счастью, оказывается, заложено в нас не только на уровне психики и культуры, но и на уровне языка. По крайней мере об этом говорят исследования компьютерных лингвистов из университета Вермонта. О том, какой язык самый «радостный» и как воспринимают одни и те же слова англичане и немцы, рассказывается в статье на сайте Medium.com. T&P перевели из нее самое главное.

Еще в 1969 году ученые из университета Иллинойса начали изучать, какой лексикой пользуются люди в разных странах. Оказалось, что независимо от принадлежности к определенной культуре люди чаще отдают предпочтение позитивно окрашенным словам, чем негативным. В психологии этот феномен известен как принцип Поллианны, по имени героини романа Элеонор Портер, в котором главная героиня пыталась в каждой ситуации найти что-то хорошее. Очевидно, что так ведут себя далеко не все — поэтому со времен первого исследования было проведено еще несколько, и их результаты оказывались очень противоречивыми.

Одно из последних исследований провели Питер Додд и его коллеги из Computational Story Lab в университете Вермонта. Они измерили частоту использования положительных и отрицательных слов в корпусе из 100 000 слов из 24 языков, представляющих разные мировые культуры.

«На первом месте в списке языков с наибольшим количеством слов для радости и счастья находится испанский, за ним следуют португальский и английский, а завершает список китайский язык»

Исследователи начали с того, что собрали корпус слов из 10 языков, включая английский, испанский, французский, немецкий, бразильский, португальский, корейский, китайский, русский, индонезийский и арабский. Для каждого языка они выбрали 10 000 самых часто используемых слов. Команда заплатила носителям языка, чтобы те оценили каждое слово согласно своим ощущениям по шкале от самых отрицательных или грустных до самых положительных. На каждое слово пришлось по 50 таких рейтингов, и в целом ученые стали обладателями впечатляющей базы данных из почти 5 миллионов индивидуальных оценок. На ее основе они построили график восприятия слов для каждого языка.

Оказалось, что на первом месте в списке языков с наибольшим количеством слов для радости и счастья находится испанский, за ним следуют португальский и английский, а завершает список китайский язык. И это только начало изучения вопроса. Теперь Додд и его коллеги таким же способом анализируют тональность романов — они подсчитывают количество положительных и отрицательных слов в тексте, чтобы сделать вывод о его эмоциональном уклоне.

Их исследования показывают, что, например, «Моби Дик» и «Преступление и наказание» заканчиваются на низких нотах, а вот развязка «Графа Монте-Кристо» — это всплеск позитивности. Команда также создала сайт, где можно посмотреть распределение позитивных и негативных слов в разных романах и увидеть, как менялась тональность по ходу произведения, а самое главное — самому поучаствовать в оценке эмоциональной палитры текстов.

Здесь же можно узнать, как одно и то же слово воспринимается в разных языках. Например, по шкале от 1 до 9, где 9 — это абсолютное счастье, немцы оценивают слово «подарок» на 3,54. Для сравнения: англичане считают слово «подарок» очень позитивным и дают ему 7,72 балла. А со словом «жара» все наоборот: англичане оценивают его на 4,16, а немцы — на 7.

Исследование поднимает много интересных вопросов. Например, почему есть различия в восприятии слов? Почему китайский менее «счастливый» язык, чем немецкий, португальский или любой другой язык в исследовании? И почему испанский оказался лидером?

Эти вопросы должны быть разрешены в будущем. Но сейчас понятно, что Додд и его команда смогли показать, какой огромный вклад может внести анализ данных в лингвистику и психологию, если организовать его как краудсорсинговое исследование. Такой способ должен наверняка стать новым стандартом, на который в дальнейшем будут ориентироваться при проверке гипотез. Кроме того, уже сейчас анализ тональности слов стал важным инструментов для исследования настроений в Twitter. Он применяется, чтобы узнать отношение к каким-то продуктам или политическим событиям. И здесь нужно учитывать склонность языка к позитивному описанию.