В декабре в Подмосковье пройдет Восьмой фестиваль медленного чтения, который организует edutainment-проект о традиционной и современной еврейской культуре «Эшколот». На этот раз участники фестиваля будут изучать памятники переводческого искусства, а также трактаты и эссе по философии перевода древних и современных авторов.

Анатолий Старостин

Руководитель группы семантического анализа компании ABBYY

— Лекция, которую вы будете читать на фестивале, называется «Искусство перевода в эпоху Google Translate». Не могу не спросить: в чем заключается это искусство?

— Искусство перевода заключается в том же, что и до появления статистических машинных переводчиков. Перевод как искусство был и остается серьезнейшей интеллектуальной и творческой задачей — периодически мы встречаем произведения, которые в переводах интереснее, лучшее, глубже оригиналов. Однако, сегодня уже можно говорить о том, как цифровая эпоха в целом помогает переводчикам. Сейчас переводчик может в любой момент получить доступ к огромному количеству информации, языковых ресурсов, контекстов, и здесь простая возможность эффективного поиска информации в интернете оказывается гораздо важнее статистического машинного перевода. Именно развитие информационного поиска коренным образом изменило мир и повлияло на работу переводчиков. Конечно, в сети представлена информация самого разного качества и глубины (взять, к примеру, Википедию — масштаб огромен, а качество среднее). Но профессиональные переводчики, я уверен, часто имеют доступ, например, к хорошим цифровым библиотекам. В России с этим чуть сложнее, а, например, во всех западных университетах есть огромные библиотеки — там все уже оцифровано или активно цифруется. Доступ к материалам сейчас очень налаженный, и он явно быстрее, чем был в предыдущую эпоху.

Сам же статистический машинный перевод можно воспринимать как инструмент, ускоряющий переводческую работу, но подозреваю, что профессиональные переводчики не всегда прибегают к его услугам, потому что часто приходится тратить слишком много времени на последующее редактирование текста. Если ты знаешь язык, и тем более, если цель не просто сделать подстрочник, а настоящий текст — часто быстрее написать его самому с нуля.

Кстати, заметил недавно, что фейсбук в себя встроил статистический переводчик (в экспериментальном режиме). Если кто-то из друзей написал тебе на незнакомом языке, ты можешь нажать кнопку и комментарий сразу переведется. Качество перевода не очень, но зато встроено прямо в фейсбук.

— В области машинного перевода за последние годы в чем случился прорыв и что остается по-прежнему недостижимым?

— Давайте поймем, что такое «за последние годы». Если за последние два года — то никакого особенного прорыва и нет. Если мы говорим про последние двадцать лет, то прорыв существенный. Во-первых, люди довели до ума алгоритмы статистического машинного перевода. С помощью этих алгоритмов удается обрабатывать огромные корпуса параллельных текстов (корпуса, содержащие предложения на одном языке и их правильные «человеческие» переводы на другой язык) и строить на их основании вероятностные кросс-язычные модели, с помощью которых удается для новых текстов (не вошедших в исходный корпус) «угадывать», как мог бы выглядеть перевод. Статистических «переводчиков» создано много, алгоритмы опубликованы. Каждый их, конечно, «допиливает» и «докручивает» по-своему. Именно благодаря развитию этих алгоритмов появились доступные людям машинные переводчики.

Вторая причина их появления — это постоянно растущий объем текстовых данных. За счет больших баз параллельных текстов в интернете (кстати, отличный ресурс параллельных текстов — это Википедия, где одна и та же статья существует на разных языках) качество статистического машинного перевода оказалось приемлемым, и машинные переводчики стали достоянием людей. Конечно, это не работает в случае редких языков, потому что если у вас есть тексты на редком языке, но мало переводов на другие языки, то статистическую машину практически невозможно обучить. Интересно то, что и эту проблему можно обходить, и перевод может делаться через другой язык. Например, если нет хорошей накопленной базы параллельных текстов для пары хорватский — испанский, но при этом есть довольно много хорватско-английских и испано-английских примеров, можно сначала переводить с хорватского на английский, а потом с английского на испанский. Потери в качестве при таком подходе, естественно, будут больше обычного.

Человеческий язык — это такой преобразователь смыслов в тексты и обратно, и в процессе этого преобразования мы встречаемся с неоднозначностью, причем в обе стороны.

Про умный, или аналитический, лингвистический перевод — в противовес статистическому — я могу рассказать на примере компании ABBYY. Именно в последние годы удалось добиться результатов в масштабнейшем проекте, в рамках которого большое количество лингвистов и программистов трудились вместе над огромным многоуровневым лингвистическим описанием двух языков — русского и английского. Изначально это делалось как раз для решения задачи машинного перевода, но ближе к концу разработки стало ясно, что созданное описание может быть использовано для решения большего круга задач в области автоматической обработки текстов. Настолько большего, что машинный перевод даже отошел на второй план. Теперь мы в ABBYY говорим о большой многофункциональной лингвистической технологии, которая получила название Compreno. Сердцем упомянутого лингвистического описания является так называемое универсальное дерево понятий или универсальная семантическая иерархия. Все слова двух языков (в данный момент, кстати, уже идет работа над третьим) являются листьями на этом дереве, а информация о синтаксической и семантической сочетаемости «размазана» по дереву — что-то задается для целых ветвей, а что-то для конкретных листьев (слов). Это очень сложная модель, для создания которой понадобилась вся современная лингвистическая наука. Можно сказать, что перевод производится через метапредставление: текст на исходном языке конвертируется в метапредставление, а затем синтезируется на другом языке. И это действительно работает — пока работает неидеально, потому что человек все равно умнее, глубже и тоньше, чем машина. Интересно, что потребовалось как раз таки подключить статитистические методы и начать оценивать вероятность встречаемости различных элементов лингвистического описания в текстовых корпусах. После этого система начала хорошо работать.

— С какими фундаментальными проблемами сталкивается машинный перевод?

— Проблем, грубо говоря, три, и они все связаны с устройством человеческого языка. Человеческий язык — это такой преобразователь смыслов в тексты и обратно, и в процессе этого преобразования мы встречаемся с неоднозначностью, причем в обе стороны. Почему так вышло? Считается, что причина в эволюционной природе языка: в процессе эволюции в языке возникало много неоднозначности, но носителям языка она не очень мешала, потому что им всегда удавалось с ней справляться за счет обращения к контексту. Язык принципиально контекстно-зависим. Мы говорим в контексте и слышим в контексте, и хорошо умеем использовать контекст для снятия неоднозначности.

Раз мы говорим про перевод, мы должны упомянуть два вида неоднозначности в языке: с одной стороны, это омонимия, с другой — синонимия. Омонимия — это когда мы разные вещи обозначаем одним и тем же языковым выражением (не обязательно на уровне слов, иногда и на уровне целых фраз). Синонимия — это когда мы один и тот же смысл выражаем разными языковыми выражениями. Любой переводчик знает об этих проблемах: в процессе перевода ему сначала нужно просто понять, что имелось в виду. В этот момент он разрешает омонимию. Это обычно не очень сложно, если ты хорошо знаешь язык. А вот в момент синтеза, создания текста на языке, на который переводишь, особенно если это не родной язык, тебе часто приходится хорошо подумать, о том, какое именно в данном конкретном случае надо подобрать слово, чтобы это было правильно. Т.е. синонимия и омонимия окружают нас со всех сторон, и для методов автоматической обработки это очень серьезная проблема, потому что мы в любой момент должны рассматривать альтернативы. Мы видим слово «лук» и должны понять — это лук, который растет на грядке, или это лук, из которого стреляют? Пример синонимии: например, как из пары «смелый — храбрый» выбрать то слово, которое лучше подойдет в данном конкретном случае?

А некоторые слова вовсе не сочетаются друг с другом: мы говорим «проливной дождь», «сильный дождь», «сильный ливень», а «проливной ливень» — не говорим. В общем, проблема выбора альтернатив при анализе и при синтезе очень существенна.

Еще одна большая проблема — это эллипсис, т.е. пропущенные слова. Естественный язык допускает пропуск слов. Так, например, в русском языке мы регулярно пропускаем какие-то местоимения. «Ты любишь музыку? — Люблю». Во фразе «Люблю» пропущено и «я», и «музыку», но они подразумеваются, и мы их спокойно восстанавливаем. А если перевести эту фразу на английский: «Do you like music? — Yes, I do». Там будет местоимение «I», субъект не опускается в данном случае, а «музыка» пропустится. Эти пропущенные элементы как раз очень неприятны для статистического перевода. Машина не понимает, откуда и как их восстанавливать, и это всегда сложно. А для перевода через метаязык они могут неплохо быть восстановлены, если алгоритмы достаточно умны для этого. Но главное, что эллипсис — это же тоже абсолютно контекстная вещь. Также как омонимия разрешается за счет контекста, так и эллипсис восстанавливается за счет контекста. Т.е. чем больше контекста машина может понять и применить, тем лучше она будет работать. Если она видит только соседние слова — она будет ошибаться. Если она понимает предложение целиком — она будет ошибаться меньше. Если она понимает текст целиком — она будет ошибаться еще меньше. Если она понимает текст в контексте того мира, в котором этот текст был создан, то она наверное не будет ошибаться вообще, но таких систем пока еще не создано.

— Есть ли задачи на этом поприще, которые вы бы хотели решать?

— Я лично не занимаюсь машинным переводом. Я занимаюсь отдельной задачей — извлечением информации из текстов. Она в каком-то смысле близка к переводу, потому что перевод — это тоже извлечение информации, но немного другой акцент. В тех задачах, которые я решаю в последнее время, обычно заранее исчисляется, что именно мы хотим извлекать из текстов, и эту информацию мы стараемся извлекать хорошо и качественно.

Если говорить глобально — мне очень интересны задачи, связанные с искусственным интеллектом, с построением больших автоматических систем, которые моделируют интеллектуальную деятельность человека в области синтеза и анализа текстов. Конечно, есть мечта создать робота, который будет хорошо разговаривать на естественном языке и действительно понимать, чего ты от него хочешь, вступать с тобой в диалог. Но это совсем мечта. Я довольно долгое время занимался автоматическим синтаксическим анализом, еще в университете, и писал диссертацию. Не дописал, к сожалению, потому что переключился на то, что я в ABBYY делаю. Я разрабатывал алгоритм синтаксического анализа для русского языка — алгоритм, позволяющий автоматически определять, как и какие слова в тексте связаны. Сейчас синтаксис мне менее интересен — в ABBYY есть хороший алгоритм, и мне интереснее с его помощью решать более сложные задачи.

— Правильно ли я поняла, что в компьютерной лингвистике сейчас статистические методы перевода, ставшие очень популярными в последнее время, идут навстречу аналитическим методам, ставящим во главу угла глубокую формализацию естественного языка на всех уровнях. Как это происходит?

— Статистические методы перевода могут привлекать достаточно сложные алгоритмы и вероятностные модели, но главной их проблемой является то, что они не относятся к языку как к лингвистическому объекту. Важно, что статистические методы перевода считают, что перед ними не тексты на естественном языке, а просто потоки каких-то данных, между которыми известно, что есть соответствие. Давайте угадаем, что же это за соответствие такое? «Угадаем» значит подберем вероятностную модель. Но если эта вероятностная модель не учитывает, что перед ней текст именно на естественном языке, а не абстрактный информационный поток, она неизбежно будет грубой.

Почему машина так плохо переводит? Люди с нетехническим образованием думают, что программисты что-то неправильно запрограммировали, но на самом деле тут проблема глубже.

Аналитические методы страдают от другой проблемы — проблемы нелинейно возрастающей сложности. Оказывается, что описать язык во всех деталях очень и очень затруднительно. Вот ABBYY справилась с русским и с английским, но это был труд титанический. И все равно, кстати, остаются лингвистические явления за рамками нашего описания. Построить эту Вавилонскую башню очень сложно. Каждый следующий уровень языка оказывается на порядок сложнее предыдущего.

Это две крайности. А посередине — что-то очень хорошее. Каждый раз, когда происходит учет каких-то лингвистических явлений в статистических алгоритмах, происходит прирост качества. И наоборот, те, кто занимается аналитическими методами, понимают: «Да, что-то надо считать на корпусах, все описывать руками невозможно». Они начинают считать и только выигрывают от этого.

Почему системы статистического машиннного перевода плохо переводят тексты? Люди с нетехническим образованием думают, что программисты что-то неправильно запрограммировали, но на самом деле тут проблема глубже. Проблема в том, что с помощью статистических методов добиться принципиально лучшего качества вряд ли возможно. Статистические алгоритмы, очевидно, имеют свой потолок, и сколько бы текстов в них не вкачивали, они не будут переводить тексты как люди. Аналитические алгоритмы вроде как потолка не имеют, но, как я уже говорил, имеется серьезный барьер в плане трудоемкости.

— Как компьютерная лингвистика изменила отношение человека к языку и к тексту?

— Про всех людей не знаю. Могу сказать, как компьютерная лингвистика повлияла на обычных лингвистов. Дело в том, что методы компьютерной лингвистики сделали возможным возникновение целого нового направления в обычной лингвистике — так называемой корпусной лингвистики. С некоторых пор все суждения о языке, высказываемые учеными, принято проверять на корпусах текстов. Если гипотеза не подтверждается представительным корпусом примеров, она не интересна. Сейчас почти для всех языков стараются заводить корпуса с лингвистической разметкой, есть такой корпус и для русского. Так вот именно для создания больших размеченных корпусов часто требуются методы компьютерной лингвистики. Без них все приходилось бы делать вручную. Это заняло бы вечность.

— Работают ли методы компьютерной лингвистики применительно к литературным текстам?

— Сейчас есть прекрасный мировой тренд на оцифровку наследия разных известных писателей: художественных произведений, писем, статей и т.п. Например, письма Вольтера, Руссо и других. Наша компания тоже недавно занялась чем-то подобным в связи с Толстым, мы оцифровали весь его архив и, возможно, будем делать глубокую разметку его текстов и анализировать их. Чем более сложные задачи в этой области будут ставиться, тем чаще будет привлекаться компьютерная лингвистика. Т.е. для области гуманитарных проектов применение методов компьютерной лингвистики к литературным текстам — это совершенно нормально.

Я сам иногда занимаюсь стиховедческими задачами. Например, есть отдельная ветка алгоритмов, связанных с определением метра стихотворения и разных стиховедческих характеристик. Находится стихотворный текст и стоит задача распознать его метр: что это — ямб, хорей или может быть что-то сложнее — например, дольник.

— Это все делается с помощью алгоритмов?

— Да, берется текст, прогоняется через специальный морфологический анализ, который еще ударение расставляет, хотя бы по словарю. Все-таки в стихотворных текстах много словарных слов, и соответственно для них можно понять, где какое ударение. Бывают сложности, поскольку иногда поэты смещают ударение, но все-таки в основном стихи пишутся так, чтобы ударения были языковые. Проанализировав ударения (сопоставив их с определенными шаблонами) можно понять, какой размер у данного стихотворения.

Качественный машинный перевод литературных текстов в настоящее время невозможен. Вряд ли в ближайшее время где-нибудь проснется робот, который заговорит с нами на равных.

Программа, определяющая ямб или хорей, мало кому интересна, потому что это довольно очевидно. Но есть сложные тексты — например биметрические, в которых размеры чередуются. Есть сложные метры — дольники, логаэды и т.п. Стиховеды — люди очень интересные, их по-настоящему интересуют цифры в стихах. Их интересует сколько строчек, какой формы, какого размера в том или ином стихотворении. Например, их может интересовать, сколько третьих форм четырехстопного ямба в стихах Есенина определенного периода. Это само по себе является важным для них знанием, из этого дальше делаются уже чисто стиховедческие выводы. Такие вещи считать с помощью компьютера очень удобно. Сильно экономит время и силы, и можно заниматься дальше более сложными задачами.

— Наверное, нет смысла говорить отдельно про машинный перевод литературных текстов, тут очевидные ответы.

— Да, качественный машинный перевод литературных текстов в настоящее время невозможен. Я ничего не могу сказать про далекое будущее, но я почему-то не думаю, что нас ждет какой-то мощный прорыв в этой области. Это же очень плотно связано с проблемой создания настоящего «человекоподобного» интеллекта, потому что, чтобы хорошо понимать литературу, надо мыслить как человек. Вряд ли в ближайшее время где-нибудь проснется робот, который заговорит с нами на равных. Разве что людям удастся создать какой-то очень умный алгоритм обучения, чтобы компьютерный интеллект «вырос сам», как ребенок, в процессе долгого и упорного обучения. Я действительно думаю, что единственный способ научить компьютер думать — это научить его учиться. А как это сделать — тема уже совсем другой беседы.

— Считаете ли вы проблемой большое количество текстов в сети, которые являются продуктами машинного перевода?

— Наверное, это является некоторой проблемой для людей, которые не знают языки. Грубо говоря, если ты знаешь язык, ты отличаешь машинный текст от немашинного за несколько секунд. А вот если не знаешь язык и, к примеру, его учишь, — и вдруг попался текст на другом языке — то это может увести в сторону, пока ты не поймешь, что это машинный текст. Возможно, как было написано на одной из футболок Яндекса, я нерепрезентативен, так как слишком давно этим занимаюсь и сразу вижу машинный текст. Я знаю, что может машина и что не может. Но в целом мне не кажется это серьезной проблемой.

Чтобы подать заявку на участие в фестивале, до 10 ноября заполните анкету. Полная программа фестиваля — на сайте «Эшколота».