Луис вон Ан придумал, как антиботы помогут оцифровать все книги в мире

,

Исследователь Луис вон Ан проектирует системы, которые объединяют возможности компьютеров и людей для решения глобальных задач. Каждый день миллиарды людей совершают одни и те же действия в интернете, так почему же не сделать их полезными: программа распознавания ботов reCaptcha выдает слово из оцифровываемой книги, а образовательный сайт Duolingo предлагает переводить статьи из Википедии на другие языки.

Всем интернет-пользователям приходится время от времени доказывать, что они не компьютерные программы — и самый распространенный способ этой идентификации заключается в распознавании искаженных символов. В русском языке для такого рода заданий нет специального термина, а в английском он обозначается Captcha — в честь одноименного теста, в разработке которого участвовал Луис вон Ан.

Причина, почему это работает, заключается в том, что большинство людей обладают константностью восприятия — и могут распознать букву А вне зависимости от того, каким цветом она будет нарисована, будет ли жирной или, например, написана курсивом. Компьютерные программы сегодня в принципе способны распознать искаженный символ, но справляются с этим заданием гораздо менее эффективно.

1

В этом примере компьютер не смог распознать слово morning, поэтому система предложила его юзеру. Чтобы успешно выполнить свою основную функцию — не допустить регистрации бота на сайте — reCaptcha предлагает ему второе слово, которое компьютер распознать смог, а значит сможет оценить корректность вводимого пользователем ответа.

На расшифровку одного Captcha тратится в среднем 10 секунд, и если принять во внимание, что каждый день примерно 200 миллионов людей по всему миру вводят хотя бы один Captcha, то окажется, что ежедневно теряется 500 000 часов человеческого времени.

Вон Ан придумал, а Ticketmaster, Facebook, Twitter подхватили идею совместить неизбежное с полезным — раз уж вы расшифровываете искаженные символы, то почему вы должны расшифровывать абстрактные, никому не нужные знаки? Вместо этого вы можете потратить 10 секунд, чтобы помочь программе распознать непонятное слово из книги, которую нужно оцифровать для проекта Google Books, или старого издания The New York Times.

Стремление людей делать что-то полезное на благо человечества принято обозначать термином когнитивный излишек, который ввел в обращение американский ученый Клэй Ширки. По его мнению, излишек времени и сил у людей появился из-за того, что они стали меньше тратить времени на просмотр телевизора, благодаря чему начали создавать ценности общественного характера.

Тут нужно заметить, что чем старше книга, тем больше в ней слов, которые вызывают затруднения у программ при оцифровке — страницы желтеют, печать выцветает; это приводит к тому, что у книг старше 50 лет примерно 30% слов программы не могут распознать. Именно эти слова сегодня предлагает распознать программа reCaptcha, которую придумал вон Ан — и именно ее виджеты используются на сайтах Ticketmaster, Facebook, Twitter, благодаря чему распознается примерно 100 миллионов слов в день и 2,5 миллиона книг в год.

Участники проекта составили невероятно большую аудиторию — примерно 750 млн человек, то есть примерно каждый 10 человек в мире, и эту аудиторию вон Ан решил использовать для решения другой, не менее важной задачи при создании проекта Duolingo. Исследователь выяснил, что с одной стороны, интернет обладает огромным ресурсом, с другой стороны, доступ к этому ресурсу зачастую может быть затруднен по причине языкового барьера — едва ли кто поспорит, что существование каждого сайта на любом языке оказалось бы безусловным благом, однако перевести интернет-информацию на все возможные языки оказывается достаточно затратно — например, чтобы перевести объем одной только англоязычной Википедии на испанский потребуется 50 миллионов долларов и непомерное количество переводчиков.

Чтобы избежать финансовых затрат, потребуется много людей, которые владеют двумя языками достаточно хорошо, но в то же время не используют их профессионально — билингвов, которых совершенно непонятно, как заинтересовать. Единственной категорией, заинтересованной в подобной работе, оказываются люди, которые учат иностранный язык — и поэтому выполняют такие задания в огромном количестве. Предложения, которые нужно переводить, вон Ан расположил в порядке возрастания сложности — новичкам предлагаются самые простые предложения, с подстрочным переводом каждого слова. Перевод можно будет сверить с переводом других людей — и тем самым совершить работу над ошибками.

Чем лучше вы будете переводить, тем более сложные предложения предложит вам Duolingo. Результаты тестов показали, что перевод предложений от Duolingo приносит свои результаты — и вполне может служить еще одним способом освоения иностранного языка (эффективность была доказана на материале проведенного постфактум тестирования). Это, впрочем, не кажется особо удивительным — каждый вид систематической работы с иностранным языком должен рано или поздно оказаться эффективным, самым удивительным в случае этой программы оказалось быстрое и высокое, сопоставимое с профессиональным, качество перевода.

Комментарии

в русском языке это на зывается «тест Тьюринга»
по вики:
Тест Тьюринга — эмпирический тест, идея которого была предложена Аланом Тьюрингом в статье «Вычислительные машины и разум» (англ. Computing Machinery and Intelligence), опубликованной в 1950 году в философском журнале «Mind». Тьюринг задался целью определить, может ли машина мыслить.
Стандартная интерпретация этого теста звучит следующим образом: «Человек взаимодействует с одним компьютером и одним человеком. На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой. Задача компьютерной программы — ввести человека в заблуждение, заставив сделать неверный выбор».

Капча это капча, а тест Тьюринга это тест Тьюринга - разные вещи. Один про распознавание символов, а другой про определение искусственного интеллекта.

Однажды, давно уже, встретила сентенцию некоего мистера, который распинался по поводу того, что в recaptcha одно слово сверяет компьютер, а второе сверить не может, и что как правило, слово, которое он не может сверить, выглядит более мутным и нечётким. Мистер предлагал вписывать только то слово, что почётче, а вместо второго писать непотребную лабуду, мол, всё равно никто не определит, что это неверно.
Странные люди бывают :)

Прошаренные юзеры так давно и делают: сразу видно, какое слово в рекапче для проверки, а какое настоящее (его сложнее прочесть). Для уменьшения затрат времени вместо настоящего слова вводим любой символ, а проверочное слово вводим полностью. Вместо 10 секунд тратится 5.

Ну не знаю, на мой взгляд, они абсолютно одинаковые. Вот в примере в статье мне morning даже более читаемым кажется, чем overlooks. Так гораздо больше времени потратишь на определение, какое слово дано для проверки, чем на введение правильного ответа, и стоит ли тогда пытаться экономить эти пять секунд?

Комментировать