В по-настоящему сложной ситуации не ищите экспертов — зовите дилетантов. Такой вывод из своего потрясающего исследования сделали ученые Карим Лакхани, Кевин Будро и их коллеги. Они хотели идентифицировать гены, ответственные за выработку различных антител — и найти кратчайший путь к выполнению этой сложнейшей задачи. Им помогли не специалисты по биоинформатике, а очень много разработчиков разного уровня квалификации. T&P публикуют отрывок из книги «Машина, платформа, толпа. Наше цифровое будущее» о том, почему знание толпы, в отличие от отдельных экспертов, не устаревает, и какую роль она играет в науке и инновациях сегодня.

Машина, платформа, толпа. Наше цифровое будущее

Эндрю Макафи
Манн, Иванов и Фербер. 2018

Новички превосходят специалистов в биологии

Это была весьма важная работа, поскольку стояла задача лучше понять, как работает иммунная система, но невероятно трудная, поскольку лейкоциты должны обладать огромным арсеналом для борьбы с постоянно эволюционирующими антигенами человеческого тела. Хорошее решение для тела — располагать антителами и другими средствами, закодированными генами внутри каждого лейкоцита, однако сами эти гены состоят из большого набора соединенных вместе сегментов, иногда с мутациями. Точная последовательность активных сегментов меняется от клетки к клетке, а это означает, что разные клетки производят разное оружие. Его количество огромно. По одной оценке, сто (или около того) сегментов в человеческом лейкоците можно соединять и рекомбинировать по-разному, что дает 10³º молекулярных видов оружия. Это примерно в триллион раз больше числа песчинок на нашей планете.

Естественная и важная задача, стоящая перед учеными, — аннотация гена лейкоцитов, то есть правильная и последовательная идентификация всех сегментов. Как вы догадываетесь, эту работу делают компьютеры. Однако тут можно действовать разными способами, и непонятно заранее, какой из них даст наилучший, то есть самый быстрый и точный результат. Популярный алгоритм MegaBLAST, разработанный Национальными институтами здравоохранения США, может аннотировать один миллион последовательностей примерно за 4,5 часа с точностью 72 процента. Алгоритм idAb, созданный доктором Рами Арнаутом из бостонского Beth Israel Deaconess Medical Center, значительно превышает эти показатели, делая тот же объем аннотации менее чем за 48 минут с точностью 77 процентов.

Чтобы узнать, насколько сильно можно улучшить ситуацию, Лахани, Будро и их коллеги разработали двухэтапный процесс и привлекли к работе толпу. На первом этапе они преобразовали узкоспециальную иммуногенетическую проблему аннотации генных сегментов в общую алгоритмическую задачу. Это дало возможность намного большему числу участников присоединиться к эксперименту, поскольку теперь от них не требовалось обладать познаниями в генетике, биологии и других науках.

На втором этапе исследователи опубликовали эту обобщенную задачу на Topcoder, сетевой платформе для решения вычислительно трудоемких задач. На момент проведения исследования в 2013 году Topcoder располагала сообществом из примерно 400 тысяч разработчиков программного обеспечения по всему миру, которые присоединились к этой платформе, в частности, потому, что им нравилось работать над сложными проблемами. Исследовательская группа сообщила потенциальным вычислителям, что их предложения получат оценку, учитывающую скорость и точность, и предоставила им массив данных для работы. Данные делились на две части: один набор был в открытом доступе для всех вычислителей, а ко второму, закрытому, они подключались на сайте Topcoder; участники не видели этих данных и не имели к ним прямого доступа, но могли применить к ним свои алгоритмы и получить оценку (для создания итоговых оценок использовался третий набор данных, тоже закрытый).

Соревнование на Topcoder продолжалось 14 дней. За это время 122 участника (отдельные люди или команды) как минимум по одному разу использовали свои алгоритмы для получения оценки, а многие сделали это по нескольку раз. Всего организаторы эксперимента зафиксировали 654 предложения. Состав участников был крайне неоднородным: они представляли 69 стран, а возраст колебался от 18 до 44 лет; большей частью они не обладали нужной квалификацией, по крайней мере в традиционном смысле. Приблизительно половина еще где-то училась, и, как указывали исследователи, «там не было теоретических или практических специалистов по вычислительной биологии, и всего пятеро сообщили, что занимаются какими-либо исследовательскими работами или имеют отношение к медико-биологическим наукам».

*

Как объясняют авторы, «оставшиеся 20 процентов соответствуют последовательностям, которые нельзя аннотировать правильно» (Karim Lakhani et al., “Prize-Based Contests Can Provide Solutions to Computational Biology Problems,” Nature Biotechnology 31, no. 2 (2013): 108–11).

Были ли все предложенные решения хорошими? Разумеется, нет. Большинство из них давали меньшую точность, чем MegaBLAST или idAb (хотя почти все были быстрее обоих этих алгоритмов). Тем не менее тридцать оказались точнее, чем MegaBLAST, а шестнадцать — точнее, чем idAb. Восемь предложений от толпы давали точность 80 процентов, которая, по оценке исследователей, была теоретическим максимумом для этого набора данных*. Те предложения, точность которых была как минимум не хуже, чем у idAb, работали в среднем 69 секунд, то есть в тридцать с лишним раз быстрее эталона. Три самых быстрых решения работали всего 16 секунд, то есть почти в 180 раз быстрее.

И еще одна важная деталь: общий призовой фонд конкурса составлял шесть тысяч долларов.

Что не так с экспертами?

Типичны эти результаты или необычны? Мы обратились с таким вопросом к Кариму Лахани, поскольку он считается ведущим специалистом в сфере соревнований, затрагивающих толпу, и провел множество исследований помимо того, что мы только что описали. Он сказал:

За последние пять лет мы поставили перед толпой более 700 проблем для NASA, медицинских институтов, компаний и других организаций, и только один раз потерпели неудачу, когда толпа не собралась и не решила задачу**. Во всех остальных случаях мы либо достигли уже существовавших результатов, либо значительно их превзошли.

**

По мнению Лахани, неудача произошла из-за того, что организаторы либо не поставили задачу достаточно четко, либо не предложили достойного вознаграждения.

Это кажется невероятным, не так ли? Ведь компании и организации вроде Национальных институтов здравоохранения или Beth Israel потратили огромное количество времени, средств и сил на создание ресурсов для инноваций и решения проблем, задействовав при этом научно-исследовательские лаборатории, научно-технический персонал, технические отделы и многие другие. Эти ресурсы, по сути, «ядро ядра». Так почему же толпа так легко превзошла их именно в тех задачах, с которыми они должны справляться?

Может быть, эксперты ядра на самом деле не так уж хороши? В конце концов, в [предыдущей] главе мы представили множество подтверждений того, что специалисты в определенной области, как и все люди, страдают от когнитивных искажений, которые ухудшают качество их работы. Может оказаться, что чем выше и известнее становятся люди в своих областях, тем сильнее проявляются слепые пятна — например, хорошо известные эффект сверхуверенности*** и склонность к подтверждению своей точки зрения (фактическое рассмотрение только той информации, которая соответствует тому, что вы думаете); это должно вести к ухудшению результатов.

***

Эффект сверхуверенности — когнитивное искажение, при котором уверенность человека в своих суждениях оказывается намного выше, чем объективная точность этих суждений. Прим. перев.

Может даже оказаться, что многие эксперты на самом деле вовсе не эксперты, что они обманывают себя и нас в отношении своих умений и качества работы. В сегодняшнем сложном, быстро меняющемся, технологически изощренном мире весьма трудно выделить тех, кто действительно знает, о чем говорит.

Несомненно, такие «недоэксперты» существуют, но мы не думаем, что в них кроется основная причина того, почему толпа часто показывает себя лучше ядра. Мы уверены, что подавляющее большинство нынешних ученых, инженеров, технических специалистов и других сотрудников организаций в самом деле имеют достаточную квалификацию для своей работы и заинтересованы в том, чтобы выполнять ее хорошо. Почему же толпа почти всегда их побеждает?

Серьезное несоответствие

У организаций много добродетелей, но часто они мешают сами себе, делая то, что неэффективно и что ухудшает их работу в области инноваций, НИОКР и практически во всех других областях. К сожалению, организационные кризисы — это реальность, а не только темы для бесчисленных мультфильмов «Дилберт»****, и они мешают ядру работать так, как оно могло бы. Между тем более серьезная причина гораздо тоньше, чем простое нарушение функций:

ядро часто не соответствует тем видам проблем и возможностей, с которыми оно сталкивается, в то время как с толпой такого не случается практически никогда в силу ее громадности.

Но почему же ядро так часто бывает рассогласовано и разрегулировано? Разве научно-исследовательские лаборатории и технические отделы создаются не для того, чтобы соединять ресурсы, необходимые для решения поставленных задач? Это же не тот случай, когда лаборатория генетики нанимает по ошибке группу металлургов, а потом удивляется, что те не могут раскрыть тайны ДНК. Откуда такое частое рассогласование?

****

«Дилберт» — популярная серия сатирических комиксов Скотта Адамса об офисной жизни, главный герой которой — инженер Дилберт. По комиксам снят мультсериал. Прим. перев.

Кажется, здесь прослеживается влияние сразу нескольких факторов. Почти во всех дисциплинах постоянно создается важное новое знание, но оно может поступать в ядро весьма медленно. Например, в 2003 году было завершено полное секвенирование генома человека; это достижение должно оказать огромное влияние на медицину, фармацевтику, биотехнологию и другие отрасли науки. По мере того как технология секвенирования распространялась, а ее стоимость экспоненциально снижалась*****, оно затронуло сельское хозяйство, животноводство и другие отрасли. Если бы новаторы, исследователи и специалисты по решению проблем, которые работают в организациях в этих секторах экономики, не старались бы поддерживать свои знания и умения в актуальном состоянии, толпа, особенно более молодые ее участники, получившие образование недавно, легко бы превзошла их. Современные средства генной инженерии совершенно отличаются от того, чем мы располагали всего пять лет назад. Причиной является разработанный в 2012 году инструментарий CRISPR, полученный с помощью стрептококковых бактерий, который обеспечивает беспрецедентную точность в нахождении, вырезании и замещении любого желаемого сегмента очень длинной двойной спирали молекулы ДНК.

*****

Стоимость создания геномной последовательности человека в 2000 году оценивалась в сумму не менее 500 миллионов долларов. В середине 2015 года стоимость создания высококачественной черновой геномной последовательности (незавершенной последовательности, в которой порядок участков не установлен окончательно и отсутствуют некоторые сегменты. Прим. перев.) была равна чуть более четырем тысячам долларов, а к концу 2015 года снизилась ниже 1500 долларов (National Human Genome Research Institute, “The Cost of Sequencing a Human Genome,” last modified July 6, 2016).

Мы также видели недавние изменения в искусственном интеллекте и машинном обучении, в производстве энергии (благодаря гидравлическим разрывам пласта при добыче нефти и газа и очень резкому снижению стоимости солнечной энергии*) и во многих других отраслях. При таком быстром прогрессе знания ядра легко устаревают. Между тем среди участников толпы, по всей вероятности, хоть некоторые люди (или их ученики) способствовали появлению последних достижений, поэтому вполне знакомы с ними. Короче говоря, ядро может устаревать, тогда как толпа — фактически нет.

Польза «людей с периферии»

Вероятно, более важна другая причина того, что толпа часто превосходит ядро. Многим проблемам, возможностям и проектам (если не большинству из них) идет на пользу, когда люди и группы рассматривают их с разных ракурсов — с позиций разного опыта, образования, подходов к решению задач, интеллектуального и технического инструментария, гендера и тому подобных. Это в точности соответствует определению толпы, и воспроизвести подобное в рамках ядра очень трудно, практически невозможно. Например, маловероятно, что в научно-исследовательских лабораториях в какой-нибудь фармацевтической компании найдется пара астрофизиков или криптографов на тот случай, если они вдруг понадобятся для решения какой-нибудь сложной задачи. Это противоречит практике бизнеса, но, если вдруг возникнет работа, требующая квалификации астрофизика или криптографа, делать ее будет некому.

Отсечение потенциальной пользы, которая может исходить от источников, выглядящих в целом бесполезными, — это безобразие, потому что очень часто бывают нужны знания и опыт далеких, на первый взгляд, дисциплин. Эрик Рэймонд, сторонник программного обеспечения с открытым кодом, заметил: «При достаточном количестве глаз все ошибки лежат на поверхности».

******

Важность дистанционных, или «слабых», связей подчеркивалась в нескольких социологических работах, включая широко цитируемую классическую статью Марка Грановеттера «Сила слабых связей» (Mark S. Granovetter, “The Strength of Weak Ties,” American Journal of Sociology 78, no. 6 (1973): 1360–80), а также более свежую работу Синана Арала и Маршалла ван Альстина «Компромисс между разнообразием и пропускной способностью» (Sinan Aral and Marshall Van Alstyne, “The Diversity Bandwidth Trade-off 1,” American Journal of Sociology 117, no. 1 (2011): 90–171).

Иными словами, любые проблемы решаются проще, если увеличить число и разнообразие занимающихся ими людей. Это продемонстрировал конкурс по секвенированию генома: ни одно из тех решений, что оказались одновременно точнее и быстрее эталона, не было предложено специалистами по вычислительной биологии. Такое превосходное качество работы неквалифицированных людей не кажется чем-то необычным. Когда Лахани и Ларс Бо Йеппесен изучили 166 научных проблем, опубликованных в InnoCentive — еще одном сетевом координационном центре, — они обнаружили, что успешному решению с большей вероятностью поддавались задачи, привлекавшие «людей с периферии», то есть технически или социально далеких от организаций, которые публиковали эти задачи.

Толпа имеет такую ценность в основном потому, что она в значительной части «периферийна» по составу: она представляет собой определенную комбинацию мыслительных способностей, хорошего образования, опыта, дотошности и мотивации,

при этом люди, обладающие этими качествами, довольно далеки****** географически, интеллектуально или социально от любого организационного ядра. По мере того как взаимосвязанные вычислительные мощности распространяются по миру и повсюду возникают полезные платформы, толпа, несомненно, становится жизнеспособным и ценным ресурсом.

В рубрике «Открытое чтение» мы публикуем отрывки из книг в том виде, в котором их предоставляют издатели. Незначительные сокращения обозначены многоточием в квадратных скобках. Мнение автора может не совпадать с мнением редакции.

Где можно учиться по теме #медицина

Читайте нас в Facebook, VK, Twitter, Instagram, Telegram (@tandp_ru) и Яндекс.Дзен.