Актуальный теоретический и бизнес-интерес к работе с большими данными только набирает популярность в нашей стране, а понятия Big Data, Data Mining и Data Science пока не имеют устойчивых русских аналогов. Созданный полтора года назад «Алгомост» — одна из немногочисленных российских компаний, занятых развитием индустрии и научным краудсорсингом в сфере интеллектуального анализа постоянно растущего объема информации. T&P попросили генерального директора Михаила Левиева объяснить, как устроен международный рынок датамайнинга с точки зрения науки и бизнеса, и как знания о нас помогают сделать мир лучше.

Михаил Левиев

специалист по информационным технологиям и коммерциализации науки, генеральный директор

«Я понял, что учитывая развитие общества, эта индустрия будет становиться мэйнстримом»

Я много лет занимаюсь коммерциализацией науки, тесно общаюсь с академическими кругами и молодежью, которая интересуется инновациями, поэтому все началось достаточно давно. В какой-то момент я заметил, что в команде инкубатора МФТИ, который я возглавлял, — порядка 30 специалистов по анализу данных, которые работают на разных проектах с разной степенью эффективности, оценить которую раньше было практически невозможно. Я понял, что учитывая развитие общества, эта индустрия будет становиться мэйнстримом, что на ее основе будет строиться все остальное. Тогда я познакомился с Самитом Яковлевым и Дмитрием Бирюковым, управляющими алгоритмическим фондом, который строил алгоритмы для торгов на фондовых рынках. Они нанимали достаточно много людей, много им платили, и эффект тоже был не очевиден. Так, обсуждая, что происходит у них, что — у меня, мы начали экспериментировать, изучать мировой опыт.

Представьте, сколько информации генерируется у мобильных операторов. Все они аккумулируются, хранятся и должны как-то обрабатываться, поскольку содержат знания, как улучшить продукт или услугу, стать понятнее и удобнее для своих клиентов. Мощность и производительность аппаратной части, которая связана с агрегацией и хранением сверхбольших объемов, неуклонно растет, за этим поспевает программное обеспечение. Раньше была дискета, а сейчас маленькая карточка памяти, в которой сто тысяч миллионов таких дискет. Поэтому все больший объем данных будет называться Big Data по мере того, как мы будем с ним справляться.

«Увидеть во всей палитре проявлений этого мира красоту взаимодействия»

Сейчас у нас в штате несколько собственных групп датамайнеров, с которыми работает директор по науке — Александр Дьяконов, профессор МГУ. Процент русских и зарубежных специалистов на проектах всегда формируется по-разному: каких-то компетенций больше в России, каких-то в других странах. Анализ данных лучше всего развит в Америке, но строится он на российской математической школе. Топовые специалисты в анализе данных — ее выходцы, просто многие работают не здесь.

В России таких специалистов учат всего в нескольких вузах: МФТИ, МГУ, с недавних пор ВШЭ. Есть ряд учреждений и по стране: сильная технологическая школа, например, в Воронеже. Они выпускают вполне достойные кадры, но это скорее некий полуфабрикат, а кадров из них уже делаем мы, потому что самый лучший способ подготовить специалиста в области анализа данных — это практические кейсы. То есть в вузах они получают математический и программистский аппарат, а после нарабатывают методики, инструментарии, опыт. Это жутко дефицитные специалисты в стране, и мы постоянно проводим конкурсы, приглашаем людей на работу, берем студентов и так далее. Это очень молодая индустрия, не только с точки зрения времени существования, но и возраста ее участников. Здесь очень хорошо работают подвижные молодые мозги: человек с открытым видением замечает больше возможностей. С возрастом появляется больше шаблонов, поэтому для нас молодость — это плюс.

Датамайнер, data scientist — очень творческие профессии. Это не просто математики и аналитики, они должны увидеть во всей палитре проявлений этого мира красоту, которая называется взаимосвязью, понять, что действительно важно и интерпретировать в полезную модель. Я искренне уверен, вижу это как факт, что специалисты по анализу данных меняют мир. И это фантастическое зрелище, когда человек из любой точки мира может изменить жизни сотни тысяч миллионов людей, просто создав алгоритм, который привнесет в нее иное качество. Датамайнинг настроен на то, чтобы делать мир лучше в широком спектре. У него очень много социальных миссий, даже бизнес-задачи несут в себе фантастический социальный эффект. Алгоритм может отладить расписание РЖД или настроить логистическую цепочку в «Почте России» так, что бабушка вовремя получит письмо от внука. Даже циничный скоринговый алгоритм, который решает давать человеку кредит или нет, позволяет банку нести меньше убытков и, следовательно, предлагать более выгодные условия честным клиентам. Поэтому я занимаюсь этим с большим упоением.

«Деньги компании рождаются от взаимодействия с нами»

Рынок состоит из нескольких частей. Big Data — его сегмент, который направлены на обеспечение инфраструктурных решений: аппаратную, облачную части, или программное обеспечение, чтобы эти данные агрегировать. Мы же создаем интеллектуальную составляющую, которая, используя всю эту инфраструктуру, извлекает полезность. Просто инфраструктурой денег не отбить, поэтому деньги компании рождаются от взаимодействия с нами.

На рынке есть ряд коробочных решений. Мы же создаем алгоритм под конкретного клиента на конкретных данных. Один алгоритм не может одновременно хорошо работать на американском и российском рынке, потому что в нем по-разному отражается ментальность. Компаний как мы в мире не так много. В России есть сильные команды: «Мегафон», «Яндекс», «Мэйл.ру», «Озон», но они сфокусированы на внутренней работе. Мы не ограничены индустриальной тематикой, а, так как у нас более широкая компетенция, возникает кросс-индустриальный эффект.

«Создавать алгоритмы мирового конкурентного уровня»

Мы работаем по двум моделям, чтобы создать лучший алгоритм в мире. Первая — конкурс, который полностью заменяет НИР, классическую научно-исследовательскую работу, — вещь хорошую, но не всегда эффективную: научные группы в институтах год или два проверяют гипотезы, пишут отчеты и так далее, поэтому результат получается очень дорогим и долгим. Конкурс в этой индустрии заменил НИР, потому что смарткрауд — это умные люди со всего мира, которые набрасываются на задачу и ее призовой фонд, привнося свой менталитет и подходы к решению проблемы. В итоге все апробируется за два месяца, а вариативность результатов гораздо шире.

Так мы видим некий ландшафт идей и специалистов по конкретной тематике. Но этого недостаточно. Мы долго думали, что делать дальше, и начали этих людей привлекать, чтобы они продолжали исследования и доводили их до окончательного результата и внедрения клиенту. Это и подсказало нам, как построить модель. Мы берем данные, формулируем задачу и проводим конкурс. В итоге у нас есть три первых места — три лучших специалиста со всего мира и их алгоритмы, которые показали свое качество. Прибавляем к ним сотрудников «Алгомоста» с самой большой датамайнинговой экспертизой. Подключаем индустриальных экспертов, например, по банковским услугам или ритейлу, которые лучше понимают семантику этих данных. И обеспечиваем инструментарий, вычислительные мощности и весь менеджмент проекта.

Такая конструкция способна создавать алгоритмы мирового конкурентного уровня, которые по результатам обходят то, что сегодня происходит на рынке. Тут есть два фактора: за счет самого конкурса, мы очень быстро понимаем, куда надо бить. Плюс мы очень быстро достигаем текущего эволюционного среза знаний и создаем правильную среду, чтобы этот прорыв произошел. На конкурсе нельзя поставить задачу в области Big Data, потому что рабочие станции ее решателей — обычные компьютеры, которые не позволяют работать с большим данными, и это просто нечестно. Поэтому мы ставим пилотные задачи в области анализа небольших данных, но где проявляется проблематика конкретной сферы. Конкурсы проводились и до нас, но строить по их итогам подобные исследовательские группы — наша идея.

Мотивацией для участников помимо призового фонда является само попадание в эту конструкцию, название которой мы взяли из супер-компьютинга — Smart Grid. Там это распределенная сеть вычислительных кластеров, работающих вместе. То же самое у нас: поскольку участники, которых сейчас около тысячи, рассредоточены по всему миру, мы сделали виртуальные отделы анализа данных. Это очень выгодно экономически: мы вышли на мировой уровень конкурсами, пробились выше за счет Smart Grid’a и уже обрели конкурентное преимущество среди топовых компаний.

«Клиенты с полнейшим пониманием, как все устроено»

Вторая модель более классическая — это Private Account. В тех случаях, когда заказчик не может сделать свои данные публичными, мы создаем алгоритм внутри собственной команды. У нас есть две рабочие группы. Одна жестко сфокусирована на задачах фондового рынка, который имеет свою специфику: это самая загруженная среда, специалистов нужно долго погружать в семантику, и вытаскивать их оттуда очень дорого. Другая группа — более широкого профиля, она занимается остальными индустриями: медициной, банкингом, ретейлом и так далее. Система понятна: большинство клиентов приходят с данными и бизнес-задачей типа увеличения конверсии или сокращения издержек по конкретному направлению. Мы с помощью индустриальной экспертизы заказчика создаем алгоритм, который потом внедряется в инфраструктуру.

Другой путь очень продвинутый с точки зрения открытости взгляда и менталитета менеджмента заказчика. Таких мало. Они приходят с идеями без конкретного перечня задач, чтобы посмотреть, что в их данных есть в принципе. Тогда мы проводим потрясающую процедуру — визуализацию. Это не график зависимостей, а исследование данных с точки зрения наличия в них взаимосвязей, в том числе скрытых, и выявление потенциала. Это масштабное сложное и дорогостоящее исследование позволяет оценить всю полноту возможностей, которые дают эти данные для конкретного бизнеса. Возникает фантастический эффект, потому что в итоге мы строим дорожную карту компании: раскладываем во времени задачи с экономическим обоснованием каждой из них. Помимо этого у нас есть понимание, что и когда будет более ценно с точки зрения бизнеса, то есть это план реализации алгоритма в деньгах и времени.

Есть российские компании с высоким уровнем понимания анализа данных и собственными специалистами. Они привлекают нас, потому что своей команды недостаточно, чтобы решить весь перечень задач и проработать их глубоко.

Мы создаем вероятностные модели, здесь важна точность, которая зависит от глубины проработки.

Бывают и курьезные случаи. Например, приходит клиент с задачей и «полнейшим пониманием, как все устроено». Мы готовим предложение и просим данные. В ответ мне приходит письмо, от которого я чуть сознание не потерял: «Вы в своем уме? Мы частная компания, мы свои данные никому передавать не будем, так что разберитесь на других данных и пришлите нам результат».

«Бизнес должен становиться более осознанным и управляемым»

Стоят такие процедуры по-разному. Но относительно эффекта, который генерируется, это самая эффективная инвестиция в собственное дело: бизнес должен становиться более осознанным и управляемым. Мы думали, что в кризис нам будет совсем сложно, но ошиблись: количество интереса и денег, которые инвестируются в датамайнинг, выросли по экспоненте. Компании не хотят тратиться на большие инфраструктурные решения, дорогие лицензии и программно-аппаратные комплексы мировых брендов, и идут инновационным путем.

Датамайнинг — большой инструмент и для стартапов, чтобы отстроиться, развиться и эволюционировать. Они одни из наших массовых клиентов, потому что любой стартап — это решение, которое помимо предоставляемых услуг, должно быть умным: понятным, удобным и лично про вас. Таких проектов становится больше, поэтому мы даже создали под них венчурный фонд: у новичков часто не хватает средств на оптимизацию, и мы им ее предоставляем взамен на долю в компании.

К нам, например, часто приходят ребята, которые занимаются решениями для страховщиков. Сейчас очень популярно направление телематики: в машину ставится модуль, который анализирует, как вы ездите. И вот они нашли модуль, договорились, сервера подняли, интерфейсы написали, то есть оформили все архитектурно. Но такой продукт не способен дать качественную оценку вождения. Это датамайнинг в чистом виде.

«Должен быть общий тренд на оздоровление»

Крупные федеральные ретейл-сети обращаются, например, с задачей рассчитать, сколько в каждый магазин в каждый цикл поставки нужно завозить товарных единиц, которых тысячи. Нам нужно было спрогнозировать потребление товара в каждом магазине сети по всей стране. Мы составили алгоритм, который сократил общий срок пребывания товара на полках на 40%, основываясь на чеках, информации об акциях и ряде маленьких секретных данных, которые позволили сделать настройки более точными.

Есть у нас потрясающий кейс из медицины. Мы работали с прибором, который считывает пульсовую волну и параметры типа эластичности сосудов, насыщенности крови кислородом и так далее. Проблема в том, что прибор замечательный, но с высокой вероятностью искажения показателей: человек может заволноваться, что-то может произойти, может включиться свет, и все это исказит пульсовую волну. Нужно было понять, что действительно показывает про здоровье человека, а что лишнее. Мы создали алгоритм, который чистит подобные шумы, и в 20 раз увеличили точность показаний. Соответственно, вероятность правильного диагноза увеличивается также в 20 раз. Так в фармакологии мы можем сокращать количество исследований и затрат на аппараты, которые выходят на рынок.

Одному банку мы предлагали настроить систему рекомендаций для рассылок. Сотрудники нас уведомили, что у них суперспециалисты и все работает правильно. Через несколько месяцев мне позвонил председатель правления и пригласил приехать. Я приезжаю, а он мне показывает сообщение от собственного банка, который предложил сходить ему в «Бургер-Кинг» со скидкой 10%. Говорит:

У меня транзакции по этой карте — за сотню тысяч долларов в месяц. Почему я должен идти в «Бургер-Кинг»?

Оказалось, география — единственный признак, по которому они сортировали коммуникацию. После этого контракт с нами они подписали быстро.

Если говорить о государственных проектах, то в них есть ряд особенностей. Датамайнинг очень честен сам по себе: если закономерность есть, она есть. И обратная сторона его в том, что он показывает особенности менеджмента, принятия решений, их эффективности. Пока госконтракты — это очень ресурсоемкая вещь. Должен быть соответствующий запрос и общий тренд на оздоровление.

«Никто ни за кем не следит»

Таким образом, датамайнинг позволяет изучить поведение пользователей и предложить именно то, что нужно. Естественно, это не слежка: понять ваши пристрастия — одна история, следить — другая. Никто ни за кем не следит, принятие решений, формирование мнения о вас происходит на основе деятельности, которую вы проявляете. Известный пример из глобальной практики, когда в Америке была выявлена закономерность, что в пятницу после 16 часов покупают подгузники и пиво. В это время жены отправляют своих мужей купить на всю неделю подгузников, потому что они заканчиваются. Поскольку пятница, мужчина покупает себе пиво. Рядом с подгузниками поставили стойку с элитными сортами пива с высокой маржинальностью. Экономика взлетела.

Кроме того, мы никогда не получаем персональных данных: фамилии, адреса, номера паспортов предварительно отрезаются, мы видим просто факты: покупки, обращения и тому подобное. Так что это не персональная история. Просто если вы входите в группу, которая любит сушки с кофе, значит, за три дня до того, как они у вас закончатся, вам нужно предложить их купить. Не вижу причин для паранойи.

Мы начали экспансию в этом году. Пошли на азиатский и американский рынки, но самая нагруженная линия сейчас — производить все больше кадров. У меня есть план по итогам следующего года снять еще один этаж и посадить туда датамайнеров. Это обоснованный план, поскольку рынок разворачивается в нашу сторону, и я хочу сконцентрировать их в одном месте, нарастить команду и собрать кейсы.