Допустим, вы — компания, накопившая множество потенциально полезных данных (ту самую «бигдату»). Можно обратиться к аналитику, чтобы он вытащил из них какой-нибудь полезный для бизнеса инсайт. Но вы ошибаетесь, если думаете, что для этого достаточно прогнать весь массив через волшебный алгоритм. Хороший аналитик сначала замучает вас вопросами о том, чего вы хотите (а вы поймете, что сами не знаете) и зачем (а вы поймете, что, может, и незачем). А если вы и есть тот самый аналитик, читайте о том, с чего начать работу с данными, в отрывке из книги Кирилла Еременко, предпринимателя и генерального директора образовательного онлайн-портала для аналитиков данных SuperDataScience.

Смотри, мама, никаких данных!

Несмотря на всю важность, выявление проблемы, как правило, является наиболее часто игнорируемой частью проектов, использующих данные. Я и сам грешил этим, поскольку долгое время начинал проекты с подготовки данных. Но это было не потому, что хотел проскочить вперед; я просто думал, что постановки проблемы достаточно. В конце концов, аналитики данных часто привлекаются к работе над проблемами, и на моей первой работе в Deloitte все проекты начинались с технического задания, в котором уточнялось то, что от меня требуется, и указывалось, где нужна помощь. Неудивительно, что фирма стандартизировала и упорядочила процесс, но это только сформировало во мне плохую привычку бежать впереди паровоза, прежде чем представить себе целостную картину.

Еще одна причина пренебрежения определением вопроса заключается в том, что на этом этапе не используется много данных (если они вообще используются), в результате чего многие аналитики данных относятся немного снисходительно к выполнению этого этапа. Но важно отметить, что те, кто предложил вопрос, вероятно, не являются специалистами по данным и не знают о подготовке, необходимой для очистки и анализа данных. Немногие компании на сегодняшний день информируют своих сотрудников о важности хранения информации и обеспечения доступа к ней, и этот пробел в знаниях означает, что

у многих аналитиков данных все еще спрашивают: «У нас есть много данных, может быть, вы сформулируете какие-то идеи на их основе?»

Подобные вопросы задаются очень часто, хотя они туманны, расплывчаты и ничему не способствуют в процессе решения проблемы компании*.

*

Многие руководители считают, что для выявления проблемы следует использовать данные, однако такой подход редко срабатывает. Мы не можем заставить данные говорить — мы должны сначала определить, что хотим услышать.

Таким образом, даже если вопрос был сформулирован заранее и ваш босс спрашивает, почему вы не занимаетесь обработкой данных, не думайте о себе как о сумасброде. Изложите свои доводы. Просто предложить вопрос недостаточно — он должен быть переформулирован в терминах, которые будут соответствовать имеющимся данным, иначе реализация проекта застопорится.

Как решить такую проблему, как…

Задания, которые поступают от руководства организации или от инвесторов, часто постулируются как открытые пути к вопросу, а не реальный вопрос как таковой: «Мы недопоставляем единицы продукции», или «Наши клиенты покидают нас быстрее, чем ожидалось», или «В нашем продукте есть дефект». Ни одно из этих утверждений не является вопросом. Я призываю читателей применять следующий поэтапный подход к выявлению и решению проблемы на основе данных. Это сделает первый этап более эффективным и снизит риск того, что вы сосредоточитесь на неправильной проблеме.

1. Поймите проблему

Любой, кто планирует участвовать в проектах, связанных с данными, должен прежде всего знать о ловушке, в которую он может невольно попасть еще до того, как работа начнется: если последовать решению коллеги относительно того, какими вопросами следует заняться, можно фактически выбрать ошибочную проблему. Коллега может иметь благие намерения и пытаться быть более полезным, представляя разработанные им вопросы, но они необязательно будут пригодны для запроса, адресованного данным. Заманчиво, получив несколько, по-видимому, хорошо сформулированных запросов, не беспокоиться о том, чтобы идентифицировать вопрос самостоятельно. Но это может привести к катастрофе в дальнейшем процессе; именно от вас зависит определение всех параметров бизнес-проблемы, потому что вы обучены тому, как это сделать. Слепое заимствование набора вопросов у специалиста, не связанного с данными, и применение их к вашему проекту может увенчаться решением не той проблемы или просто не привести к каким-либо результатам, потому что у вас нет для них необходимых данных.

Прежде чем начать непосредственно трудиться над проектом, в первую очередь нужно поговорить с человеком, который поставил перед нами проблему. Понимание не только того, что это за проблема, но и почему она должна быть решена сейчас, кто основные заинтересованные стороны и что ее решение будет означать для учреждения, поможет начать «отладку» нашего исследования. Без этого шага результат может оказаться опасным для аналитика данных, так как в дальнейшем по ходу проекта мы, несомненно, интерпретируем поставленный вопрос иначе, чем заинтересованные стороны. Как только мы разобрались с центральной проблемой, можно перейти ко второму шагу.

2. Изучить отрасль

Если у вас уже имеются знания о сфере, в которой вас просят работать, это отличное начало. Вы можете применить свой опыт. Вы, возможно, уже знаете, например, конкретные проблемы, с которыми обычно сталкиваются компании, работающие в этом секторе, или можете быть в курсе того, какие отделы, как правило, занимались этими вопросами успешно или тщетно либо какие конкурирующие компании обнаружили и решили именно те проблемы, которые были поставлены перед вами. Если у вас нет знаний об отрасли, не все потеряно. Потратьте некоторое время, исследуя ее более подробно. Каковы подводные камни в отрасли? Столкнулись ли конкуренты вашей компании с аналогичными проблемами или же есть существенные различия? Как они решали подобные проблемы? Миссия и цели компании, для которой вы работаете, существенны для отрасли как таковой? Чем эта компания отличается от других по объему производства, организационной структуре и рабочему процессу?

Google может быть вашим лучшим другом в поиске ответа на многие из этих вопросов, но также помните, что

как аналитик данных вы не работаете в вакууме. Детальное знание среды, где вы действуете, а также ее индивидуальных особенностей и ограничений поможет вам разработать подход, значимый для тех, кто так или иначе связан с проектом.

Не будьте отшельником. Если у вас пробелы в знаниях, используйте свой лучший ресурс — коллег. И даже если у вас есть вся необходимая информация, все равно пойдите и поговорите о том, что вы узнали, с соответствующими сотрудниками. Люди, которые вызвали ваш проект к жизни, всегда будут хорошей отправной точкой, чтобы убедиться, что вы говорите с теми, с кем нужно. Они не только помогут вам узнать недостающие сведения, но и направят к должностным лицам, ответственным за те участки в организации, где возникла проблема.

3. Думайте как консультант

Большинство согласится с тем, что наука о данных требует подхода «снизу вверх»: мы используем данные компании для проведения анализа и постепенно выстраиваем на них наши результаты, чтобы лучше понять внутренние проблемы компании. Этот потенциал данных и является тем, что делает первый шаг настолько захватывающим. Но для того, чтобы выявить вопрос, нужно обращать больше внимания на методы бизнес-консалтинга.

В консалтинге мы выделяем возможные стратегические подходы для бизнеса. В качестве консультантов, как правило, выступают люди, проработавшие в бизнесе или отрасли несколько лет и накопившие много знаний о соответствующем секторе. Они часто занимаются улучшением крупномасштабных стратегических и организационных аспектов компании, что требует нисходящего подхода, — и такая методология анализа общей картины обязывает делать определенные предположения о поставленной проблеме.

Для нас может показаться контрпродуктивным использовать консалтинговые методы; как аналитикам данных нам советуют стараться воздерживаться от предположений и использовать как можно больше достоверных данных. Но пример консультантов может быть чрезвычайно полезен, особенно на первом этапе процесса. Итак, забудьте на мгновение о своих технических знаниях и

посмотрите на организацию, участников проекта и стратегию компании, прежде чем начать размышлять о данных.

В конце концов, определение вопроса касается фильтрации имеющихся вариантов, и этот третий шаг поможет уточнить вопросы, чтобы они стали соответствовать потребностям нашей компании.

Составьте список ключевых участников проекта и особо отметьте, кто будет принимать окончательное решение. Проведите с ними некоторое время и не переходите к четвертому шагу, пока не сможете ответить на следующие вопросы:

  • Что каждый из участников проекта думает о проблеме?

  • Каковы грани этой проблемы?

  • Какие отделы должны быть в фокусе моего внимания?

  • В чем могут быть первопричины проблемы?

  • Считают ли участники, что я должен поговорить с кем-либо еще? Я с ними разговаривал?

  • Где находятся данные и кто за них отвечает?

  • Что будет означать успех этого проекта?

4. Осознайте ограничения

Что делать, если после всей проделанной здесь работы мы обнаружим, что данных, которые мы расценили как необходимые для нашего исследования, нет?

Наиболее эффективный подход заключается в том, чтобы изучить высший уровень массива данных и понять, какие данные у нас на самом деле есть и необходим ли дополнительный сбор сведений, прежде чем проект сможет двигаться вперед. Опять же, это означает общение с правильными людьми — теми, кто отвечает за существующие данные компании. Благодаря такому общению мы сможем получить более полное представление о том, где в данных могут обнаружиться проблемы и где нам может понадобиться дополнительная информация, чтобы гарантировать статистическую значимость выбранных нами данных. Этот шаг немного напоминает дилемму курицы и яйца, ведь

мы должны знать, какие вопросы задать данным, прежде чем мы увидим эти базы данных.

Но мы также должны убедиться в том, что уже на ранней стадии имеем нужные данные, — иначе потеряем много времени, прежде чем приступим к следующему этапу процесса анализа данных.

Практика — лучший путь к освоению этого. Вспомните свои мысли о том, какие типы данных будут полезны для ответа на ваши вопросы. Напишите их рядом с вопросами и делайте отметки, чтобы понять, что вам нужно в каждой контрольной точке. На первом проекте это может напомнить одновременное жонглирование многими тарелками, но с опытом все станет намного проще.

Если вы работаете в компании, которая с течением времени накопила много данных, первоначальное выявление проблемы становится еще более важным делом. Я часто обнаруживал, что, хотя коллеги могут положительно воспринимать идею использования данных, они не вполне уверены, что данные могут им помочь. Это может относиться даже к людям, управляющим базами данных. И именно здесь многие компании делают неверный шаг.

По иронии судьбы из-за того, что так велико количество данных, имеющихся в распоряжении у компаний, последние перестают осознавать смысл и значение данных и, следовательно, преуменьшают их ценность.

Мы должны помочь им понять важность данных, и это путешествие начинается здесь.

5. Проведите майнинг данных (по желанию)

Глубинный анализ (майнинг) данных — возможно, самая приятная для меня часть процесса в любом проекте. То, что ученым не дают заниматься майнингом данных, немного похоже на запрет кураторам музеев изучать материалы, за которые они несут ответственность. Именно на этом этапе вы можете позволить себе быть исследователем. Для меня глубинный анализ данных — процесс, в котором вы выполняете тестирование с целью тщательного изучения данных на высшем уровне и находите области, которые могут предложить интересные идеи для дальнейшего исследования. На этом экспериментальном этапе мне нравится помещать данные в Tableau**, которое умеет их читать и поможет вам создать предварительные наглядные визуализации, такие как легко читаемые таблицы, диаграммы и графики. Это обеспечивает прекрасный задел, который вы можете использовать в качестве фокусирующей линзы, чтобы сформулировать нужные вопросы.

**

Программное обеспечение для визуализации.

В конечном счете, если майнинг данных выполняется на начальном этапе проекта, он наиболее эффективно помогает лучше понять проблему и управлять процессом анализа. Это тест-драйв ваших данных: вы испытываете их в необработанном виде, чтобы увидеть, могут ли какие-либо тенденции проявиться даже на раннем этапе. Майнинг данных может сэкономить много усилий в дальнейшем. В то же время не унывайте, если он ни к чему не приведет. Данные могут предлагать или не предлагать нам дальнейшие действия или решения в зависимости от нескольких факторов, таких как компания, качество данных и уровень сложности проблемы. Итак, сделайте этот шаг, но не забывайте «делить на десять». И если вы найдете что-то интересное, запишите и убедитесь, что вы помните о своих находках, когда перейдете к шестому шагу…

6. Уточните проблему

Теперь, когда мы поняли масштаб проблемы и определили количество данных, имеющихся в нашем распоряжении, можно начать копать немного глубже. Здесь мы начинаем сопоставлять масштаб проекта с данными, чтобы отделить переменные и данные, которые будут полезны, от тех, которые не пригодятся, и чтобы надлежащим образом переформулировать вопрос.

Хотя все данные потенциально могут оказаться полезными, мы не можем использовать всю имеющуюся информацию по каждой проблеме, и это только к лучшему:

если бы все данные были полезны всегда, объем получаемой на выходе информации был бы просто слишком громоздким для управления. По этой причине мы можем быть разборчивыми по отношению к предоставленным данным. Это означает, что мы должны учесть параметры и контекст проблемы, которую хотим решить, прежде чем двигаться вперед. В конечном счете уточнение проблемы экономит время, устраняя данные, которые не имеют отношения к нашему вопросу.

7. Соберите дополнительные данные

На этом этапе вы уже определили, какие данные вам нужны, и составили разумный перечень вопросов для решения проблемы. Сейчас самое время оценить эффективность ваших подвопросов. В конце концов, просто не стоит отвечать на те вопросы, которые, как вы поняли, компанию не заинтересуют или по которым ничего не будет предпринято. Спросите себя сейчас: каковы ожидаемые результаты от этих подвопросов? Помогают ли они решить проблему или чего-то еще не хватает?

Именно здесь вы поблагодарите себя за то, что прошли предыдущие шесть шагов, достигнув этой точки; выделение ключевых областей, из которых вам нужны дополнительные данные, оптимизирует и, следовательно, ускорит процесс сбора данных. Составьте план, а затем отложите его в сторону; воздержитесь от сбора каких-либо данных вообще, пока вы не выполните восьмой шаг.

8. Проинформируйте заинтересованные стороны***

***

Возможно, данное действие не поможет определить параметры, необходимые для постановки вопроса, но тем не менее крайне важно, чтобы вы выполнили этот этап.

После того как мы приняли во внимание все предыдущие семь шагов, крайне необходимо, чтобы у нас, нашей команды и всех участников проекта было общее понимание ситуации. Четкая и ясная постановка проблемы, которую вы будете решать, обеспечит точный выбор подхода, и это уменьшит шансы других изменить ориентиры в процессе реализации проекта.

Сторона, обратившаяся с просьбой о выполнении проекта, должна согласиться с вашим планом решения проблемы, который в идеале должен включать в себя не только то, что касается содержания проекта, но и его временные рамки. Я настоятельно рекомендую разделить проект на этапы, что позволит всем вовлеченным лицам оставаться в курсе вашего продвижения вперед и защитит вас от любой негативной реакции в конце проекта и упреков в том, что вы скрывали свои намерения.

Также необходимо объяснить заинтересованным сторонам, что это не обычный бизнес-проект, что проекты в области науки о данных не всегда соответствуют моделям PRINCE2, которые столь знакомы и любимы бизнесом. Это поможет защитить вас от предвзятого вмешательства и даст возможность точно объяснить участникам, какие шаги вы собираетесь предпринять для выполнения задачи.

Единственное, на чем я настаиваю в начале любого проекта, связанного с наукой о данных, — это письменное подтверждение согласия заинтересованных лиц. Вы можете быть лучшими друзьями в личной жизни, но по моему опыту участники, в каком бы качестве они ни выступали, в ходе реализации проекта склонны менять свое представление о том, чего они хотят. Такое поведение понятно в случае, когда сам проект имеет расплывчатый характер, но оно способствует разрастанию масштаба, которое может либо вывести вас за рамки исходных параметров, либо полностью убить проект. Поэтому, прежде чем перейти к подготовке данных, получите письменное подтверждение согласия.

© z_wei / istockphoto.com

© z_wei / istockphoto.com

Соблюдение графика

Этот этап процесса анализа данных не должен продолжаться чересчур долго в цикле проекта. Иногда новички могут потратить на него слишком много времени, потому что хотят убедиться, что они разработали надежную методологию. Помните: вы никогда не сможете прояснить проблему до такой степени, чтобы точно знать, чего хотите. Если вы проделали хорошую работу на этом этапе, то, скорее всего, сэкономите время, но вы также должны научиться позволять процессу идти своим чередом — это умение приходит с опытом.

Если вы будете последовательно выполнять шаги, описанные выше, это застрахует вас от дальнейших трудностей и поможет обрести уверенность для перехода к своевременной подготовке данных. В конечном счете, если задача, которую перед вами поставили, не является дьявольски сложной и не требует многочисленных согласований, выявление и уточнение проблемы должно занять максимум неделю. Но старайтесь по возможности не ставить других в известность о сроках, которые вы стремитесь соблюсти, — это только добавит давления на вас. Если для вашего комфорта и прогресса требуется еще несколько дней, тем лучше.

Моя рекомендация? Дайте себе достаточно времени, чтобы уложиться в срок. Гораздо лучше пообещать меньше и перевыполнить обещание, чем сделать обратное.

Полезно сначала определить, сколько дней, по вашему мнению, займет проект в целом, а затем добавить 20% к этому количеству.

Чаще всего на анализ данных времени не хватает. И если вы столкнетесь с какими-либо препятствиями и подумаете, что не успеете завершить работу к дате, о которой вы изначально договорились, не забудьте предупредить заказчика — он должен узнать об этом как можно раньше. Информирование людей укрепит доверие между вами и другими участниками проекта и сделает их вашими единомышленниками. […]

В рубрике «Открытое чтение» мы публикуем отрывки из книг в том виде, в котором их предоставляют издатели. Незначительные сокращения обозначены многоточием в квадратных скобках. Мнение автора может не совпадать с мнением редакции.

Где можно учиться по теме #данные

Читайте нас в Facebook, VK, Twitter, Instagram, Telegram (@tandp_ru) и Яндекс.Дзен.