«Теории и практики» завершают спецпроект «Список „Просветителя“», в котором собраны 25 лучших нон-фикшн-книг 2017 года по версии премии, и публикуют главу из книги «Статистика и котики». Владимир Савельев объясняет, как работает анализ данных, на примере котиков. О том, как лучше всего визуализировать данные, чтобы их было проще воспринимать, а также как можно обманывать с помощью диаграмм и графиков — в новом выпуске «Открытого чтения».

Когда нам требуется получить более полные и зрительно осязаемые представления о котиках, мы можем прибегнуть к так называемым средствам визуализации данных.

Первая группа средств показывает, сколько котиков обладает тем или иным размером. Для их использования необходимо построить так называемые таблицы частот. В этих таблицах есть два столбика: в первых указывается размер (или любое другое котиковое свойство), а во втором — количество котиков при данном размере.

Это количество, кстати, и называется частотой. Эти частоты бывают абсолютными (в котиках) и относительными (в процентах).

С таблицами частот можно сделать много интересных вещей. Например, построить столбиковую диаграмму. Для этого мы откладываем две перпендикулярных линии: горизонтальная будет обозначать размер, а вертикальная — частоту. А затем — рисуем столбики, высота которых будет соответствовать количеству котиков того или иного размера.

А еще мы можем вместо столбиков нарисовать точки и соединить их линиями. Результат называется полигоном распределения. Он довольно удобен, если котиковых размеров действительно много.

Наконец, мы можем построить круговую диаграмму. Величина каждого сектора такой диаграммы будет соответствовать проценту котиков определенного размера.

Следующая группа средств визуализации позволяет отобразить сразу два котиковых свойства. Например, размер и мохнатость. Как и в случае со столбиковыми диаграммами, первым шагом рисуются оси. Только теперь каждая из осей отображает отдельное свойство. А после этого каждый котик занимает на этом графике свое место в зависимости от степени выраженности этих свойств. Так, большие и мохнатые котики занимают место ближе к правому верхнему углу, а маленькие и лысые — в левом нижнем.

Поскольку обычно котики на данной диаграмме обозначаются точками, то она называется точечной (или диаграммой рассеяния). Более продвинутый вариант — пузырьковая диаграмма — позволяет отобразить сразу три котиковых свойства одновременно (размер, мохнатость и вес). Это достигается за счет того, что сами точки на ней имеют разную величину, которая и обозначает третье свойство.

Последняя крупная группа средств визуализации позволяет графически изобразить меры центральной тенденции и меры изменчивости. В простейшем виде это точка на графике, обозначающая, где находится средний котик, и линии, длина которых указывает на величину стандартного отклонения. […]

Помимо вышеперечисленных средств существует еще немало специфических, заточенных под определенные цели (например, диаграммы, использующие географические карты). Однако, вне зависимости от того, какой тип диаграмм вы хотели бы использовать, существует ряд рекомендаций, которые желательно соблюдать.

На диаграмме не должно быть ничего лишнего. Если на ней есть элемент, не несущий какой-либо смысловой нагрузки, его лучше убрать. Потому что чем больше лишних элементов, тем менее понятной будет диаграмма.

То же самое касается цветов: лучше ограничить их количество до трех. А если вы готовите графики для публикации, то лучше их вообще делать черно-белыми.

Темная сторона визуализации

Несмотря на то, что средства визуализации помогают облегчить восприятие данных, они так же легко могут ввести в заблуждение, чем, к сожалению, часто пользуются разные хитрые люди. Ниже мы приведет самые распространенные способы обмана с помощью диаграмм и графиков.

Проценты вместо абсолютных величин. Очень часто, чтобы придать своим данным значимости, хитрые люди переводят абсолютное количество котиков в проценты. Согласитесь, что результаты, полученные на 50% котиков, выглядят куда солиднее, чем на пяти.

Сдвиг шкалы. Чтобы продемонстрировать значимые различия там, где их нет, хитрые люди как бы «сдвигают» шкалы, начиная отсчет не с нуля, а с более удобного для них числа.

Сокрытие данных. Если же цель хитрого человека в том, чтобы скрыть значимые различия в данных, то их можно разместить на одной шкале с другими данными, которые на порядок отличаются от первых. На их фоне любые различия или изменения будут выглядеть незначительно.

Изменения масштабов. Более мягкий вариант создания иллюзии значимости — это изменения масштабов шкал. В зависимости от масштаба одни и те же данные будут выглядеть по-разному.

Таким образом, надо быть очень аккуратным, интерпретируя данные, представленные в виде графиков и диаграмм. Гораздо меньше подвержены манипуляции данные, представленные в табличной формуле. Однако и здесь можно использовать некоторые хитрости, которые могут ввести в заблуждение непосвященную публику.