Бакалавр и магистр математики Кембриджского университета Ингмар Вебер защитил докторскую диссертацию в Институте информатики Общества Макса Планка в Германии. Недавно Вебер начал работать в отделе исследований Yahoo! Inc, где участвовал в создании проекта Yahoo Political Search Trends. Он провел семинар в летней школе Яндекса в Ярославле, а 16 августа в Москве прочитал лекцию «Веб-наука: наблюдения онлайн-мира для изучения мира оффлайнового». T&P публикуют основные тезисы выступления.

Суть веб-науки заключается в наблюдении данных из интернета и использовании полученной информации в реальном мире. Например, существует такой сервис — Google Flu Trends. Обычно люди, заболевающие гриппом, несколько дней сидят дома, а затем идут к врачу, который ставит диагноз. И только на основании собранных по больницам данных можно делать вывод о заболеваемости гриппом. Теперь же заболевший сначала прогуглит свои симптомы прежде, чем пойти к доктору, если он к нему вообще пойдет. На основании поисковых запросов типа «температура», «насморк», «головная боль» и геолокации Google делает выводы об уровне заболеваемости гриппом в том или ином регионе, благодаря чему мы можем решить, стоит ли в этом месяце ехать, например, в Австралию, или лучше выбрать другую страну, где гриппом заражено не так много человек.

Обычно, когда хотят определить возможность образования пары на сайтах знакомств, люди ищут совпадение в ответах на такие вопросы, как раздражает ли вас курение. Оказывается, что вопросы надо задавать другие, например: «А не кинуть ли все к черту и начать жить на барже?». Кроме того, выяснилось, что романы людей, пишущих в твиттер каждый день, заканчиваются быстрее, чем у тех, кто этого не делает.

В целом люди, которые пришли в тот или иной ресторан со скидочным купоном, ставят ему рейтинг более низкий, чем люди, пришедшие в этот же ресторан просто так, несмотря на то, что платят больше. Это крайне любопытная и полезная информация для владельцев заведений. Ведь если вы открыли ресторан или кафе и хотите привлечь клиентов, можно воспользоваться групоном и другими скидочными сайтами, но получается, что люди, пришедшие с купонами, затем пишут менее положительные отзывы, а другие пользователи доверяют им больше, ибо человек, написавший прохладную рецензию, вряд ли является спамботом.

Проект Yahoo Political Search Trends возник благодаря анализу множества политических сайтов и блогов, склонных к поддержке правых или левых политических сил. Попадая на страницу проекта, вы сразу видите топ-запросы за прошедшую неделю, которые классифицируются как левые и правые — на основе анализа частоты употребления этого словосочетания в блогах и СМИ. К примеру, запрос «Обама лжет» более популярен среди правоцентристских изданий.

«Люди, которые пришли в тот или иной ресторан со скидочным купоном, ставят ему рейтинг более низкий, чем люди, пришедшие в этот же ресторан просто так».

Political Search Trends при помощи сайта Politifact дает возможность проверить правдивость тех или иных политических высказываний. Например, можно посмотреть, соответствует ли истине заявление политика Мишель Бахман, которая заявила, что тетя Обамы — нелегальный иммигрант. Politifact проанализировал различные источники и выяснил, что это лишь наполовину правда, потому что теперь тетя уже законный иммигрант. Дядя, впрочем, — все еще нет.

Исследование Social Influence in Social Advertising Эйтана Бэкши и Дина Эклса пытается выявить, насколько сильно влияние социальной информации на рекламу — то есть показывавает, насколько пользователи, например, фейсбука более склонны ставить лайки тем продуктам, которые уже нравятся их друзьям. В целом, чем большему количеству друзей нравится та или иная страница, тем вероятнее, что и этот человек также поставит лайк.

Как получить информацию для исследований? Количество источников поистине неисчерпаемо. Правда, надо быть аккуратным. К примеру, сайт Amazon.com — довольно богатый ресурс. Например, вот профиль пользователя, который недавно приобрел детское сиденье. Просмотрев другие его покупки, мы можем заметить, что скорее всего он является молодым родителем. В принципе, полученные данные можно было бы применить к исследованию о покупательском поведении родителей до и после рождения ребенка, но в пользовательском соглашении на сайте написано, что загрузка или копирование на свой компьютер данных о клиентах запрещена.

«На основании поисковых запросов типа «температура», «насморк», «головная боль» и геолокации Google делает выводы об уровне заболеваемости гриппом в том или ином регионе».

Существует, впрочем, множество других открытых ресурсов — например, твиттер. На странице любого пользователя мы видим его имя (в большинстве случаев оно настоящее), пол, его подписчиков, друзей и сам миниблог, который может содержать массу интересного для исследователя. В частности ретвиты — ведь в зависимости от того, чей пост ретвитит пользователь — @BarackObama или @MittRomney — он придерживается левой или правой политической ориентации соответственно. Хэштэг #obamacare — преимущественно правый, а хэштег #obamacares — левый. Иногда хэштеги внезапно трансформируются из правых в левых и наоборот. Обычно это происходит по вине так называемых налетчиков, которые участвуют в «войне хэштэгов».

Yahoo Answers — еще один ресурс, подходящий для исследований. У пользователей тоже есть профайлы, где они пишут что-то о себе. Но в данном случае очень большой массив информации содержится непосредственно в вопросе. Например: «Я — мужчина, живу в России, я левша. Что мне с этим делать?». Есть рубрикатор вопросов, что очень удобно. Также в качестве источников можно смело использовать Flickr, Lastfm, Youtube, Delicious и так далее.