{"id":2175,"url":"\/distributions\/2175\/click?bit=1&hash=803b6e1bcbd9dfc4ba9456fda887a878c80d24df8d3a575913b14876e18923a5","title":"TJ \u0437\u0430\u043a\u0440\u043e\u0435\u0442\u0441\u044f 10 \u0441\u0435\u043d\u0442\u044f\u0431\u0440\u044f \u2014\u00a0\u043f\u0440\u043e\u0447\u0438\u0442\u0430\u0439\u0442\u0435 \u0430\u043d\u043e\u043d\u0441 \u0441 \u0434\u0435\u0442\u0430\u043b\u044f\u043c\u0438","buttonText":"\u0427\u0438\u0442\u0430\u0442\u044c","imageUuid":"d1d355d8-93a3-5140-aeae-14b03046b760","isPaidAndBannersEnabled":false}

Как информацию наших профилей во «ВКонтакте» используют для маркетинговых исследований

Всем привет!

Как уже многие из нас знают, оставляя о себе информацию в социальных сетях (например, написав какой-то пост или лайкнув запись), вы оставляете за собой некий «цифровой след».

Не будем прибегать к научным терминам, так как это скучно, да и в целом не особо нужно, а перейдем сразу к делу. Также в этой теме не будут затронуты конспирологические теории (а хочется).

В этой статье я хочу рассказать об интересном проекте ребят из «Яндекса», которые проанализировали поведение пользователей музыкальных сообществ в «ВКонтакте» и любезно поделились методом проведения исследования и результатами методом тематического моделирования на GitHub (ссылка на исследование и все материалы к нему внизу).

Если у вас есть интерес к изучению поведения потребителей, или вам, допустим, необходимо написать курсач или дипломную работу по поведению потребителей – то вы можете воспользоваться инструкциями ребят. Инструкция работает, даже если ты не программист, однако попотеть все же придется.

Кстати, как же не хайпануть и не упомянуть Америку: цифровые следы потребителей и работа с цифровыми профилями потребителей также активно используются в политике. Так, еще в 2016 году команда Д. Трампа перед выборами использовала данные цифровых следов пользователей и отправила в социальных сетях свыше 175 тысяч вариаций сообщений американцам. Сообщения могли отличаться незначительными деталями, однако они были хорошо подстроены под каждого конкретного человека.

Несколько позже данная технология была использована волонтерами Д. Трампа для общения с жителями из разных штатов и даже районов, в данном случае стиль и лексикон общения с жителями варьировались в зависимости от результатов исследования. Чем закончились выборы, вы уже знаете.

Говоря о том, как использовать тематическое моделирование для наших изысканий, пропустим слишком технические детали, однако упомянем, что же все-таки сделали ребята:

  • Выбрали сообщества, которые нужно проанализировать;
  • Спарсили айди пользователей, а затем их стены;
  • Проанализировали получившиеся массивы данных, выкинули т.н. выбросы (про выбросы в статистике можно почитать здесь);
  • «Чистые» данные проанализировали методом тематического моделирования (читай здесь);
  • Интерпретировали результаты.

Звучит все довольно просто, однако это весьма долгая и интересная работа. Итак, какие для анализа были выбраны жанры: Эстрада, Попса, Рок, Метал, Классика, Рэп, Шансон, Джаз, Панк, Танцевальная, Инди, из них выбраны 134 исполнителя. Для каждого направления были найдены соответствующие сообщества во «ВКонтакте» по указанной выше процедуре. В результате анализа получили тематические профили любителей каждого из жанров.

Для чего это нужно

С точки зрения маркетинга это круто тем, что позволит повысить эффективность маркетинговой стратегии и улучшить уровень кастомизации маркетинговых сообщений, так как тематический профиль позволяет понять, что интересует потребителей и как они об этом говорят.

Несколько примеров результатов построения модели:

Первой у нас будет идти группа любителей шансона (рисунок ниже). Как мы видим, сложные модели имеют ряд недостатков, например, в данном случае мы можем наблюдать неинтерпретируемую тему.

В остальном любители шансона у себя на стене говорят о песнях о жизни и любви, о человеке, рассуждают на философские тематики, попсовых песнях, видимо, любят путешествовать и т.д.

В целом, у них довольно много обсуждений разных песен на стене, и в то же время им мало интересно обсуждение политики, довольно редко встречается обсуждение Тимати и репа в целом (почему-то связаны в одну тему рэп и говно я так и не понял, но темы могут интерпретироваться по-разному, это субъективный параметр).

Далее обсудим любителей песен Киркорова (о да, их можно выделить в один жанр). Тематический профиль графически отображен на рисунке ниже. Как видно из тематических профилей, любители песен Филиппа Киркорова любят писать благодарности за концерт (как же без них), рассуждать на философские темы, музыку, постят тексты попсовых песен. Темы Тимати, рэпа, политика и прочие (можете посмотреть на рисунке) им не особо интересны.

Последним рассмотрим довольно популярного современного исполнителя – Тимати. Рисунок уже по традиции ниже. Как видно, здесь уже зрители не пишут столько благодарностей за концерты по сравнению с Филиппом Бедросовичем, видимо это обусловлено психологическими характеристиками пользователей. Тоже любят порассуждать о жизни и о любви и т.д.

Еще с помощью Python можно посмотреть какие жанры сильно различаются между собой и какие схожи по косинусному расстоянию (рисунок ниже). Как мы видим, шансон и классика далеки друг от друга (логично же), как и шансон с джазом и джаз с попсой. В то же время есть много иных жанров, пользователи которых схожи между собой.

В целом тема довольно интересная и для маркетинга, и для личного опыта. Если вам интересно, как это работает, можно посмотреть проект с лекциями и кодом на GitHub. Там, если порыться, можно найти материалы по анализу сообществ с мемами разного качества.

Или можете посмотреть видео на YouTube без СМС и регистрации:

З.Ы. Экспертов приглашаю в комменты, что вы думаете о таком подходе?))

З.З.Ы. Спасибо всем за адекватную критику, в статье и правда было много косяков ;))

0
140 комментариев
Написать комментарий...
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
6 комментариев
Эдуард Тункевичус
Автор

не соглашусь, посты в соцсети - это публичная информация, её можно собирать и это не запрещено)

Ответить
Развернуть ветку
4 комментария
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Эдуард Тункевичус
Автор

Я об этом думал, на самом деле

Настолько плох контент?

Ответить
Развернуть ветку
30 комментариев
Степан Маслов

Может в этом и состоит их эксперимент, они изучают реакцию аудитории "онлайн журналов" на налёты своих подопытных

Ответить
Развернуть ветку
7 комментариев
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Эдуард Тункевичус
Автор

Приватные профили удалены из выборки) Не хотел технические детали описывать) ссылку добавил, спасибо за коммент)

Ответить
Развернуть ветку
Максоний

Самый очевидный вопрос: ВШЭ?

Ответить
Развернуть ветку
Эдуард Тункевичус
Автор

Ага) Скоро Вышка будет местным мемом))

Ответить
Развернуть ветку
Паша Красников

Вижу статью без нормального форматирования - ставлю дизлайк и не читаю.
Заебали.

Ответить
Развернуть ветку
Эдуард Тункевичус
Автор

Можно линк на статью с норм форматированием? Я не понимаю тебя

Ответить
Развернуть ветку
6 комментариев
Kemosabe
Экспертов приглашаю в комменты, что вы думаете о таком подходе?))

в жопу контакт, ваши профили и маркетинговые исследования

Ответить
Развернуть ветку
Эдуард Тункевичус
Автор

В следующий раз будем анализировать Tj тогда)))

Ответить
Развернуть ветку
1 комментарий
Посторонний

Маркетинговые исследования проводяться как правило для эффективного маркетинга, а не для подбора контента под личный интерес. Вк - крупная соцсеть, в которой можно рекламиться, и эффективней, если реклама хорошо подобрана под ЦА.

Ответить
Развернуть ветку
6 комментариев
Посторонний

Чем хорошо косинусное расстояние (не эксперт), чем лучше корреляции? Вначале не заметил и подумал было, вторая, для неё значения незначительны. Можно на тех же данных сделать корреляцию наверное?
Да и в кс, значения изменяются от 0 к 1, да? 0,23 там уже - высокое значение?

Ответить
Развернуть ветку
Эдуард Тункевичус
Автор

я строил корреляции между темами, а не группами, но между группами тоже думаю можно ее построить

Ответить
Развернуть ветку
2 комментария
Степан Маслов
повысить эффективность маркетинговой стратегии

Всегда было интересно увидеть какие-то реальные _кейсы_ повышения конверсии (или как там у них это говно называется) такими методами, типа эффективность рекламы с учётом тематического профиля / без учёта, или растёт только бюджет у маркетологов?

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
18 комментариев
Эдуард Тункевичус
Автор

По затратам такое исследование дешевле классического количественного, так как нужен один кодер

Ответить
Развернуть ветку
8 комментариев
Посторонний

А, чуть ключевое не забыл спросить - как посты распредлелялись по темам, вручную? Если автоматически, то как, по каким признакам? Автоматически, по кр. мере если не сильно заморачиваться, может быть значимый % ошибок, особенно в случае иронии/пародии на контент другой темы/направленности, плюс бывают важны вложения (фото/видео/аудио).

Ответить
Развернуть ветку
Эдуард Тункевичус
Автор

я так понял, что это вероятностная модель, которая считает вероятность упоминания документа в той или иной теме. Там какой-то сложный механизм, связанный с распределением Дирихле (на этом этапе мой мозг отключился)

Но в целом, если тебя хватит, можешь почитать презу, там подробно расписано.

Ответить
Развернуть ветку
21 комментарий
Посторонний

Нет ссылки в

 (про выбросы в статистике можно почитать здесь)
Ответить
Развернуть ветку
Эдуард Тункевичус
Автор

спасибо, адейтну)

Ответить
Развернуть ветку
2 комментария
Владимир Прохоровитч

не вкурил, множество тем задается или получается уже в результате анализа?

Ответить
Развернуть ветку
Эдуард Тункевичус
Автор

получается в рез-те анализа, их кол-во задается мануально

Ответить
Развернуть ветку
2 комментария
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Читать все 140 комментариев
null