{"id":2175,"url":"\/distributions\/2175\/click?bit=1&hash=803b6e1bcbd9dfc4ba9456fda887a878c80d24df8d3a575913b14876e18923a5","title":"TJ \u0437\u0430\u043a\u0440\u043e\u0435\u0442\u0441\u044f 10 \u0441\u0435\u043d\u0442\u044f\u0431\u0440\u044f \u2014\u00a0\u043f\u0440\u043e\u0447\u0438\u0442\u0430\u0439\u0442\u0435 \u0430\u043d\u043e\u043d\u0441 \u0441 \u0434\u0435\u0442\u0430\u043b\u044f\u043c\u0438","buttonText":"\u0427\u0438\u0442\u0430\u0442\u044c","imageUuid":"d1d355d8-93a3-5140-aeae-14b03046b760","isPaidAndBannersEnabled":false}

16 июн 2020 16.06.2020

Как информацию наших профилей во «ВКонтакте» используют для маркетинговых исследований

Всем привет!

1722 просмотров

Как уже многие из нас знают, оставляя о себе информацию в социальных сетях (например, написав какой-то пост или лайкнув запись), вы оставляете за собой некий «цифровой след».

Не будем прибегать к научным терминам, так как это скучно, да и в целом не особо нужно, а перейдем сразу к делу. Также в этой теме не будут затронуты конспирологические теории (а хочется).

В этой статье я хочу рассказать об интересном проекте ребят из «Яндекса», которые проанализировали поведение пользователей музыкальных сообществ в «ВКонтакте» и любезно поделились методом проведения исследования и результатами методом тематического моделирования на GitHub (ссылка на исследование и все материалы к нему внизу).

Если у вас есть интерес к изучению поведения потребителей, или вам, допустим, необходимо написать курсач или дипломную работу по поведению потребителей – то вы можете воспользоваться инструкциями ребят. Инструкция работает, даже если ты не программист, однако попотеть все же придется.

Кстати, как же не хайпануть и не упомянуть Америку: цифровые следы потребителей и работа с цифровыми профилями потребителей также активно используются в политике. Так, еще в 2016 году команда Д. Трампа перед выборами использовала данные цифровых следов пользователей и отправила в социальных сетях свыше 175 тысяч вариаций сообщений американцам. Сообщения могли отличаться незначительными деталями, однако они были хорошо подстроены под каждого конкретного человека.

Несколько позже данная технология была использована волонтерами Д. Трампа для общения с жителями из разных штатов и даже районов, в данном случае стиль и лексикон общения с жителями варьировались в зависимости от результатов исследования. Чем закончились выборы, вы уже знаете.

Говоря о том, как использовать тематическое моделирование для наших изысканий, пропустим слишком технические детали, однако упомянем, что же все-таки сделали ребята:

Выбрали сообщества, которые нужно проанализировать;
Спарсили айди пользователей, а затем их стены;
Проанализировали получившиеся массивы данных, выкинули т.н. выбросы (про выбросы в статистике можно почитать здесь);
«Чистые» данные проанализировали методом тематического моделирования (читай здесь);
Интерпретировали результаты.

Звучит все довольно просто, однако это весьма долгая и интересная работа. Итак, какие для анализа были выбраны жанры: Эстрада, Попса, Рок, Метал, Классика, Рэп, Шансон, Джаз, Панк, Танцевальная, Инди, из них выбраны 134 исполнителя. Для каждого направления были найдены соответствующие сообщества во «ВКонтакте» по указанной выше процедуре. В результате анализа получили тематические профили любителей каждого из жанров.

Для чего это нужно

С точки зрения маркетинга это круто тем, что позволит повысить эффективность маркетинговой стратегии и улучшить уровень кастомизации маркетинговых сообщений, так как тематический профиль позволяет понять, что интересует потребителей и как они об этом говорят.

Несколько примеров результатов построения модели:

Первой у нас будет идти группа любителей шансона (рисунок ниже). Как мы видим, сложные модели имеют ряд недостатков, например, в данном случае мы можем наблюдать неинтерпретируемую тему.

В остальном любители шансона у себя на стене говорят о песнях о жизни и любви, о человеке, рассуждают на философские тематики, попсовых песнях, видимо, любят путешествовать и т.д.

В целом, у них довольно много обсуждений разных песен на стене, и в то же время им мало интересно обсуждение политики, довольно редко встречается обсуждение Тимати и репа в целом (почему-то связаны в одну тему рэп и говно я так и не понял, но темы могут интерпретироваться по-разному, это субъективный параметр).

Github

Далее обсудим любителей песен Киркорова (о да, их можно выделить в один жанр). Тематический профиль графически отображен на рисунке ниже. Как видно из тематических профилей, любители песен Филиппа Киркорова любят писать благодарности за концерт (как же без них), рассуждать на философские темы, музыку, постят тексты попсовых песен. Темы Тимати, рэпа, политика и прочие (можете посмотреть на рисунке) им не особо интересны.

Github

Последним рассмотрим довольно популярного современного исполнителя – Тимати. Рисунок уже по традиции ниже. Как видно, здесь уже зрители не пишут столько благодарностей за концерты по сравнению с Филиппом Бедросовичем, видимо это обусловлено психологическими характеристиками пользователей. Тоже любят порассуждать о жизни и о любви и т.д.

Github

Еще с помощью Python можно посмотреть какие жанры сильно различаются между собой и какие схожи по косинусному расстоянию (рисунок ниже). Как мы видим, шансон и классика далеки друг от друга (логично же), как и шансон с джазом и джаз с попсой. В то же время есть много иных жанров, пользователи которых схожи между собой.

Github

В целом тема довольно интересная и для маркетинга, и для личного опыта. Если вам интересно, как это работает, можно посмотреть проект с лекциями и кодом на GitHub. Там, если порыться, можно найти материалы по анализу сообществ с мемами разного качества.

Или можете посмотреть видео на YouTube без СМС и регистрации:

З.Ы. Экспертов приглашаю в комменты, что вы думаете о таком подходе?))

З.З.Ы. Спасибо всем за адекватную критику, в статье и правда было много косяков ;))

#исследования #соцсети #вконтакте #яндекс

140 комментариев

Написать комментарий...

Аккаунт удален

16.06.2020

Комментарий недоступен

Ответить

Развернуть ветку

Аккаунт удален

16.06.2020

Комментарий недоступен

Ответить

Развернуть ветку

6 комментариев

Эдуард Тункевичус

17.06.2020 Автор

не соглашусь, посты в соцсети - это публичная информация, её можно собирать и это не запрещено)

Ответить

Развернуть ветку

4 комментария

Аккаунт удален

17.06.2020

Комментарий недоступен

Ответить

Развернуть ветку

Эдуард Тункевичус

17.06.2020 Автор

Я об этом думал, на самом деле

Настолько плох контент?

Ответить

Развернуть ветку

30 комментариев

Степан Маслов

17.06.2020

Может в этом и состоит их эксперимент, они изучают реакцию аудитории "онлайн журналов" на налёты своих подопытных

Ответить

Развернуть ветку

7 комментариев

Аккаунт удален

16.06.2020

Комментарий недоступен

Ответить

Развернуть ветку

Эдуард Тункевичус

17.06.2020 Автор

Приватные профили удалены из выборки) Не хотел технические детали описывать) ссылку добавил, спасибо за коммент)

Ответить

Развернуть ветку

Максоний

17.06.2020

Самый очевидный вопрос: ВШЭ?

Ответить

Развернуть ветку

Эдуард Тункевичус

17.06.2020 Автор

Ага) Скоро Вышка будет местным мемом))

Ответить

Развернуть ветку

Паша Красников

17.06.2020

Вижу статью без нормального форматирования - ставлю дизлайк и не читаю.
Заебали.

Ответить

Развернуть ветку

Эдуард Тункевичус

17.06.2020 Автор

Можно линк на статью с норм форматированием? Я не понимаю тебя

Ответить

Развернуть ветку

6 комментариев

Kemosabe

16.06.2020

Экспертов приглашаю в комменты, что вы думаете о таком подходе?))

в жопу контакт, ваши профили и маркетинговые исследования

Ответить

Развернуть ветку

Эдуард Тункевичус

16.06.2020 Автор

В следующий раз будем анализировать Tj тогда)))

Ответить

Развернуть ветку

1 комментарий

Посторонний

17.06.2020

Маркетинговые исследования проводяться как правило для эффективного маркетинга, а не для подбора контента под личный интерес. Вк - крупная соцсеть, в которой можно рекламиться, и эффективней, если реклама хорошо подобрана под ЦА.

Ответить

Развернуть ветку

6 комментариев

Посторонний

17.06.2020

Чем хорошо косинусное расстояние (не эксперт), чем лучше корреляции? Вначале не заметил и подумал было, вторая, для неё значения незначительны. Можно на тех же данных сделать корреляцию наверное?
Да и в кс, значения изменяются от 0 к 1, да? 0,23 там уже - высокое значение?

Ответить

Развернуть ветку

Эдуард Тункевичус

17.06.2020 Автор

я строил корреляции между темами, а не группами, но между группами тоже думаю можно ее построить

Ответить

Развернуть ветку

2 комментария

Степан Маслов

17.06.2020

повысить эффективность маркетинговой стратегии

Всегда было интересно увидеть какие-то реальные _кейсы_ повышения конверсии (или как там у них это говно называется) такими методами, типа эффективность рекламы с учётом тематического профиля / без учёта, или растёт только бюджет у маркетологов?

Ответить

Развернуть ветку

Аккаунт удален

17.06.2020

Комментарий недоступен

Ответить

Развернуть ветку

18 комментариев

Эдуард Тункевичус

17.06.2020 Автор

По затратам такое исследование дешевле классического количественного, так как нужен один кодер

Ответить

Развернуть ветку

8 комментариев

Посторонний

17.06.2020

А, чуть ключевое не забыл спросить - как посты распредлелялись по темам, вручную? Если автоматически, то как, по каким признакам? Автоматически, по кр. мере если не сильно заморачиваться, может быть значимый % ошибок, особенно в случае иронии/пародии на контент другой темы/направленности, плюс бывают важны вложения (фото/видео/аудио).

Ответить

Развернуть ветку

Эдуард Тункевичус

17.06.2020 Автор

я так понял, что это вероятностная модель, которая считает вероятность упоминания документа в той или иной теме. Там какой-то сложный механизм, связанный с распределением Дирихле (на этом этапе мой мозг отключился)

Но в целом, если тебя хватит, можешь почитать презу, там подробно расписано.

Ответить

Развернуть ветку

21 комментарий

Посторонний

16.06.2020

Нет ссылки в

(про выбросы в статистике можно почитать здесь)

Ответить

Развернуть ветку

Эдуард Тункевичус

17.06.2020 Автор

спасибо, адейтну)

Ответить

Развернуть ветку

2 комментария

Владимир Прохоровитч

17.06.2020

не вкурил, множество тем задается или получается уже в результате анализа?

Ответить

Развернуть ветку

Эдуард Тункевичус

17.06.2020 Автор

получается в рез-те анализа, их кол-во задается мануально

Ответить

Развернуть ветку

2 комментария

Аккаунт удален

17.06.2020

Комментарий недоступен

Ответить

Развернуть ветку

Написать комментарий...

Читать все 140 комментариев