Всем привет!
Как уже многие из нас знают, оставляя о себе информацию в социальных сетях (например, написав какой-то пост или лайкнув запись), вы оставляете за собой некий «цифровой след».
Не будем прибегать к научным терминам, так как это скучно, да и в целом не особо нужно, а перейдем сразу к делу. Также в этой теме не будут затронуты конспирологические теории (а хочется).
В этой статье я хочу рассказать об интересном проекте ребят из «Яндекса», которые проанализировали поведение пользователей музыкальных сообществ в «ВКонтакте» и любезно поделились методом проведения исследования и результатами методом тематического моделирования на GitHub (ссылка на исследование и все материалы к нему внизу).
Если у вас есть интерес к изучению поведения потребителей, или вам, допустим, необходимо написать курсач или дипломную работу по поведению потребителей – то вы можете воспользоваться инструкциями ребят. Инструкция работает, даже если ты не программист, однако попотеть все же придется.
Кстати, как же не хайпануть и не упомянуть Америку: цифровые следы потребителей и работа с цифровыми профилями потребителей также активно используются в политике. Так, еще в 2016 году команда Д. Трампа перед выборами использовала данные цифровых следов пользователей и отправила в социальных сетях свыше 175 тысяч вариаций сообщений американцам. Сообщения могли отличаться незначительными деталями, однако они были хорошо подстроены под каждого конкретного человека.
Несколько позже данная технология была использована волонтерами Д. Трампа для общения с жителями из разных штатов и даже районов, в данном случае стиль и лексикон общения с жителями варьировались в зависимости от результатов исследования. Чем закончились выборы, вы уже знаете.
Говоря о том, как использовать тематическое моделирование для наших изысканий, пропустим слишком технические детали, однако упомянем, что же все-таки сделали ребята:
- Выбрали сообщества, которые нужно проанализировать;
- Спарсили айди пользователей, а затем их стены;
- Проанализировали получившиеся массивы данных, выкинули т.н. выбросы (про выбросы в статистике можно почитать здесь);
- «Чистые» данные проанализировали методом тематического моделирования (читай здесь);
- Интерпретировали результаты.
Звучит все довольно просто, однако это весьма долгая и интересная работа. Итак, какие для анализа были выбраны жанры: Эстрада, Попса, Рок, Метал, Классика, Рэп, Шансон, Джаз, Панк, Танцевальная, Инди, из них выбраны 134 исполнителя. Для каждого направления были найдены соответствующие сообщества во «ВКонтакте» по указанной выше процедуре. В результате анализа получили тематические профили любителей каждого из жанров.
Для чего это нужно
С точки зрения маркетинга это круто тем, что позволит повысить эффективность маркетинговой стратегии и улучшить уровень кастомизации маркетинговых сообщений, так как тематический профиль позволяет понять, что интересует потребителей и как они об этом говорят.
Несколько примеров результатов построения модели:
Первой у нас будет идти группа любителей шансона (рисунок ниже). Как мы видим, сложные модели имеют ряд недостатков, например, в данном случае мы можем наблюдать неинтерпретируемую тему.
В остальном любители шансона у себя на стене говорят о песнях о жизни и любви, о человеке, рассуждают на философские тематики, попсовых песнях, видимо, любят путешествовать и т.д.
В целом, у них довольно много обсуждений разных песен на стене, и в то же время им мало интересно обсуждение политики, довольно редко встречается обсуждение Тимати и репа в целом (почему-то связаны в одну тему рэп и говно я так и не понял, но темы могут интерпретироваться по-разному, это субъективный параметр).
Далее обсудим любителей песен Киркорова (о да, их можно выделить в один жанр). Тематический профиль графически отображен на рисунке ниже. Как видно из тематических профилей, любители песен Филиппа Киркорова любят писать благодарности за концерт (как же без них), рассуждать на философские темы, музыку, постят тексты попсовых песен. Темы Тимати, рэпа, политика и прочие (можете посмотреть на рисунке) им не особо интересны.
Последним рассмотрим довольно популярного современного исполнителя – Тимати. Рисунок уже по традиции ниже. Как видно, здесь уже зрители не пишут столько благодарностей за концерты по сравнению с Филиппом Бедросовичем, видимо это обусловлено психологическими характеристиками пользователей. Тоже любят порассуждать о жизни и о любви и т.д.
Еще с помощью Python можно посмотреть какие жанры сильно различаются между собой и какие схожи по косинусному расстоянию (рисунок ниже). Как мы видим, шансон и классика далеки друг от друга (логично же), как и шансон с джазом и джаз с попсой. В то же время есть много иных жанров, пользователи которых схожи между собой.
В целом тема довольно интересная и для маркетинга, и для личного опыта. Если вам интересно, как это работает, можно посмотреть проект с лекциями и кодом на GitHub. Там, если порыться, можно найти материалы по анализу сообществ с мемами разного качества.
Или можете посмотреть видео на YouTube без СМС и регистрации:
З.Ы. Экспертов приглашаю в комменты, что вы думаете о таком подходе?))
З.З.Ы. Спасибо всем за адекватную критику, в статье и правда было много косяков ;))
Комментарий недоступен
Комментарий недоступен
не соглашусь, посты в соцсети - это публичная информация, её можно собирать и это не запрещено)
Комментарий недоступен
Я об этом думал, на самом деле
Настолько плох контент?
Может в этом и состоит их эксперимент, они изучают реакцию аудитории "онлайн журналов" на налёты своих подопытных
Комментарий недоступен
Приватные профили удалены из выборки) Не хотел технические детали описывать) ссылку добавил, спасибо за коммент)
Самый очевидный вопрос: ВШЭ?
Ага) Скоро Вышка будет местным мемом))
Вижу статью без нормального форматирования - ставлю дизлайк и не читаю.
Заебали.
Можно линк на статью с норм форматированием? Я не понимаю тебя
в жопу контакт, ваши профили и маркетинговые исследования
В следующий раз будем анализировать Tj тогда)))
Маркетинговые исследования проводяться как правило для эффективного маркетинга, а не для подбора контента под личный интерес. Вк - крупная соцсеть, в которой можно рекламиться, и эффективней, если реклама хорошо подобрана под ЦА.
Чем хорошо косинусное расстояние (не эксперт), чем лучше корреляции? Вначале не заметил и подумал было, вторая, для неё значения незначительны. Можно на тех же данных сделать корреляцию наверное?
Да и в кс, значения изменяются от 0 к 1, да? 0,23 там уже - высокое значение?
я строил корреляции между темами, а не группами, но между группами тоже думаю можно ее построить
Всегда было интересно увидеть какие-то реальные _кейсы_ повышения конверсии (или как там у них это говно называется) такими методами, типа эффективность рекламы с учётом тематического профиля / без учёта, или растёт только бюджет у маркетологов?
Комментарий недоступен
По затратам такое исследование дешевле классического количественного, так как нужен один кодер
А, чуть ключевое не забыл спросить - как посты распредлелялись по темам, вручную? Если автоматически, то как, по каким признакам? Автоматически, по кр. мере если не сильно заморачиваться, может быть значимый % ошибок, особенно в случае иронии/пародии на контент другой темы/направленности, плюс бывают важны вложения (фото/видео/аудио).
я так понял, что это вероятностная модель, которая считает вероятность упоминания документа в той или иной теме. Там какой-то сложный механизм, связанный с распределением Дирихле (на этом этапе мой мозг отключился)
Но в целом, если тебя хватит, можешь почитать презу, там подробно расписано.
Нет ссылки в
(про выбросы в статистике можно почитать здесь)спасибо, адейтну)
не вкурил, множество тем задается или получается уже в результате анализа?
получается в рез-те анализа, их кол-во задается мануально
Комментарий недоступен