Seekers, Providers, Welcomers, and Storytellers: Modeling Social Roles in Online Health Communities
Это исследование я рекомендую прочитать тем, кто занимается продуктами с групповыми/социальными фичами: Q&A-сервисы, ПО для коллективной работы, мультиплеерные игры, «социальный» e-commerce и т. д.
Группа ученых из Carnegie Mellon и Stanford решила изучить феномен «успеха» крупнейшего форума по теме рака в мире — Cancer Survivor Network (CSN). Сайт существует с начала 2000-х и стал самым крупным в своем сегменте. Было много аналогичных площадок, но все рано или поздно затухали, а CSN развивается и по сей день.
У социологов возникла гипотеза — на форуме сложилась определенная структура социальных ролей, которая обеспечивала «баланс» в сообществе и позволила ему развиваться. Осталось ее проверить на данных, которые были предоставлены American Cancer Society (а это вся переписка на сайте с 2003 по 2018 гг).
Но для начала надо формально определить, чем является «социальная роль» на данных. Для этого они обратились к теории. Социальная роль в науке определяется 4 факторами:
- Цель — у индивида в сообществе есть цель, которую он преследует исходя из собственных интересов.
- Взаимодействия — роль контактирует с другими участниками сообщества. На форуме эти взаимодействия проявляются по-разному: старт новой темы обсуждений, написание ответа, лайк комментария или обращение в директ.
- Ожидания — социальные роли при взаимодействии рассчитывают на определенную обратную связь. Например, на работе начальник и подчиненный знают чего ждать друг от друга и соответственно подбирают стиль общения. В онлайн-сообществах обычно нет явно формализованных ролей и только «старожилы» знают как и с кем общаться. Например, из-за этого новички на StackOverflow часто стесняют вступать в разговоры и задавать вопросы.
- Контекст — некоторые роли могут существовать только при определенных условиях. Например, «поставщик информации» существует во многих типах сообществах, включая Q&A сервисы, рабочие группы и форумы. А вот «коммитер» — это специфичная роль для сообщества разработчиков (GitHub, Bitbucket). Приватность также играет большое значение. Поведение человека на публике обычно отличается от его поведения наедине или с родными.
Кратко про технические моменты:
- При помощи кластеризации решили определить какие вообще есть роли, т. к. «доменные эксперты» (модераторы и другие сотрудники CSN) сами до конца не могли однозначно ответить на этот вопрос. Разметки не было.
- В реальной жизни человек принадлежит к нескольким ролям одновременно. Например, на работе я одновременно «аналитик» и «спамер в slack». Чтобы учесть это, была использована Gaussian Mixture Model (GMM), которая позволяет отнести объект к нескольким группам с определенной вероятностью.
- Для «генерации фич» были использованы подходы из сетевого анализа (SNA) и обработки текста (NLP). Всего было сделано 83 признака.
- Количество кластеров — это гиперпараметр модели, которые исследователи сами могли задавать. Они пробовали находить от 2 до 20 кластеров. После «игры» с данными, количество от 10 до 15 показалось им «адекватным».
Чтобы окончательно определиться с количеством ролей, были подключены доменные эксперты. После долгих дискуссий, пришли к оптимальному количеству кластеров — 11.
Тем не менее, модераторы отметили, что модель не нашла один тип роли. Она редко встречается на форуме, но сильно запоминается.
Видимо, слишком мало подобных наблюдений было в датасете или ученые не нашли «нужные» фичи.
После этой огромной работы, они начали проверять свои гипотезы и находить другие инсайты. Кратко:
- Основная гипотеза про «баланс» ролей в сообщество подтвердилась.
- Нашли свое доказательство «на данных» несколько теорий из социологии, что также сработало как доп.фактор валидации модели.
- Нашли «путь успешного пользователя» форума, который становится костяком сообщества. Как следствие, смогли лучше понять retention/churn.
So What?
- Исследователи разработали рабочий подход к нахождению «социальных ролей». Они заявляют, что эта методология универсальна и может быть использована в других предметных областях. На работе я уже частично использовал методы из этого ресерча (привет, Алися!) и получил интересные результаты.
- Найдя роли в своих продуктах, можно будет 1) определить хорошие Health-метрики, 2) более четко формулировать и проверять продуктовые гипотезы, 3) системно развивать социальную составляющую продукта.

