Назад

Big data and the City

Алгомост

Где только не знакомились Кэрри Брэдшоу и ее подруги с молодыми людьми: на улице, на вечеринке, в музее, в баре… Чтобы встретить своего «Мистера Бига» главной героине нужно было всего-то выйти на улицу и случайно с ним столкнуться, попав в неловкую ситуацию. Но реальная жизнь это не сериал, где судьбоносные встречи происходят чуть ли не каждую серию, а у героев  нет стеснения и предрассудков. Да и времена «Секса в большом городе» прошли. С другой стороны, знакомиться стало гораздо легче и проще: теперь, чтобы найти «Мужчину Мечты» (или девушку),  достаточно просто выйти в Интернет.
Существуют сотни сайтов знакомств и dating — приложений: Tinder, Pure и Happn для мимолетных увлечений; Badoo, LovePlanet, OkCupid для поиска серьезных отношений. Некоторые из них предлагают найти вторую половину из определенного круга: Grindr пригодится представителям ЛГБТ — сообщества, JDate необходим еврейской общине, OurTime — для людей старшего поколения.
Самое главное - вопреки скептическому распространенному мнению  - приложения для знакомств действительно работают. Только в США с 2005 по 2012 год сочетались браком 3 млн. человек, которые познакомились через Интернет, то есть примерно 1/3 от всех зарегистрированных браков. По статистике 40-50% союзов заканчиваются разводом. Однако, процент разводов среди пар, познакомившихся на сайтах, гораздо ниже: всего 4%. Но почему?
Ответ кроется в Big Data. Ежедневно сайты знакомств генерируют сотни терабайт данных, которые включают в себя информацию о пользователях, их предпочтениях и поведенческих характеристиках. На их основе создаются алгоритмы, благодаря которым и складываются идеальные пары. Как именно строятся эти совпадения? Что влияет на «успешность» профиля на сайте знакомств? Как можно применить полученные данные из dating—сервисов? А главное, как мы, простые пользователи, можем использовать эти данные, чтобы увеличить свои шансы на успех? Об этом мы и расскажем в нашей статье.

Что общего у шахмат и Tinder?

Пожалуй, самое популярное приложение, которое входит в ТОП-3 dating — сервисов во всех странах, это Tinder. Наверное, многие заметили, что с течением времени количество match’ей уменьшается. Это связано с внутренним рейтингом Эло (принцип заимствован из шахмат). Первые несколько дней алгоритм смотрит на поведение нового пользователя: его пары, активность, предпочтения. Позднее ему присваивается внутренняя оценка. Однако не стоит воспринимать ее как индекс привлекательности или желанности. Elo score позволяет систематизировать многомиллионную базу пользователей ради улучшения качества совпадений.
Изначально Tinder предназначался для быстрого и удобного поиска: в приложении только фотографии и свободное «окошко» для описания себя и целей, преследуемых на сайте. Но многие пользователи начали злоупотреблять приложением: неограниченное количество лайков всех подряд по принципу «ловись рыбка большая и маленькая» значительно снизило качество совпадений, параллельно убирая самую главную задачу: найти себе пару, а не потешить свое самолюбие. Тогда разработчики ограничили количество положительных свайпов до 200 в сутки и создали алгоритм — классификатор. Для его разработки потребовались различные данные, такие как пол, возраст, местоположение, указание образования, наличие био. Однако самый главный фактор — это рейтинг другого человека, с которым образовалась пара. Чем выше рейтинг вашего match’а, тем выше становится и ваша оценка (напоминает серию Nosedive сериала Черное зеркало).  Такой подход обеспечивает более точную вероятность не просто совпадения, но и последующего общения и выстраивания отношений вне приложения.
Улучшить внутренний рейтинг можно, следуя простым правилам. Во  —  первых, не стоит быть слишком придирчивым: идеальное соотношение лайков и дислайков должно составлять примерно 30 к 70. Во — вторых, чем активнее и чем чаще вы заходите в приложение, тем больше вероятность сохранения оценки на должном уровне. Третий пункт: Tinder был создан для общения, поэтому чем чаще вы общаетесь со своими парами, тем выше становится ваш рейтинг. И самое главное — не свайпте всех подряд, иначе система отправит вас в shadowban, сделав вас практически «невидимкой» для остальных пользователей.

Нужен Роберт Паттинсон? У нас он есть. Ну, почти…

Интересный кейс по использованию машинного обучения на сайте знакомств есть у Badoo. Недавно разработчики добавили в свое приложение новую функцию «Двойники», которая дает возможность искать по фотографии похожих пользователей по всему миру. Алгоритм находит на фотографии лицо, по точкам определяет его черты и особенности, сопоставляет с данными своей аудитории (а это более 335 миллионов людей) и выдает наиболее похожих кандидатов. «Тренировали» систему при помощи фотографий знаменитостей.
Данную функцию можно использовать и для альтернативных социологических опросов, например, в качестве оценки популярности медийных личностей. Так в Великобритании самыми популярными запросами стали Роберт Паттинсон и Кара Делевинь. В мировой ТОП-10 вошли Ким Кардашьян, Селена Гомес и Данальд Трамп. В России ищут девушек, похожих на Веру Брежневу, Ирину Шейк, Наталью Водянову. Представительниц прекрасного пола привлекают молодые люди, визуально похожие на Сергея Лазарева, Александра Кержакова и Романа Абрамовича. В ТОП-20 также вошли Дмитрий Медведев и Владимир Путин.

Купидон — математик

Если Tinder и Badoo для вас пройденный этап, и хочется чего-то серьезного, то стоит обратиться к сайтам — анкетникам. Один из них, OkCupid, был основан в начале 2000-х гарвардскими математиками. Своих пользователей сайт привлек математическим подходом к поиску пары. Помимо стандартной анкеты с указанием пола, возраста и геолокации на сайте нужно заполнить вопросник. Изначально можно было дать ответы на 350 вопросов из 1000 на такие темы, как политика, религия, культура, предпочтения в бытовых мелочах, жизненные ценности и другие.  Позднее количество вопросов сократилось до 150.  Также есть возможность отметить приемлемые и нежелательные ответы, а также отметить степень важности наличия ответа на вопрос по 5 — бальной шкале. После заполнения анкеты новый пользователь появляется на сайте, а также получает уведомления о других людях, с чьими ответами вышло совпадение. Алгоритм на основе данных из анкет высчитывает совместимость и ранжирует молодых людей и девушек от большего количества процентов совпадения к меньшему. Согласитесь, чтобы построить крепкие отношения, нужны общие ценности и взгляды на жизнь. И многие серьезные вопросы не задашь на первом или втором свидании. Так OkCupid находит идеальные пары для своих клиентов. Но всегда ли такой алгоритм работает?

Как спрограммировать любовь

Любая система несовершенна. Частая проблема на сайтах знакомств  у некоторых молодых людей — отсутствие совпадений. И не важно, какой это сайт: поисковик по фото или многостраничный опросник — бывает, что пары нет и нет, или все не то и не так. И, казалось бы, стоит опустить руки. Но нет! Американский математик и программист Крис МакКинли решил «взломать» сайт знакомств, чтобы найти свою любовь.
Крис — 35-летний долговязый парень, который занимается программированием. Он в течение долгого времени искал свою вторую половинку. Но на OkCupid у него практически не было совпадений: из 20 000 девушек Лос-Анджелеса у него было меньше сотни совпадений, да и то попадались совсем не те девушки, которые его интересовали. Проблема заключалась в вопросах, которые он выбирал. Те темы, которые он заполнял, совершенно не интересовали девушек, а посмотреть их интересы он не мог: система сайта знакомств высвечивала ответы только на общие вопросы. Для большинства пользователей он был «невидимкой» на сайте. Можно было бы методом «научного тыка» подобрать «правильные» вопросы и ответы. Но зачем, если ты математик и знаешь Python?
Крис создал 12 фейковых аккаунтов и написал скрипт для автоматического управления ими. Каждый аккаунт случайным образом отвечал на поставленные вопросы. В результате он не только смог охватить все вопросы с различными ответами, но и получил доступ ко всей базе девушек Лос-Анджелеса, зарегистрированных на сайте. Эти данные он начал использовать для построения собственной модели поиска.
20 000 аудиторию МакКинли сократил до 5000 — исходя из более интересных параметров. Далее он выделил 7 групп девушек, чьи интересы, привычки и взгляды на жизнь совпадали, и выбрал 2 наиболее привлекательные для него. Первая группа девушек получила название «green»: они были молоды (25 — 35 лет) и еще неопытны в отношениях. Во вторую группу — «samanthas» - входили более зрелые женщины 35 — 45 лет. После были созданы 2 аккаунта, максимально «заточенных» под каждую группу. Результат поразил Криса: количество match’ей с процентным соотношением более 90 теперь насчитывали сотни.
Прежде чем найти свою вторую половинку, он сходил на 87 неудачных свиданий. Однако 88-й девушке он сделал предложение руки и сердца.

Lie to me

​Почему же такой продвинутый алгоритм OkCupid не справился со своей задачей в случае с Крисом? Неужели дело только в выбранных вопросах? Не всегда. Любой алгоритм воспринимает данные «за чистую монету» (как и некоторые люди). И на основе этих данных строится вся система. Однако по оценкам ученых, более 80 процентов пользователей обозначали неверную информацию о возрасте, физических параметрах, доходе, сексуальной ориентации и т.д. Многие используют фотографии десятилетней давности, что также является недостоверной информацией. И здесь даже алгоритмы бессильны.
Выход есть: новый этап развития dating-сервисов — это приложения без возможности заполнения данных. Недавно вышло  приложение SHY, где пользователю не нужно ничего писать о себе: вся информация берется из социальных сетей. В отличие от Tinder, алгоритм SHY не просто собирает и хранит данные пользователя, но и анализирует их, создавая пары автоматически. Задача остается только одна: собрать в своем профиле Facebook как можно больше информации о собственных интересах и предпочтениях. Достоверной. 

​Количество имеет значение

Сколько же данных ежегодно генерируются в приложениях для знакомств?  Трудно посчитать, но можно представить. Недавно французская журналистка Юдит Дюпорталь запросила у Tinder все данные, которые имеются у компании на нее с 2013 года. В ответ представители компании прислали 800-страничный документ, содержащий информацию не только о молодых людях, с которыми она образовала пару за все это время, но и всю историю переписок (даже удаленных), данные о молодых людях, всю информацию из социальных сетей (Facebookи Instagram). Вообразите, какой объем данных на вас есть у «больших и серьезных» dating-сервисов!
Генеральный директор eHarmonyГрант Лэнгстонговорит, что за 16 лет существования компании были собраны не только такие данные, как геопозиция, пол, возраст, информация об образовании пользователей, но и психографические (лайки, интересы, привычки) и поведенческие (действия, произведенные на сайте) данные. Забегая вперед и представляя, как будут развиваться устройства в будущем, можно представить, какую дополнительную информацию можно собрать. Например, данные из «умных» часов дадут представление о ритме, стиле  жизни и здоровье пользователя. Но какую ценность имеет эта информация, помимо ее использования для построения алгоритмов? И как ее можно коммерциализировать?

Gillette: лучше для Тиндера нет!

​Компания Procter&Gamble обратилась на сайт знакомств, чтобы создать рекламную кампанию для продвижения своего бренда Gillette. Разработчики предложили предпринимателям интересный способ рекламы, совмещенный с экспериментом. Были отобраны 100 тысяч пользователей среди мужчин 20 — 25 лет. В первую неделю молодые люди ставили на главную аватарку фотографию себя с бородой и смотрели, сколько лайков они получат. Во вторую неделю они изменили фото на ту, где их лица были гладко выбриты, и посмотрели, сколько взаимных симпатий им выпадет. Результаты очень удивили как Procter&Gamble, так и Tinder: число лайков молодых людей без бороды выросло на 19% во вторую неделю. Для Gillette это крупный успех, поскольку на полученных данных можно создать наглядную и эффективную рекламную кампанию.

Когда открывать «сезон охоты»?

Как бы цинично это ни звучало, но поиск пары во многом схож с маркетинговым продвижением товаров и услуг: надо преподнести себя в лучшем свете, чтобы понравится большему количеству «покупателей». И время «выхода на рынок» играет не последнее значение. Портал Wblog изучил данные многих знаменитых сервисов знакомств и обнаружил некоторые временные закономерности.
Самый «выгодный» месяц для знакомств — февраль. Не удивительно - за 3 недели до Дня святого Валентина одинокие сердца хотят найти кого-нибудь, чтобы не встречать праздник в одиночку. Количество «активных» пользователей увеличивается на 26%, а пик приходится на 9 февраля. В то же время не стоит искать пару в канун Рождества и Нового года — у большинства на этой просто не остается времени. Если нет желания ждать последнего зимнего месяца, то стоит «выходить на охоту» в среду и в четверг с 18 до 22 часов вечера или в обеденное время — именно эти интервалы являются самыми популярными среди пользователей.

Как создать идеальный профиль при помощи анализа данных

Со временем мы определились. Как же лучше преподнести себя своей будущей второй половинке? В этом нам снова помогут Большие Данные. Научно-популярный портал XXII век собрал и проанализировал информацию из самых популярных dating-сервисов и представил в виде инфографики полученные результаты. Мы продублируем самые интересные и важные советы по созданию успешного профиля на сайте знакомств.
В любом приложении самая главная и привлекательная информация — это ваша фотография. Количество лайков и совпадений прямо пропорционально качеству фотографии. Идеальное фото в профиль должно быть сделанона фотоаппарат, без использования вспышки,глубина резкости от ƒ/1,2 до  ƒ/2,2,  без посторонних людей в кадре. Будет отлично, если на следующей фотографии вы будете изображены в полный рост. По информации, размещенной на сайте, стоит также различать гендерные особенности: если женщины получают больше match’ей  когда улыбаются, то мужчины наоборот: «бесконтактный взгляд» привлекает большее внимание.
Информация о вас — ценный  и важный источник данных. Профили, в которых описаны хобби и приверженность к здоровому образу жизни, получают в среднем на 20 % больше совпадений. При общении старайтесь избегать прямых намеков на телесную близость и уничижительно ласкательных характеристик таких как «милашка» - в противном случае примерно в половине переписок вы попадете в черный список.

Бриджит Джонс и алгоритм любви

​Почему в одних отношениях мы счастливее, чем в других? Возможно ли заранее спрогнозировать ход и развитие отношений? Уберечь себя от душевных ран? Можно. При помощи анализа данных и алгоритмов, применяемых в различных сервисах знакомств, у нас появилась возможность сэкономить огромное количество времени, затрачиваемого на неперспективные и ненужные отношения. Согласитесь, в любви, как и в бизнесе, гораздо выгоднее заранее просчитать все возможные «исходы», «издержки», «доходы» и «потери».
Но если при помощи Big data можно найти свою пару и привлечь внимание интересного человека, то до создания «алгоритма любви» еще далеко: пожалуй, единственное, что пока невозможно загнать в «матрицу», это наши чувства. В противном случае, Марк Дарси так и не вернулся бы к Бриджит Джонс. Хотя, кто знает, чем еще нас удивят Искусственный Интеллект и машинное обучение в будущем? Поживем — увидим.
 

Янишевская Дарья