Что такое корреляция в аналитике данных: виды и методы расчета

Вопрос/тема: Что такое корреляция в аналитике данных: виды, методы расчета и частые ошибки

Краткий ответ:

Корреляция — это статистическая взаимосвязь двух или более переменных*. Если меняется один показатель, следом синхронно меняется и другой.
В бизнесе корреляционный анализ помогает находить скрытые закономерности. Например, оценивать, как именно рост рекламного бюджета влияет на итоговую выручку селлера.

Главное правило аналитики: корреляция не означает причинно-следственную связь (causation). Совпадение графиков не гарантирует, что одно событие физически вызвало другое.

Автор ответа: Дмитрий Коноваленко, руководитель компании

Что такое корреляция в аналитике данных: виды, методы расчета и частые ошибки

Оглавление:

Корреляция простыми словами: примеры для маркетинга и аналитики 2026
Коэффициент корреляции: формулы Пирсона, Спирмена и Phik с примерами 2026
Главная ловушка: почему корреляция не означает причинно‑следственную связь
Как посчитать корреляцию в Excel и Python: инструкция 2026 с примерами кода
FAQ (Частые вопросы)
Мнение эксперта
Заключение
Термины и сноски

Корреляция простыми словами: примеры для маркетинга и аналитики 2026

Понимание того, как метрики влияют друг на друга — базовый навык в Data Science, маркетинге и продуктовой аналитике. По данным аналитики рынка труда от «Хабр Карьеры» за 2025 год, знание математической статистики и умение находить скрытые связи в данных стабильно входят в топ-3 обязательных хард-скиллов для продуктовых и дата-аналитиков уровня Middle.

Суть корреляции: как измерить связь переменных

Корреляция показывает, насколько синхронно движутся две переменные. Представьте алгоритмы ценообразования «Яндекс Го». Когда в Москве начинается сильный снегопад, количество свободных машин уменьшается, а спрос резко возрастает. Следовательно, повышается и цена поездки.

В этом случае вы видите четкую линейную зависимость между погодными условиями и стоимостью услуги. Аналитики собирают статистику, строят диаграммы рассеяния (scatter plot) и вычисляют силу этой связи математически. Если метрики двигаются хаотично и независимо друг от друга, считается, что связи нет.

Прямая, обратная и нулевая корреляция

Взаимосвязь между показателями не всегда работает только в плюс. В статистике выделяют три основных направления:

Прямая (положительная). Обе переменные растут или падают одновременно. Чем больше вы тратите на таргетированную рекламу во «ВКонтакте», тем больше целевых лидов получаете.
Обратная (отрицательная). Один показатель растет, второй пропорционально снижается. Чем выше процентная ставка по потребительским кредитам в банке, тем меньше договоров заключают клиенты.
Нулевая. Связи между данными нет. Рост продаж корма для собак на Ozon никак не связан с изменением ключевой ставки ЦБ.

Таблица корреляций

Вид корреляции	Как ведут себя переменные	Коэффициент Пирсона (пример)	Практический пример из бизнеса
Прямая	↑ А, ↑ Б	+0.8–+1.0	Рост ПВЗ Wildberries → ↑ заказы
Обратная	↑ А, ↓ Б	-0.8–-1.0	↑ Время загрузки Мегамаркета → ↓ конверсия
Нулевая	Независимо	0	Лайки в Telegram → нет влияния на брак
Нелинейная	U-образная или параболическая	Не линейный (r≈0, но связь есть)	Конверсия от скидки: пик на 30%, спад на 90%

Нелинейная корреляция: U-образные связи в бизнесе

Новички в аналитике данных часто ищут только прямые линии на графиках. Но на практике связи бывают сложнее — например, U-образными.

Например, зависимость конверсии в покупку от размера скидки. Допустим, бренд одежды дает скидку: при 15% конверсия растет, при 30% — достигает пика. Но если бренд вдруг поставит скидку 90%, продажи могут рухнуть. Покупатели начнут подозревать, что товар бракованный или бренд пытается их обмануть. Линейный корреляционный анализ здесь покажет, что связи нет, хотя она очевидно есть — просто она меняет направление.

Отложенная корреляция (лаг): примеры в маркетинге

Метрики не всегда реагируют друг на друга мгновенно. Бывает и отложенный спрос (lagged correlation).

Представьте: вы запустили дорогую медийную рекламу своего сервиса на RuTube сегодня. Но всплеск брендовых запросов в поиске Яндекса и массовые регистрации начнутся только через две-три недели. Если аналитик сравнит данные «день в день», он сделает вывод, что реклама не сработала. Эксперты всегда сдвигают данные по оси времени, чтобы найти этот лаг.

Выбросы в корреляции: как аномалии ломают анализ

Всего одна аномалия в данных может обмануть даже опытного дата-сайентиста. Если построить график покупок в B2C-сегменте, 99% точек могут показывать нулевую корреляцию.

Но если в обычный вторник к вам пришел оптовик и закупил серверов на 50 млн рублей, эта единственная точка на графике (выброс) математически «натянет» коэффициент корреляции. Программа покажет сильную зависимость там, где ее на самом деле нет. Именно поэтому перед расчетами данные нужно очищать от аномалий.

Парадокс Симпсона (когда общая статистика врет)

Это высший пилотаж в работе с данными и частая ловушка при проведении A/B-тестов. Парадокс Симпсона — явление, при котором общая корреляция по всему массиву данных показывает один результат, но если разбить пользователей на когорты* (по городам, устройствам или возрасту), внутри каждой группы связь окажется прямо противоположной.

Например, в целом по всем пользователям конверсия приложения падает. Но если разделить их на владельцев iOS и Android, выяснится, что в обеих группах по отдельности конверсия растет. Аналитику важно уметь «проваливаться» в сегменты, чтобы не сделать ложных выводов на уровне средних значений.

Таблица ловушек корреляции

Ловушка	Описание	Как избежать	Пример из аналитики
Выбросы	Одна аномалия искажает r	Очистка данных (IQR-метод)	Оптовик на 50 млн в B2C
Отложенная корреляция	Лаг в 2–3 недели	Сдвиг данных по времени (ACF)	YouTube-реклама → запросы Яндекса
Парадокс Симпсона	Общий тренд ≠ сегменты	Разбивка по когортам	Конверсия iOS/Android

Коэффициент корреляции: формулы Пирсона, Спирмена и Phik с примерами 2026

Визуально оценить диаграмму рассеяния — это только половина дела. Чтобы принимать решения на основе точных цифр, аналитики вычисляют коэффициент корреляции. Это математический показатель, который переводит абстрактное «кажется, метрики растут вместе» в конкретное числовое значение.

Шкала Чеддока: интерпретация r от -1 до +1

Любой коэффициент корреляции всегда лежит в строгом диапазоне от -1 до +1. Знак перед числом (плюс или минус) показывает направление зависимости: прямая она или обратная. А само значение отражает силу этой связи. Ровно «0» означает, что линейной зависимости между метриками нет.

Чтобы бизнесу и продакт-менеджерам было проще интерпретировать результаты, в статистике используют качественную шкалу Чеддока. Она переводит сухие дроби в понятные оценки:

Значение коэффициента	Сила связи по шкале Чеддока
от 0.1 до 0.3	Слабая
от 0.3 до 0.5	Умеренная
от 0.5 до 0.7	Заметная
от 0.7 до 0.9	Высокая (сильная)
от 0.9 до 1.0	Весьма высокая (очень сильная)

Например, аналитики скоринга в банке исследуют связь между возрастом заемщика и количеством дней просрочки по кредитам. Если расчет показал значение -0,85, вы увидите сильную обратную связь: чем старше клиент, тем реже он задерживает платежи.

Коэффициент Пирсона

Это классический и самый популярный метод в дата-саенс. Коэффициент корреляции Пирсона применяется, когда нужно найти линейную зависимость между двумя непрерывными количественными переменными. Это могут быть рубли, секунды, клики или лиды.

В математике базовая формула Пирсона для выборки* выглядит так:

Этот инструмент отлично подходит, чтобы оценить влияние бюджета, например, в «Яндекс Директе» на итоговую выручку интернет-магазина: если траты и доходы растут пропорционально, коэффициент будет стремиться к единице.

Как интерпретировать значение коэффициента

Значение r лежит в диапазоне от −1 до 1:

r>0 — положительная связь: с ростом одной переменной растет и другая.
r<0 — отрицательная связь: увеличение одной переменной сопровождается уменьшением другой.
r = 0 — линейная зависимость отсутствует (но это не значит, что нет нелинейной связи).

Чем ближе ∣r∣ к 1, тем сильнее линейная взаимосвязь.

Условия корректного применения

Чтобы результат был надежным, важно соблюдать несколько условий:

Непрерывность данных — обе переменные должны быть количественными (интервальными или относительными).
Линейность — Пирсон оценивает именно линейную связь. Если зависимость нелинейная (например, параболическая), коэффициент может оказаться близким к нулю, даже если зависимость сильная.
Отсутствие выбросов — единичные аномальные значения способны сильно исказить результат. Перед расчетом полезно визуализировать данные (диаграмма рассеяния)*.
Нормальное распределение (для строгого вывода о значимости) — при проверке статистической значимости коэффициента обычно предполагается, что пары (x,y) взяты из двумерного нормального распределения.

Вернемся к примеру с рекламным бюджетом и выручкой. Если после расчета оказалось, что r = 0.92, это говорит о практически линейной зависимости: увеличение бюджета на 10% почти гарантированно дает пропорциональный прирост выручки. При

r = 0.2 связь практически отсутствует — значит, на рост продаж влияют другие факторы (сезонность, активность конкурентов, изменение конверсии), и прямое увеличение бюджета без дополнительной оптимизации может быть неэффективным.

Ограничения и альтернативы

Коэффициент Пирсона чувствителен к выбросам. Если в данных есть аномалии, стоит рассмотреть ранговую корреляцию Спирмена — она оценивает монотонную зависимость и более устойчива к outliers.

Пирсон показывает только силу линейной связи, но не дает информации о причинно-следственных отношениях. Высокий коэффициент не означает, что

x является причиной,
y — возможно, обе переменные зависят от третьего фактора.

Совет! Перед расчетом всегда стройте диаграмму рассеяния. Это помогает быстро обнаружить нелинейность, выбросы или неоднородность данных. Если точки на графике ложатся вдоль прямой линии — Пирсон подойдет идеально. Если же облако точек имеет форму дуги, логарифмической кривой или содержит кластеры — лучше использовать другие меры связи (Спирмен, Кендалл, коэффициент детерминации для нелинейных моделей).

Спирмен и Кендалл: для ранговых данных

Далеко не все бизнес-задачи сводятся к непрерывным деньгам или метрам. Часто аналитикам нужно сравнить порядковые данные (ранги): места в поисковой выдаче Яндекса, рейтинг приложения от 1 до 5 звезд или грейды сотрудников. Для нелинейных данных и порядковых шкал используют другие метрики:

Коэффициент Спирмена (ранговая корреляция). Оценивает монотонную связь. Алгоритм не смотрит на сами значения (допустим, на разницу в рублях), он сначала сортирует объекты от меньшего к большему, присваивает им места (ранги), а затем ищет связь уже между этими местами.
Коэффициент Кендалла. Работает по схожему принципу ранжирования, но математически опирается на количество совпадающих и несовпадающих пар. Он лучше справляется с небольшими выборками, где много одинаковых значений.

Представьте, что вы хотите проверить гипотезу: «Чем выше рейтинг карточки товара на Ozon, тем выше она ранжируется в каталоге». Рейтинг в звездах и позиция в выдаче — это ранговые, нелинейные данные. Коэффициент Пирсона здесь выдаст искаженный результат, а Спирмен или Кендалл покажут реальную картину.

P-value в корреляции: как проверить значимость

Коэффициент корреляции 0,9 (очень сильная связь) не значит вообще ничего, если он рассчитан на выборке из 5 человек. Начинающие специалисты часто приносят бизнесу «громкие» инсайты, найденные на крошечных данных, которые оказываются простой случайностью.

Эксперты всегда смотрят на показатель p-value* (статистическую значимость). Это вероятность того, что найденная вами связь случайна. В коммерческой аналитике принято правило: если p-value > 0.05 (то есть вероятность случайности больше 5%), корреляцию отправляют в мусорку, какой бы красивой она ни была.

Квартет Энскомба: почему r не показатель

Это классическая ловушка для джунов. Квартет Энскомба — это четыре совершенно разных набора данных. Если посчитать для них коэффициент Пирсона, он будет абсолютно одинаковым (0.816).

Но если построить визуальный график (scatter plot), выяснится, что в одном случае точки выстроены в прямую линию, в другом — образуют параболу, а в третьем график искажен единственным мощным выбросом. Отсюда вытекает железное правило аналитики: сначала рисуй график, потом считай коэффициент.

Таблица: Четыре графика Квартета Энскомба

Набор	Описание графика	Характеристика зависимости	Почему Пирсон вводит в заблуждение	Бизнес-пример аналогии
I	Линейная: точки плотно вокруг прямой линии с нормальным разбросом	Сильная линейная связь.	Нет — условия соблюдены.	Бюджет Директа → выручка: пропорциональный рост.
II	Квадратичная (параболическая): точки на кривой.	Нелинейная (функциональная).	Показывает r=0.816 как «умеренную», игнорируя параболу.	Конверсия от скидки: пик, затем спад.
III	Линейная с мощным выбросом: одна точка искажает линию.	Линейная, но выброс доминирует.	Завышает r, маскируя реальную связь без очистки	Оптовый заказ в 50 млн среди B2C-покупок.
IV	Вертикальная линия (x=const) + одна точка наклона: y меняется случайно.	Нет вариации x, случайная y.	r=0.816 ложно предполагает зависимость из-за нулевой дисперсии x	Фиксированный трафик → случайные лиды без тренда.

Мультиколлинеарность: как удалить дубли в ML

С этой проблемой регулярно сталкиваются специалисты по машинному обучению (Machine Learning). Если аналитик хочет предсказать продажи, он собирает в модель много факторов. Но некоторые факторы могут сильно коррелировать между собой. Например, метрики «время пользователя на сайте» и «количество просмотренных страниц».

Если метрики несут идентичную информацию, модель сталкивается с мультиколлинеарностью: она «путается» в дублирующихся сигналах, что снижает ее устойчивость. Чтобы этого избежать, специалисты визуализируют корреляции с помощью тепловых карт и целенаправленно исключают из набора лишние, сильно коррелирующие переменные.

V Крамера и Phik: корреляция для текста и категорий

Пирсон и Спирмен работают только с числами или рангами. А что делать, если бизнесу нужно найти зависимость между категориальными (текстовыми) данными? Например, влияет ли город проживания (Москва, Казань, Самара) на выбранный тариф подписки («Базовый» или «Семейный»)?

Здесь Senior-аналитики используют другие математические инструменты. Классический вариант — коэффициент V Крамера, который базируется на критерии Хи-квадрат. Более современный и мощный метод, популярный в Python-разработке — метрика ϕ_k ^(Phik), которая умеет находить нелинейные зависимости между любыми типами данных, включая текст.

Главная ловушка: почему корреляция не означает причинно‑следственную связь

Если вы спросите любого Data Scientist, какое правило в его работе самое важное, он ответит: корреляция не означает причинно-следственную связь.

Это самая частая ошибка начинающих аналитиков, маркетологов и даже журналистов. Если два графика на мониторе растут абсолютно синхронно, это еще не доказывает, что одно событие физически вызвало другое. Зависимость может быть случайностью, ошибкой в расчетах или следствием влияния незаметного внешнего фактора.

Ложные корреляции (spurious correlations)

Есть целое направление математического юмора, посвященное абсурдным совпадениям метрик. Оно называется «ложные корреляции». Алгоритмы способны найти идеальную математическую связь между вещами, которые в реальности никак не соприкасаются.

Представьте, что кто‑то построил график падения курса рубля и частоты запроса «как сварить пельмени» в Яндексе и нашел между ними высокую корреляцию. Цифры совпадают, но логики в этом нет — перед нами чистая случайность.

Эффект третьей переменной: confounding variable в аналитике

Гораздо чаще аналитики ошибаются из-за так называемой «третьей переменной» (confounding variable). Это ситуация, когда метрика А и метрика Б действительно растут синхронно, но не потому, что влияют друг на друга. Просто существует скрытая метрика С, которая управляет ими обеими.

Вот самый известный пример в продуктовой аналитике:

Факт: Продажи мороженого на набережных имеют жесткую прямую корреляцию с количеством нападений акул на людей.
Ложный вывод: Мороженое привлекает акул (или акулы заставляют людей заедать стресс пломбиром).
Реальность: Существует скрытая третья переменная — жара (лето). Когда становится жарко, люди массово скупают мороженое. И в это же время они массово лезут купаться в океан, где их ждут акулы.

Если перенести это на российский B2B-рынок: компания может заметить, что рост числа курьеров в доставке Ozon Fresh коррелирует с ростом продаж зимней резины. Означает ли это, что курьеры массово скупают шины? Нет. Третья переменная здесь — снегопад и заморозки, которые одновременно заставляют людей заказывать еду на дом и «переобувать» автомобили. Задача аналитика — всегда искать эту скрытую причину (жару, снег, кризис, Новый год), прежде чем делать выводы.

Приоритизация гипотез и поиск прокси‑метрик для LTV

Бизнесу важно понимать, какая именно фича продукта драйвит выручку, а какую можно безболезненно отключить. Проблема в том, что главную бизнес-цель — например, LTV (пожизненную ценность клиента) — нужно копить и считать месяцами. Ждать результатов A/B-теста так долго никто не будет.

Здесь выручает корреляция. Аналитики ищут прокси-метрики — быстрые действия пользователя в первый день, которые имеют доказанную математическую связь с долгосрочным удержанием. Например, если новый пользователь Авито в первые 24 часа добавил три товара в «Избранное», он с высокой вероятностью останется активным покупателем на год. Найдя такую корреляцию, продуктовая команда ставит гипотезу в приоритет и начинает пушить именно это быстрое действие.

Корреляция в рекламе: оптимизация бюджетов и защита от фрода

Маркетологи используют корреляционный анализ, чтобы оценивать реальную эффективность каналов. Они смотрят, есть ли статистически значимая связь между увеличением трат на кампании в «Яндекс Директе» и ростом итоговых покупок в CRM-системе.

Но корреляция — это еще и отличный сигнализатор мошенничества (фрода). При закупке рекламы во «ВКонтакте» количество кликов по баннеру линейно коррелирует с установками приложения. Если в какой‑то момент эта связь нарушается (клики растут, а установки остаются на прежнем уровне), это служит сигналом для немедленной проверки. Причина может быть либо в сбое трекера, либо в накрутке ботового трафика, что приводит к нецелевому расходованию бюджета.

Выявление каннибализации продуктов по отрицательной корреляции

Если между продуктами одной экосистемы наблюдается устойчивая обратная корреляция, это повод проверить, не мешают ли они друг другу, перетягивая аудиторию или ресурсы. Такая ситуация часто указывает на внутренние проблемы с позиционированием. Допустим, «Яндекс Маркет» запускает собственную недорогую торговую марку (СТМ) кофе. В дашбордах выручка от нового бренда бодро растет.

Но въедливый аналитик замечает сильную отрицательную корреляцию. Ровно на столько же падают продажи премиальных партнерских брендов кофе, которые раньше приносили маркетплейсу основную комиссию. Это явление называется каннибализацией. Маркетплейс не привлек новых денег с рынка, а просто переложил их из одного кармана в другой, потеряв в маржинальности.

Таблица: Каннибализация и негативная корреляция

Сценарий	Что показывает корреляция	Возможный вывод	Как действовать
Новый СТМ-бренд vs премиум-бренды	Сильная отрицательная связь	Каннибализация продуктовой линейки	Ревизия ассортимента и цен
Два тарифа подписки	Продажи одного растут, другого падают	Продукты конкурируют друг с другом	Переразделить ценность и аудиторию
Оффлайн vs онлайн-канал	Негативная связь по выручке	Миграция клиентов между каналами	Пересчитать unit-экономику по каналам

Корреляция в предиктивной аналитике и отбор признаков для ML

Крупный бизнес хочет предсказывать отток клиентов (churn rate) до того, как они физически удалят приложение. Для этого строят предиктивные модели машинного обучения (Machine Learning). Прежде чем скармливать терабайты данных сложным алгоритмам маркетплейса или банка, дата-сайентисты используют корреляцию как фильтр (этот процесс называется Feature Selection).

Они проверяют, какие вообще признаки имеют связь с риском ухода клиента. Если анализ показывает, что частота смены аватарки в профиле имеет нулевую корреляцию с оттоком, эту колонку просто удаляют из датасета. В результате модель не отвлекается на информационный шум, быстрее обучается и выдает более точные предсказания.

Как посчитать корреляцию в Excel и Python: инструкция 2026 с примерами кода

На практике аналитикам не нужно вручную перемножать дроби и извлекать корни по формуле Пирсона. Вся рутина давно автоматизирована. В этом блоке разберем, как быстро вычислять взаимосвязь метрик с помощью двух самых популярных инструментов: таблиц и кода.

Корреляция в Excel и Google Sheets

Если массив данных небольшой (до нескольких тысяч строк), проще всего использовать табличные процессоры. Логика работы и в Excel, и в Google Sheets абсолютно одинакова.

Допустим, у вас есть таблица с результатами рекламных кампаний: в столбце A указан ежедневный бюджет в рублях, а в столбце B — количество полученных заявок (лидов).

Выберите любую свободную ячейку, где хотите увидеть результат.
Введите стандартную функцию: =КОРРЕЛ(A2:A30; B2:B30) (для русскоязычного интерфейса) или =CORREL(A2:A30, B2:B30) (для англоязычного).
Нажмите Enter.

Таблица мгновенно выдаст значение от -1 до 1. Важный нюанс: эта функция по умолчанию считает именно линейный коэффициент Пирсона. Если данные нелинейные, результаты будут искажены.

В Python (библиотека Pandas)

Когда строк в базе становится сотни тысяч, а колонок (признаков) десятки, Excel начинает зависать. В таких случаях продуктовые и дата-аналитики переходят на язык программирования Python и его главную аналитическую библиотеку — Pandas.

Pandas позволяет буквально в две строчки кода построить корреляционную матрицу — таблицу, которая показывает взаимосвязь вообще всех колонок датасета друг с другом одновременно.

Вот базовый сниппет кода, который используют специалисты:

import pandas as pd

# Загружаем датасет из CSV-файла в датафрейм (df)


df = pd.read_csv('sales_data.csv')

# Вычисляем корреляцию Пирсона для всех числовых колонок


correlation_matrix = df.corr(method='pearson')

# Выводим результат на экран


print(correlation_matrix)

Метод .corr() невероятно гибкий. Если вы понимаете, что данные распределены ненормально или вы работаете с рангами (например, места в выдаче Яндекса), достаточно поменять аргумент в скобках. Напишите method='spearman' или method='kendall', и алгоритм автоматически перестроится на нужную математическую модель.

Чтобы не всматриваться в полотно цифр, аналитики подключают библиотеку Seaborn и визуализируют матрицу в виде тепловой карты (heatmap). Там, где связь сильная (ближе к единице), ячейки окрашиваются в темно-красный цвет, а где ее нет — остаются бледными.

Таблица: Быстрая шпаргалка по методам .corr()

Метод	Когда применять	Пример данных	Код в Pandas
'pearson'	Линейная, нормальные непрерывные	Бюджет → лиды (рубли, шт.)	df.corr(method='pearson')
'spearman'	Ранговые, нелинейные монотонные	Места в Яндексе → клики	df.corr(method='spearman')
'kendall'	Малые выборки, много ties	Рейтинги 1-5 звезд → продажи	df.corr(method='kendall')

FAQ (Частые вопросы)

Что делать, если корреляция равна нулю? Означает ли это, что метрики не связаны?

Нет, не всегда. Значение «0» при расчете стандартным методом Пирсона означает лишь то, что между переменными нет линейной зависимости. Связь вполне может быть нелинейной (например, U-образной). Если математика показала ноль, не спешите закрывать задачу. Первым делом постройте диаграмму рассеяния (scatter plot) и посмотрите на график глазами. Возможно, зависимость есть, просто она описывается параболой, или результат испортили мощные выбросы в данных.

Чем корреляция отличается от регрессии?

Это инструменты разного порядка. Корреляционный анализ просто констатирует факт: «Показатель А и показатель Б двигаются вместе, вот с такой силой». Он отвечает на вопрос «Что происходит?». Регрессионный анализ идет дальше: он пытается объяснить механизм этой связи математическим уравнением, чтобы предсказывать будущее. Регрессия отвечает на вопрос «Как именно А влияет на Б, и что будет с Б, если А увеличится в два раза?».

Можно ли доверять результатам на маленькой выборке?

Категорически нет. На выборке из 5–10 человек вы можете найти идеальную корреляцию (например, 0,99) между тем, какого цвета носки надели клиенты, и тем, купили ли они курс в «Яндекс Практикуме». Но эта связь будет случайной. Всегда проверяйте показатель p-value (статистическую значимость). Если он больше 0,05 — найденную закономерность нельзя масштабировать на весь бизнес.

Мнение эксперта

«На старте карьеры мы с командой анализировали программу лояльности и увидели шикарную цифру: клиенты, которые звонили в колл-центр жаловаться на задержку доставки, в следующем месяце покупали на 30% больше товаров. Коэффициент корреляции был очень высоким.
Первая мысль бизнеса была гениальной: “Ого! Наша техподдержка так круто отрабатывает негатив, что клиенты влюбляются в бренд! Давайте искусственно задерживать посылки некоторым когортам, чтобы они звонили!”.
К счастью, мы вовремя раскопали “третью переменную”. Оказалось, что в колл-центр звонили только оптовики и организаторы совместных закупок (им критичны сроки). А обычные клиенты (B2C) просто молча уходили к конкурентам на Ozon. Оптовики и так бы покупали много, колл-центр тут был ни при чем. С тех пор мое главное правило: увидел красивую корреляцию — сначала ищи, где ты ошибся, и только потом беги к продакт-менеджеру».

Дмитрий Коноваленко
Ссовладелец и операционный директор digital-агентства MWI (входит в ТОП-10 Рейтинга Рунета).
Один из основателей агентства, работающего на digital-рынке с 2010 года.
Отвечает за операционное управление компанией, бизнес-процессы, контроль качества реализации проектов и работу с ключевыми клиентами.
Автор Telegram канала «Предпринимательство и digital»
Эксперт в области веб-разработки, технической архитектуры интернет-проектов и автоматизации бизнес-процессов. Практик с 15+ годами опыта в digital и eCommerce.

Заключение

Чтобы не совершать непоправимых ошибок в работе с данными, запомните четыре базовых правила:

Корреляция — это не причина. То, что продажи мороженого растут вместе с нападениями акул, не значит, что мороженое привлекает хищников. Ищите скрытую переменную (например, жару).
Сначала график, потом расчеты. Никогда не верьте слепым цифрам (вспомните квартет Энскомба). Постройте диаграмму рассеяния, чтобы исключить влияние аномалий и выбросов.
Подбирайте правильные формулы. Если данные линейные (рубли, штуки) — используйте коэффициент Пирсона. Если ранговые (места в поиске, рейтинг в звездах) — берите Спирмена или Кендалла.
Проверяйте на случайность. Сильная корреляция на маленькой выборке бесполезна. Всегда считайте статистическую значимость (p-value).

Помните: данные редко обманывают намеренно, но их интерпретация — всегда зона ответственности того, кто держит в руках инструменты анализа.

Видите странную просадку конверсии на сайте, но не можете найти причину в данных?

Мы в MWI специализируемся на веб-разработке и глубокой продуктовой аналитике — умеем находить те самые «скрытые переменные», которые режут вашу выручку. Оставьте заявку, и наши аналитики проведут бесплатный аудит текущей воронки вашего проекта: найдем узкие места в UX, проверим корреляцию ключевых метрик и предложим план технического развития.

Оставить заявку

Термины и сноски

* Переменная (метрика) — любой измеримый показатель в бизнесе или продукте (возраст клиента, сумма чека, время на сайте).

* Выборка — часть пользователей или данных, которую аналитик берет для исследования, чтобы не анализировать всю генеральную совокупность.

* Диаграмма рассеяния (Scatter plot) — математический график, где точками отображаются значения двух переменных, чтобы визуально оценить их взаимосвязь.

* P-value (p-значение) — вероятность того, что найденная в данных связь или результат A/B-теста получились абсолютно случайно.

* Когорта — группа пользователей, объединенных общим признаком в определенный промежуток времени (например, «все, кто зарегистрировался в приложении в марте со смартфонов на Android»).

Подпишитесь на нас

Категория вопроса

Аналитика SEO

Что мы можем предложить?

SEO - продвижение сайтов Веб-аналитика Маркетинговый аудит сайта