Как ускорить A/B-тест: 9 шагов по ускорению с примерами

Как ускорить A/B-тестирование в 2 раза: весь процесс от А до Я

В мире бизнеса принятие решений на основе данных стало залогом успеха. Один из самых доступных и точных инструментов для этого — A/B-тестирование, которое помогает выбрать лучший вариант оформления рекламы или сайта. Однако проведение таких тестов может затянуться на недели, а то и месяцы, что далеко не всегда устраивает компании, стремящиеся к быстрому результату. В этой статье эксперт click.ru, интернет-маркетолог Данила Кадцын, расскажет, как можно сократить время проведения тестов в несколько раз без потери точности результатов.

Оглавление

Что такое A/B-тестирование и чем помогает в рекламе
Зачем ускорять A/B-тестирование
Как ускорить A/B-тестирование: пошаговый план

1. Сформулируйте гипотезу
2. Рассчитайте аудиторию для теста
3. Выберите параметры для измерения
4. Определитесь со временем проведения теста
5. Проверьте работоспособность системы: А/А- и А/А/B-тесты

A/A-тестирование
A/A/B-тестирование

6. Выполните линеаризацию для метрик отношения
7. Примените метод CUPED
8. Измерьте результаты и подведите итоги

Итоги

Что такое A/B-тестирование и чем помогает в рекламе

A/B-тестирование — это метод, который помогает понять, какой из двух вариантов рекламных объявлений, креативов, элементов сайта, лендингов лучше работает. A/B-тест автоматически определяет, какое из решений больше привлекает целевую аудиторию и приносит большую конверсию.

Давайте рассмотрим два простых примера.

Допустим, вы создали 2 разных баннера для медийной рекламы. В рамках A/B-теста вы можете одновременно показывать их разным, но однородным по своему составу группам людей в интернете, чтобы выяснить, какой креатив привлекает больше кликов.
Другой распространенный пример — тестирование CTA (Call to Action) на сайте. Представьте, что у вас есть два варианта дизайна формы заявки: один с надписью «Получить индивидуальный расчет бесплатно», а другой — «Получить консультацию бесплатно». Вы хотите понять, какой оффер привлекает больше людей. В рамках A/B-тестирования часть аудитории увидит первый вариант, другая часть — второй, а вы получите конкретную статистику по кликам и отправкам формы.

Зачем ускорять A/B-тестирование

Ускорение A/B-тестирования необходимо бизнесу, который стремится к быстрому росту.

Быстрое принятие решений

Чем скорее вы получите результаты теста, тем быстрее сможете внедрить успешные изменения. Например, если вы тестируете два варианта рекламного баннера и один из них показывает на 20% больше кликов, вы сможете быстрее переключиться на более эффективный вариант и получить дополнительные продажи раньше.

Мгновенная адаптация к изменениям на рынке

Если ваше A/B-тестирование занимает слишком много времени, то к моменту получения результатов они могут уже быть устаревшими. Быстрые тесты позволяют оперативно адаптироваться к новым условиям и трендам.

Конкурентное преимущество

Компании, которые могут оперативно внедрять изменения, имеют преимущество перед соперниками: они могут быстрее адаптироваться к новым технологиям и стратегиям, оставаясь на шаг впереди.

Как ускорить A/B-тестирование: пошаговый план

Итак, давайте перейдем к конкретике. Вот 8 ключевых шагов для того, чтобы проводить свои тесты быстрее вне зависимости от того, над каким именно элементом вы работаете.

1. Сформулируйте гипотезу

Четкая и понятная цель, а также измеримые результаты — это очень важно.

Например, вы посмотрели 3-дневный вебинар по паттернам в дизайне интерфейсов и решили изменить выравнивание текста на сайте с левой стороны на правую. Вы предполагаете, что такое изменение сделает кнопку «Оставить заявку» более заметной, что, в свою очередь, увеличит конверсию кнопки в 2 раза.

Формулировка гипотезы в этой ситуации может быть такой: «Если изменить выравнивание заголовка на странице услуги с левой стороны на правую, то конверсия кнопки «Оставить заявку» вырастет с 4% до 8%». Цель дальнейшего A/B-тестирования — подтвердить или опровергнуть эту гипотезу. Обратите внимание: меняется только 1 параметр — расположение текста. Мы не меняем цвет кнопки и не переписываем текст, так как в случае таких больших изменений будет непонятно, что повлияло на конверсию. В каждом тесте важно работать только с 1 параметром.

2. Рассчитайте аудиторию для теста

Важно, чтобы оба варианта при тестировании увидело достаточное количество человек, чтобы сделать объективные выводы. Объем выборки аудитории для теста рассчитывается по формуле:

Формула расчета количества респондентов

Формула показалась сложной? Не волнуйтесь, сейчас все объясним.

n — это размер аудитории, который мы хотим определить.
Z — коэффициент, зависящий от доверительного уровня.

Доверительный уровень при A/B-тестировании — это показатель, который указывает на степень уверенности в том, что результаты теста не случайны, а действительно отражают различия между тестируемыми вариантами. Он выражается в процентах и помогает определить, насколько можно доверять полученным данным. Стандартные значения доверительного уровня — 95% и 99%, для них Z будет равен 1,96 и 1,98.

p — это доля пользователей, которые выполняли целевое действие в прошлом, например отправляли заявку через тестируемый элемент. Если информации об этом нет, то просто берется значение 0,5, как будто действие выполняли 50% юзеров.
q = 1 — p — это доля пользователей, которые не выполняли полезное действие.
∆ — предельная ошибка выборки.

Предельная ошибка выборки (или стандартная ошибка) при A/B-тестировании — это показатель, который указывает на возможную степень отклонения выборочных данных от истинного значения в генеральной совокупности. Говоря проще, этот параметр помогает оценить точность результатов теста и учитывать случайные колебания данных. Принято считать, что максимальная величина ∆ = 4%.

Пример расчета для наглядности

Пример расчета количества респондентов

Таким образом, в примере объем выборки (n) составляет 600 респондентов. Чем важнее принимаемое по итогам теста решение, тем меньше нужно выставлять ошибку выборки:

Размер ошибки выборки (%) при доверительном уровне 95%

Важно: необходимо решить, выполнять ли тест на всей аудитории или только на ее части. Если тестирование проводится на всей аудитории, то нужное количество людей будет набрано быстрее. Но если гипотеза окажется неверной, а доработка — бесполезной или вредной для сайта, это может снизить конверсию и доход.

Кроме того, стоит определить, каких пользователей вы возьмете для тестирования — новых или постоянных. В большинстве случаев лучше тестировать на новых, поскольку они еще не привыкли к интерфейсу и могут более активно реагировать на изменения.

Важно: проводите тест сразу на нескольких устройствах (компьютерах, смартфонах, планшетах), разрешениях экрана и версиях браузеров. Дело в том, что ваша доработка в одних случаях может выглядеть хорошо, а в других — плохо. Например, на больших экранах маленькие детали могут теряться и быть малозаметными для людей.

3. Выберите параметры для измерения

Вернемся к гипотезе из примера в начале: «Если изменить выравнивание заголовка на странице услуги с левой стороны на правую, то конверсия кнопки «Оставить заявку» вырастет с 4% до 8%». Здесь мы будем отслеживать коэффициент конверсии — долю пользователей, которые нажали на кнопку, от всех, кто посещал страницу за определенный период.

Напомним про важное правило: одна гипотеза — один элемент — одна метрика.

Не забываем, что количество пользователей в группах не всегда равно, так что стоит отслеживать параметры с упоминанием количества людей или действий. Например, так делать НЕ нужно: «Если изменить выравнивание заголовка на странице услуги с левой стороны на правую, то на кнопку «Оставить заявку» нажмут на 200 человек больше, чем раньше».

4. Определитесь со временем проведения теста

Прежде чем ускорять A/B-тест, убедитесь, что правильно рассчитана его длительность. Она вычисляется по формуле:

Формула продолжительности теста

где:

μc — среднее значение метрики контрольной выборки;
μt — среднее значение метрики тестовой выборки;
nc — число наблюдений в контрольной выборке;
nt — число наблюдений в тестовой выборке;
σc — среднеквадратичное отклонение метрики контрольной выборки;
σt — среднеквадратичное отклонение метрики тестовой выборки;
k — отношение размера тестовой выборки к размеру контрольной nt/nc (обычно 1);
t1-α/2, t1-β — значения нормальной функции с перцентилем в нижнем индексе (при стандартных значениях уровней значимости и ошибки второго рода α=0,05, β=0,2, соответственно, 0,95 и 0,8).

При равенстве тестовой и контрольной группы формула выглядит так:

Второй вариант формулы

Важно: отсекайте выбросы в данных — экстремальные значения, которые находятся за пределами других наблюдений. Каждый такой выброс увеличивает дисперсию метрики и длительность теста.

Решить проблему с выбросами можно, установив пороговое значение двумя способами:

по отдельности для тестовой и контрольной групп;
сразу для той и другой группы.

Если данных для теста достаточно, лучше использовать первый вариант. Когда отсечение выполняется по контрольной группе, то часто теряем часть данных тестовой группы, которые не являются выбросами.

5. Проверьте работоспособность системы: А/А- и А/А/B-тесты

Ускорение тестов — сложный процесс, поэтому обязательно нужно соблюдать условия гипотезы и параметры запускаемого теста. В противном случае велика вероятность получить искаженную картину.

Вот три момента, которые нужно контролировать при проведении сплит-тестирования:

версии браузера;
количество трафика;
неравномерное распределение визитов/просмотров между группами.

Важно: для соблюдения всех условий теста не меняйте параметры на ваших рекламных кампаниях до сбора минимального количества статистических данных.

Пример распределения аудитории на разные группы для исследования

Чтобы убедиться, что тест настроен и работает корректно, проводят два вспомогательных вида работы.

A/A-тестирование

В этом тесте два одинаковых варианта сравниваются между собой. В идеале результаты по ключевым метрикам (например, количество кликов, конверсий) должны быть одинаковыми. Это логично, потому что мы ничего не меняем — обе группы видят одно и то же.

Цель A/A-теста — убедиться, что система тестирования работает корректно и случайное распределение пользователей между вариантами действительно случайное. Если результаты одинаковы, значит, тестовая система функционирует правильно.

A/A/B-тестирование

Это метод, который сочетает в себе два типа тестирования:

Сначала система проверяет саму себя — A/A;
Если результаты одинаковы, автоматически начинается обычное A/B-тестирование, где уже сравниваются два разных варианта.

Это помогает без дополнительного контроля убедиться в корректности работы системы и запустить сравнение, не теряя времени. Это особенно полезно, если нужно постоянно следить за точностью и надежностью эксперимента.

Главная проблема на этом этапе — увеличение дисперсии данных при росте количества статистических данных. Дисперсия — это показатель, который описывает, насколько результаты каждого варианта (A и B) могут отклоняться друг от друга и от среднего значения. Больше данных — больше вариативности. Чем больше людей участвует в тесте, тем больше в выборке разнообразных случаев и ситуаций.

Пример для наглядности

Допустим, мы тестируем два варианта заголовка для рекламного баннера. Вначале вы показываете каждый заголовок 100 пользователям и получаете результаты:

вариант A: конверсия 10%;
вариант B: конверсия 12%.

Разница в 2% кажется существенной, но выборка в 100 человек может быть недостаточной для уверенности в результатах из-за возможных случайных колебаний. Увеличивая выборку до 1000 человек, вы получаете более разнообразные данные:

вариант A: конверсия 10,5%;
вариант B: конверсия 10,8%.

Теперь разница меньше, но данные более надежные, потому что они учитывают больше ситуаций. При этом увеличение выборки выявило, что дисперсия данных увеличилась, потому что в выборку попали люди с более разнообразными предпочтениями.

6. Выполните линеаризацию для метрик отношения

Метрики отношения — это показатели, которые вычисляются как отношение одной величины к другой. Например:

конверсия — отношение числа заявок к числу визитов;
CTR — отношение количества кликов на объявление к числу его показов/просмотров;
средняя стоимость заказа — отношение общей суммы продаж к числу заказов.

Линеаризация для метрик отношения — это техника, которая используется для упрощения анализа и повышения точности результатов тестов. Идея линеаризации состоит том, чтобы преобразовать нелинейные метрики в более простые, линейные, что делает их анализ более надежным и точным. Это достигается через использование различных математических методов, в которые мы не будем углубляться.

Пример для наглядности

Допустим, что у нас есть значения конверсии юзера (u — user):

Конверсия пользователя

А еще общее значение конверсии:

Общая конверсия

Посчитаем CR на контрольной группе и получим следующее для всех пользователей:

Расчеты

Метрики отношения обычно лежат в границах от 0 до 1. С помощью линеаризации можно увеличить этот диапазон.

Конкретный пример для наглядности

В таблице ниже представлены конкретные данные о покупках 6 пользователей:

Пользователь	Группа	Покупки	Покупки	CR(u)	L(u)
user1	control	1000	100	0,1	49
user2	control	4000	200	0,05	-4
user3	control	2000	60	0,03	-42
user4	test	1000	110	0,11	59
user5	test	2000	120	0,06	18
user6	test	4000	280	0,07	76

В нашем примере общая конверсия всех юзеров из контрольной группы равна 0,051.

А теперь давайте выполним линеаризацию для каждой группы юзеров:

Формула линеаризации

До линеаризации:

Пример расчета до линеаризации

После линеаризации:

Пример расчета после линеаризации

Поскольку и дисперсия, и эффект увеличились, нужно оценить их соотношение:

Соотношение

Таким образом, мы получаем существенный выигрыш в 5147 раз (87,5 / 0,017).

7. Примените метод CUPED

Методику CUPED (Controlled-experiment Using Pre-Experiment Data) применяют в A/B-тестировании для повышения точности и уменьшения дисперсии результатов. CUPED использует данные, собранные до начала эксперимента, чтобы скорректировать результаты теста. Это помогает получить более точные и надежные выводы.

Как работает метод CUPED

Сбор предварительных данных. До начала A/B-теста собираются данные о поведении пользователей за предыдущие недели или месяцы. Например, сколько времени люди проводят на сайте, сколько покупок совершают и т. д.
Коррекция результатов. В ходе A/B-теста предварительные данные используются для корректировки текущих показателей. Например, если у пользователя уже была тенденция к высокой конверсии до начала теста, это учитывается при анализе его поведения во время теста.

Формула корректировки новой метрики после тестирования выглядит так:

Формула CUPED

Где:

θ — поправочный коэффициент (рассмотрим его ниже);
Y — значение показателя для пользователя после тестирования;
X — историческое значение показателя для пользователя.

Коэффициент считается по формуле:

Формула коэффициента для CUPED

Пример для наглядности

Допустим, вы тестируете две версии посадочной страницы. У пользователя Ивана на протяжении последнего месяца была высокая конверсия на старой версии страницы. В ходе A/B-теста Иван взаимодействует с новой версией страницы. CUPED использует данные о его прошлом поведении для корректировки результата, чтобы снизить влияние его симпатии к бренду на конверсию и получить более точное сравнение A и B.

Расчет значений контрольных параметров до использования CUPED:

До использования CUPED

Расчет после CUPED:

После CUPED

8. Измерьте результаты и подведите итоги

Что ж, по завершении теста осталось проверить результаты и понять, подтвердилась ли ваша гипотеза. Здесь нужно учитывать один важный момент — статистическую значимость результатов.

Статистическая значимость — это процент вероятности того, что разница между эффективностью тестируемых вариантов A и B действительно существует, а не произошла случайным образом. Часто применяют следующие размеры значимости: 90%, 95% и 99%.

Например, при значимости в 95% в нашем примере с заголовком считается, что 50 из 1000 кликов произошли бы в любом случае даже без изменений. Допустим, что наша конверсия действительно выросла с 4% до 8% (то есть на 50% от первоначальной) при статистической значимости в 95%. Это достоверный результат. Но если она выросла всего до 4,2% (+5% от первоначальной) такой результат можно списать на случайность.

Если гипотеза подтвердилась с учетом статистической значимости — можно смело «разливать» доработки и использовать их для всей аудитории. Если нет — корректируем гипотезу и повторяем тест или составляем новую.

Итоги

Если ваша цель — ускорить проведение A/B-тестирования, то рекомендуется придерживаться следующих принципов:

После расчета времени тестирования отдавайте предпочтение тем из них, которые дадут самый быстрый результат;
Выбирайте изменения, которые сильнее всего повлияют на контрольную метрику;
Старайтесь использовать метрики с меньшей дисперсией, чтобы повысить точность выводов.

Порядок действий для ускорения теста довольно прост на первый взгляд:

У вас появилась идея, как повысить CTR, конверсию или другие важные показатели. Вы обсудили ее внутри команды и составили конкретное описание новой фичи;
Вы считаете ожидаемый эффект от фичи в 1-3 конкретных метриках, например в росте конверсии на N% и повышении кликабельности на X%;
Реализуете доработки и проверяете, что новая версия отображается и работает корректно;
Настраиваете А/В-тестирование: задаете приемочные, барьерные и контрольные метрики, сроки и проценты пользователей, которые будут видеть первую и вторую версию фичи;
Запускаете тест;
Принимаете решение в соответствии с изначальными настройками и гипотезой.

Выглядит легко, но в реальности процесс часто осложняется несовершенной коммуникацией между аналитиком, продакт-менеджером и разработчиком, а также банальным человеческим фактором. Например, если кто-то забыл настроить событие в Яндекс Метрике или выполнил доработку в пятницу вечером — быстрого результата не получится. Поэтому нужно внимательно следить не только за настройками теста, но и за точностью и оперативностью коммуникаций в команде.

Желаем удачи и роста конверсии!

#A/A-тест #A/A/B-тест #A/B-тест #A/B-тестирование #Call to Action