менеджер по исследованиям компании A/R/M/I — Marketing
Введение
Кластерный анализ является одним из наиболее распространенных методов статистического сегментирования потребителей какого-либо товара или услуги. Однако практика показывает, что в нашей стране многие исследовательские компании и отделы маркетинговых исследований в производственных и торговых компаниях весьма ограниченно используют аппарат статистических методов анализа данных (а часто и вообще не используют, ограничиваясь лишь аналитическими и графическими методиками). Следует отметить, что статистика отнюдь не является универсальным методом анализа в маркетинговых исследованиях, в целом ряде случаев приходится сознательно отказываться от их использования в пользу чисто когнитивных методик (т.е. основанных на субъективном мнении аналитика). Вместе с тем статистика обладает и массой положительных сторон для исследователя: именно с помощью статметодов можно четко и на конкретных цифрах аргументировать свои выводы по итогам исследования. Решение о применении или, напротив, о не применении статистики должно приниматься в каждом конкретном случае отдельно, и при этом данное решение должно быть основано на объективной информации о возможности или не возможности их использования. Для того чтобы принять подобное решение необходимо хорошо ориентироваться в наиболее распространенных статистических методах. Настоящая статья имеет целью, не вдаваясь в теоретические выкладки, ознакомить читателя с основами практического использования одного из методов статистики — кластерного анализа — в маркетинговых исследованиях.
Общие сведения о методике кластерного анализа
Методика кластерного анализа была впервые описана Р. Трайоном [6] в 1939 г. Как группа статистических методов она относится к категории классификационного анализа. Данная группа методов служит для отнесения переменных и/или отдельных респондентов на основе их индивидуальных характеристик к той или иной однородной группе, значимо отличающихся одна от другой. При этом классификация может производиться как на заранее известные (логистическая регрессия и дискриминантный анализ), так и на заранее неизвестные группы (кластерный и факторный анализ).
Как уже было отмечено выше, разделение отдельных элементов (переменных или респондентов) на группы проводится на основании их индивидуальных параметров (например, для организаций это могут быть: численность сотрудников, сфера деятельности, наличие определенных потребностей и т.д.). Конкретные значения этих индивидуальных характеристик, выявленные в результате проведения исследования, позволяют рассчитать так называемые меры сходства или расстояние между элементами. Ниже различие между данными мерами будет наглядно проиллюстрировано на конкретном примере из реального маркетингового исследования. Отметим лишь, что при использовании мер сходства элементы объединяются в группы на основании схожести их характеристик. Меры расстояния предполагают отнесение к одной группе тех элементов, которые существенно отличаются от всех остальных, но не друг от друга. В общем случае кластерный анализ проходит ряд этапов. Начинается он с того, что все исследуемые элементы относятся к числу групп, равному количеству этих элементов. Затем критерии «уникальности» этих элементов (т.е. характеристики элементов) постепенно ослабляются, позволяя объединить уже несколько более или менее схожих элементов в один кластер. Эта процедура может проводиться до тех пор, пока не останется всего один кластер, включающий все исходные элементы. Так как кластерный анализ не предполагает наличия заранее известных групп, в которые следует относить элементы, основной задачей исследователя является определение того шага в процессе объединения, на котором следует остановить процедуру. Полученные на данном шаге кластеры и будут являться результатом сегментирования.
Следует отметить, что, несмотря на имеющуюся возможность с помощью кластерного анализа классифицировать переменные (по аналогии с факторным анализом), в подавляющем большинстве случаев он применяется все же для классификации респондентов. Это связано с существенно большим числом ограничений и сложностей у кластерного анализа при классификации переменных, чем, например, у факторного анализа. Поэтому мы предлагаем оставить задачи классификации переменных специализированным методам, а для сегментирования потребителей (респондентов) применять кластерный анализ. Необходимо также отметить, что иногда (особенно в случае большого числа переменных — характеристик респондентов, по которым необходимо проводить сегментирование) факторный и кластерный анализ используются в паре, причем первый предшествует второму. В результате факторного анализа удается сократить большое число переменных (характеристик респондентов) до малого числа значимых «факторов», объединяющих сразу несколько исходных переменных. Затем уже на этом малом числе значимых «макрохарактеристик» проводится кластерный анализ и, собственно, сегментирование потребителей.
Кластерный анализ может проводиться несколькими способами: иерархическим и методом «k-средних». В первом случае автоматизированная статистическая процедура позволяет в наиболее «автономном» от исследователя режиме определить оптимальное число кластеров, а также ряд других параметров, необходимых для кластерного анализа. Второй тип анализа применяется в основном при очень больших выборках, крайне редко встречающихся в практике маркетинговых исследований. Кроме того, для него необходимо самостоятельно определять и точное количество выделяемых кластеров, и начальные значения центров каждого кластера («центроиды»), и некоторые другие статистики, так что он не подходит для исследователей, которые не очень хорошо владеют статметодами. В целом для всех задач, встречающихся в маркетинговых исследованиям, мы рекомендуем использовать именно иерархический способ.
Прежде чем начать описание проведения иерархического кластерного анализа на практике, хотелось бы выделить еще два весьма важных момента.
Во-первых, при проведении кластерного анализа чрезвычайно важную роль играет правильное разделение всех характеристик потребителей на критерии сегментирования (т.е. те переменные, на основании которых будут выделяться целевые сегменты) и дескрипторы сегментов (это те переменные, которые помогут в дальнейшем подробно описать полученные сегменты). В общем случае в качестве критериев сегментирования рекомендуется выбирать те, и только те характеристики, которые реально могут определять поведение сегментов. Чаще всего это могут быть: наличие потребности в каких-либо услугах/товарах, частота и кратность покупки продукта, наличие конкретных ситуаций в деятельности организации и т.д. Дескрипторные же переменные (чаще всего это социально-демографические параметры — на потребительском рынке и численность/сфера деятельности/тип собственности и т.д. — на рынке организаций) позволяют лишь более полно описать выделенные сегменты (например, для поиска организаций данного типа в базе данных клиентов или в адресных справочниках). Это правило не является универсальным, так как в ряде случаев, например, социально-демографические параметры потребителей могут являться ключевыми в определении их покупательского поведения. Выбор критериев сегментирования и дескрипторов сегментов — процедура, целиком зависящая от опыта и знаний исследователя. Причем неправильное решение в данной области может привести к неудовлетворительным результатам кластерного анализа (например, когда невозможно выделить оптимальное число групп или когда получающиеся сегменты не поддаются практической интерпретации).
Во-вторых, следует особо оговориться, что в настоящей статье мы описываем лишь одно из возможных применений кластерного анализа в маркетинговых исследованиях. Вместе с тем данная методика позволяет решать также и множество других задач, постоянно встающих перед исследователем (например, разделение гистограмм частотных распределений на группы по принципу: высшая—средняя—низшая и т.д.). К примеру, мы имеем линейное распределение ответов на вопрос: «Какие марки антивирусов установлены в Вашей организации?». Для формирования выводов по данному распределению необходимо разделить марки антивирусов на несколько групп (обычно 2-3). Для разделения всех марок, предположим, на три группы (наиболее популярные марки, средняя популярность и непопулярные марки) лучше всего воспользоваться именно кластерным анализом, хотя в реальной жизни исследователи обычно разделяют элементы частотных таблиц на глазок, основываясь на субъективных соображениях. В противоположность такому подходу кластерный анализ позволяет научно обосновать сделанную группировку. Для этого следует ввести значения каждого параметра в SPSS (при этом эти значения целесообразно выражать в процентах) и затем выполнить кластерный анализ над этими данными. Сохранив кластерное решение для необходимого количества групп (в нашем случае 3) в виде новой переменной, мы получим статистически обоснованную группировку.
Проведение иерархического кластерного анализа в SPSS
Описание практического подхода к выделению сегментов потребителей методом иерархического кластерного анализа мы будем проводить на следующем примере из реального маркетингового исследования (цифры по понятным соображениям изменены). При этом в качестве статистического программного обеспечения будет использован наиболее популярный на сегодняшний день в России специализированный пакет SPSS.
Пусть исследуется поведение потребителей пельменей. В ходе опроса респондентам задавался целый ряд вопросов, предназначенных для решения стоящих перед исследованием задач. В том числе задавались следующие вопросы: 1) частота покупки (возможные ответы: «1 раз в неделю и чаще», «1-3 раза в месяц», «Реже 1 раза в месяц»); 2) кратность единовременной покупки (возможные ответы: «0,5 кг и менее», «0,5-1 кг», «1-2 кг», «Более 2 кг»); 3) наличие марочных предпочтений (возможные варианты: «Обращаю внимание на марку», «Не обращаю внимания на марку»); 4) парное сравнение важности характеристик «цена» и «качество» (по пятибалльной шкале, где предпочтение цены отражается меньшими значениями, а предпочтение качества — большими). Также выяснялись социально-демографические параметры респондентов: пол, возраст и уровень доходов.
В целом в кластерном анализе можно использовать переменные с любым типом шкалы (как в нашем случае): номинальные, дихотомические, или интервальные. В данном случае применяют процедуру стандартизации (см. ниже). Однако следует отметить, что в общем случае лучше, чтобы все переменные, участвующие в анализе, были измерены по одной и той же шкале. Это требование далеко не всегда осуществимо на практике, однако в принципе позволяет получить более точные результаты. Переменные с порядковым типом шкалы следует сначала преобразовать в интервальный вид (на основании центров интервалов) или анализировать как номинальные (конкретное решение различно в каждом конкретном случае).
Возвращаясь к условию задачи, отметим, что мы выделили в качестве критериев сегментирования 4 переменные: частота покупки, кратность покупки, наличие марочных предпочтений и ориентация на цену/качество. В качестве дескрипторов сегментов будем использовать пол, возраст и уровень доходов.
Иерархический кластерный анализ проводится в два этапа. Единственным результатом первого этапа должно стать число кластеров (целевых сегментов), на которые следует разделить исследуемую выборку респондентов. Процедура кластерного анализа как таковая не может самостоятельно определить оптимальное число кластеров, она только может подсказать это искомое число. Поэтому, а также ввиду особой важности определения релевантного целям исследования количества сегментов данная задача обычно выносится в отдельный этап анализа. На втором этапе производится собственно кластеризация респондентов по тому числу кластеров, которое было определено в ходе первого этапа анализа. Рассмотрим теперь по порядку вышеназванные шаги кластерного анализа.
Процедура кластерного анализа в SPSS запускается с помощью меню: Analyze ® Classify ® Hierarchical Cluster (Анализ ® Классификация ® Иерархический кластерный анализ). В открывшемся диалоговом окне (рис. 1) следует из левого списка всех имеющихся в файле данных переменных выбрать интересующие нас переменные, являющиеся критериями сегментирования (в нашем случае их четыре). По умолчанию кроме интересующей нас таблицы с результатами формирования кластеров, по которой мы и определим их оптимальное число, SPSS выводит также специальную перевернутую гистограмму, называемую «Icicle» (сосульковидная диаграмма). По замыслу создателей программы, она помогает определить оптимальное количество кластеров (вывод специальных видов диаграмм осуществляется с помощью кнопки «Plots» (диаграммы)). Однако, если мы оставим задействованным данный параметр, мы потратим весьма много времени на обработку даже сравнительно небольшого файла данных. Кроме «Icicle» SPSS позволяет выбрать более быструю линейчатую диаграмму «Dendogram» (дендограмма). Она представляет собой лежачие столбики, отражающие ход процесса формирования кластеров. Теоретически при небольшом (до 50—100) количестве респондентов данная диаграмма действительно помогает выбрать оптимальное решение относительно требуемого числа кластеров. Однако практически во всех примерах из реальных маркетинговых исследований размер выборки превышает это значение. Дендограмма в данном случае становится совершенно бесполезной, так как даже при относительно небольшом числе наблюдений представляет собой очень длинную последовательность номеров строк исходного файла данных, соединенных между собой горизонтальными и вертикальными линиями. Таким образом, для практических целей ни «Icicle», ни «Dendogram» непригодны. Поэтому в главном диалоговом окне «Hierarchical Cluster Analysis» рекомендуется не выводить диаграммы любого вида, отменив выбранный по умолчанию параметр «Plots» в области «Display» (отображение), как показано на рисунке 1.
Рис. 1. Диалоговое окно «Hierarchical Cluster Analysis»
После указания критериев сегментирования следует выбрать метод проведения кластерного анализа. Это позволяет сделать специальное диалоговое окно «Hierarchical Cluster Analysis: Method» (рис. 2), вызываемое нажатием кнопки «Method». Эксперименты с параметрами, задаваемыми с помощью данного диалогового окна, позволяют в том числе добиться большей точности и в определении оптимального числа кластеров. Первое, на что следует обратить внимание исследователю в описываемом диалоговом окне, — это метод формирования кластеров (т. е. объединения респондентов). Среди всех возможных вариантов статистических методик, предлагаемых SPSS, рекомендуется выбирать либо установленный по умолчанию метод «Between-groups linkage» (связь между группами), либо процедуру Ward’а («Ward’s method»). При этом первый метод используется наиболее часто ввиду его универсальности и относительной простоты статистической процедуры, на которой он основан. При этом методе расстояние между кластерами вычисляется как среднее значение расстояний между всеми возможными парами наблюдений (респондентов), причем в каждой итерации принимает участие одно наблюдение из одного кластера, а другое — из другого. Информация, необходимая для расчетов расстояния между наблюдениями, находится на основании всех теоретически возможных пар наблюдений. Метод Ward’а более сложен для понимания и используется реже. Данный метод состоит из множества этапов и основан на усреднении значений всех переменных для каждого наблюдения и последующем суммировании квадратов расстояний от вычисленных средних до каждого наблюдения. Не вдаваясь в детальное описание обоих названных методов, мы рекомендуем для решения практических задач из маркетинговых исследований использовать метод «Between-groups linkage», установленный по умолчанию.
Рис. 2. Диалоговое окно «Hierarchical Cluster Analysis: Method»
После выбора статистической процедуры кластеризации следует выбрать метод для вычисления расстояний между наблюдениями (область «Measure» (шкала) в рассматриваемом диалоговом окне). Существуют различные методы определения расстояний для всех типов переменных (критериев сегментирования), которые могут принимать участие в кластерном анализе. При этом следует особо отметить, что говоря о дихотомической шкале («Binary»), имеются в виду только переменные, отражающие наступление / не наступление какого-либо события (например, купил — не купил, да — нет и т.д.). Другие типы дихотомических переменных (например, мужчина — женщина) следует рассматривать и анализировать как номинальные («Counts»). Как уже было отмечено выше, порядковые переменные для участия в кластерном анализе следует либо рассматривать как номинальные, либо (что существенно лучше) предварительно преобразовать в интервальный вид.
Наиболее часто используемым методом определения расстояний для интервальных переменных является квадрат евклидового расстояния («Squared Euclidean Distance»), устанавливаемый по умолчанию. Именно данный метод наиболее хорошо зарекомендовал себя в маркетинговых исследованиях как наиболее точный и универсальный и поэтому рекомендуется и нами к повсеместному применению.
Для дихотомических переменных, где наблюдения представляются только двумя значениями (например, 0 и 1), данный метод не вполне подходит. Дело в том, что он учитывает только взаимодействия между наблюдениями типа Х = 1, Y = 0 и X = 0, Y = 1 (где X и Y — переменные) и не учитывает другие типы взаимодействий. Наиболее комплексной мерой расстояния, учитывающей все самые важные типы взаимодействий между двумя дихотомическими переменными, является метод Лямбда («Lambda»). Мы рекомендуем применять именно данный метод ввиду его наибольшей универсальности. Однако можно выбрать и другие методы, например «Shape», «Hamann» или «Anderbergs’s D». При указании метода определения расстояний для дихотомических переменных в соответствующем поле необходимо также указать конкретные значения, которые могут принимать исследуемые дихотомические переменные: в поле «Present» (событие наступило) — код ответа «Да», а в поле «Absent» (событие не наступило) — код ответа «Нет». Названия полей «присутствует» и «отсутствует» связаны с тем, что, как было сказано выше, в группе методов «Binary» предполагается использовать только дихотомические переменные, отражающие наступление / не наступление какого-либо события.
Как можно заметить, для описанных выше типов переменных «Interval» и «Binary» существует большое разнообразие методов определения расстояния. Для переменных, имеющих номинальный тип шкалы, SPSS предлагает всего два возможных метода: c2 («Chi-square measure») и j2 («Phi-square measure»). Мы рекомендуем использовать первый метод как наиболее универсальный.
В рассматриваемом диалоговом окне есть также область «Transform Values» (трансформация значений), в которой находится поле «Standardize» (стандартизация). Данное поле применяется в том случае, когда в кластерном анализе принимают участие переменные с различным типом шкалы (например, интервальные и номинальные). Для того чтобы использовать данные переменные в кластерном анализе, следует провести их стандартизацию, чтобы привести к единому типу шкалы (чаще всего интервальному). Наиболее распространенным методом стандартизации переменных является так называемый z-стандартизация («Z scores»). При данном методе все переменные приводятся к единому диапазону значений от –3 до +3 и после преобразования являются интервальными. Следует особо отметить одно весьма важное обстоятельство. При указании метода вычисления расстояний (в области «Measure») следует указывать тот тип шкалы, который получается после стандартизации значений (стандартизация всегда приводит переменные к интервальному типу). Например, в нашем случае мы используем z-стандартизацию, приводящую все анализируемые переменные в интервальный вид. Поэтому в области «Measure» мы выбираем метод вычисления расстояний именно для интервальных переменных. Если бы мы использовали в качестве критериев сегментирования неинтервальные переменные без стандартизации, следовало бы выбирать меры расстояния соответственно для номинального или дихотомического типа шкалы.
Итак, после указания всех требуемых параметров расчетов все готово для выполнения первого этапа кластерного анализа. Процедура запускается нажатием на кнопку «ОК». Через некоторое время в окне «SPSS Viewer» (отчет SPSS) появятся результаты. Как было сказано выше, единственным значимым для нас итогом первого этапа анализа будет таблица «Average Linkage (Between Groups)» (усредненные связи между группами), представленная на рисунке 3. По ней мы и должны определить оптимальное число кластеров. Необходимо сразу оговориться, что единого универсального метода определения оптимального числа кластеров не существует. В каждом конкретном случае исследователь должен сам определить это число. Здесь мы будем использовать следующую схему данного процесса.
Рис. 3. Таблица «Average Linkage (Between Groups)»
Прежде всего попробуем применить наиболее распространенный, стандартный метод для определения числа кластеров. Он состоит в следующем. Сначала по таблице «Average Linkage (Between Groups)» следует определить, на каком шаге процесса формирования кластеров (колонка «Stage») происходит первый сравнительно большой скачок коэффициента агломерации (колонка «Coefficients»). Данный скачок означает, что до него в кластеры объединялись наблюдения, находящиеся на достаточно малых расстояниях друг от друга (т. е. в нашем случае респонденты со схожими значениями анализируемых критериев сегментирования), а с этого этапа начинает происходить объединение более далеких наблюдений. В нашем случае коэффициенты плавно возрастают от 0 до 1,056, т. е. разница между коэффициентами на шагах с первого по 286 включительно была весьма мала (например, между 286 и 285 шагами — всего 0,033). Однако начиная с 287 шага происходит первый существенный скачок коэффициента: с 1,056 до 3,690 (на 2,634). Таким образом, мы определили шаг, на котором происходит первый скачок коэффициента: 287. Теперь, чтобы определить оптимальное количество кластеров, необходимо вычесть полученное значение из общего числа наблюдений (размера выборки). Общий размер выборки в нашем случае составляет 300 потребителей пельменей, следовательно, расчетное оптимальное количество кластеров составляет: 300 – 287 = 13.
Мы получили достаточно большое число кластеров, которое в дальнейшем будет сложно интерпретировать. Поэтому теперь мы должны исследовать полученные кластеры и определить, какие из них являются значимыми, а какие следует попытаться сократить. Данная задача решается на втором этапе кластерного анализа.
Вновь откроем главное диалоговое окно процедуры кластерного анализа (меню: Analyze ® Classify ® Hierarchical Cluster). В поле для анализируемых переменных у нас уже есть необходимые нам четыре параметра. Щелкнем на кнопку «Save» (сохранить). Открывшееся диалоговое окно (рис. 4) позволяет нам создать в исходном файле данных новую переменную, распределяющую всех респондентов на целевые группы. Выберем параметр «Single Solution» (единственное решение) и укажем в соответствующем поле необходимое нам число кластеров: 13 (как было определено на первом этапе кластерного анализа). Теперь следует вновь запустить процедуру кластерного анализа. В результате в исходном файле данных SPSS будет создана новая переменная с названием «clu13_1».
Рис. 4. Диалоговое окно «Hierarchical Cluster Analysis: Save New Variables»
Интерпретация результатов
Чтобы определить, насколько верно мы определили оптимальное число кластеров, построим линейное распределение переменной clu13_1 (меню: Analyze ® Descriptive Statistics ® Frequencies (Анализ ® Описательная статистика ® Линейные распределения)). Как видно из рисунка 5, в кластерах с 7 по 13 число наблюдений колеблется от 1 до 2. Подобная ситуация встречается практически всегда, поэтому число кластеров, определенное на первом этапе анализа, почти никогда не бывает истинно оптимальным (весьма часто статистически значимое количество респондентов оказывается только в первом кластере). Поэтому наряду с вышеописанным универсальным методом определения оптимального количества кластеров (на основании разности между общим числом респондентов и первым скачком коэффициента агломерации) существует также дополнительное ограничение: размер кластеров должен быть статистически значимым и практически приемлемым. Например, при нашем размере выборки такое критическое значение можно установить хотя бы на уровне 10 респондентов на один кластер. Так как данному условию соответствуют 6 кластеров, нам необходимо пересчитать процедуру кластерного анализа с сохранением 6-кластерного решения (будет создана новая переменная clu6_1).
Рис. 5. Линейное распределение для 13-кластерного решения
Построив линейное распределение по вновь созданной переменной «clu6_1», мы увидим, что только в трех кластерах число респондентов больше 10. Итак, нам необходимо вновь перестроить кластерную модель, теперь для 3-кластерного решения. После этого снова построим распределение по переменной «clu3_1». В общем случае данную процедуру следует продолжать до тех пор, пока не получится решение, в котором на каждый кластер будет приходиться статистически значимое число респондентов. В нашем случае 3-кластерное решение оказалось оптимальным.
Необходимо особо отметить, что пошаговый критерий практической и статистической значимости численности кластеров не является единственным, по которому можно определить оптимальное число кластеров. Исследователь может самостоятельно, на основании имеющегося у него опыта, предложить число кластеров (при этом конечно же все равно должно удовлетворяться условие значимости). Другим вариантом является довольно распространенная ситуация, когда в целях исследования заранее ставится условие сегментировать респондентов по заданному числу целевых групп. В данном случае необходимо просто один раз провести иерархический кластерный анализ с сохранением требуемого числа кластеров и затем пытаться интерпретировать то, что получится.
Итак, мы определили оптимальное число кластеров для нашей задачи и провели собственно сегментирование респондентов по четырем выбранным критериям. Теперь можно считать основную цель нашей задачи достигнутой. Можно приступать к завершающему этапу кластерного анализа: интерпретации полученных целевых групп (сегментов).
Описание полученных сегментов проводится (также как и сама процедура кластерного анализа) в два этапа: описание с точки зрения критериев сегментирования и описание с точки зрения дескрипторов сегментов.
Сегменты, выделенные в результате кластерного анализа, характеризуются однородностью значений критериев сегментирования внутри каждого кластера и различием между кластерами. Поэтому, во-первых, следует определить, какими конкретно значениями переменных, выбранных в качестве критериев сегментирования, характеризуются полученные кластеры. Для этого чаще всего строят перекрестное распределение, в котором по столбцам располагается кластеризующая переменная (в нашем случае это «clu3_1»), а по строкам — критерии сегментирования. Таким образом, можно видеть, в какой кластер попадают респонденты с тем или иным значением критерия сегментирования. Например, в нашем случае мы получили 3 сегмента, которые (с помощью перекрестного распределения) описываются следующим образом.
1.
|
Сегмент 1. Частые покупатели пельменей (1 раз в неделю и чаще), которые за один приход в магазин покупают небольшое количество продукта (до 1 кг); при этом они не обращают внимания на марку и ориентируются в основном на цену.
|
2.
|
Сегмент 2. Относительно редкие покупатели пельменей (реже 1 раза в неделю), которые за один приход в магазин покупают значительное количество продукта (более 1 кг); при этом они не обращают внимания на марку и ориентируются в основном на цену.
|
3.
|
Сегмент 3. Относительно редкие покупатели пельменей (реже 1 раза в неделю), которые за один приход в магазин покупают значительное количество продукта (более 1 кг); при этом они обращают внимание на марку и ориентируются в основном на качество.
|
Итак, после построения перекрестного распределения становится очевидной разница в ключевых характеристиках сегментов. Выделенным сегментам становится возможным дать вербальные названия. Кроме того, из процентного соотношения полученных сегментов можно оценить долю рынка, занимаемую каждым из них, и выявить наиболее привлекательные целевые группы.
Вторым, заключительным этапом в интерпретации результатов кластерного анализа является углубленное описание полученных сегментов с помощью дескрипторных переменных. Таким образом, сегменты все больше обретают «человеческое лицо». Описание сегментов дескрипторными переменными также проводится с помощью построения перекрестных распределений способом, аналогичным описанному выше. В результате получается полная картина сегментирования рынка. С такими данными можно аргументированно выбирать наиболее привлекательные целевые сегменты и разрабатывать стратегию позиционирования для каждого из них.
Заключение
Итак, в предлагаемой статье мы рассмотрели один из наиболее распространенных статистических методов сегментирования потребителей — иерархический кластерный анализ. Читатель получил общее представление о теоретических основах данного метода. Также было описано, как на практике с использованием SPSS проводить кластерный анализ. Существенный акцент был сделан на наиболее сложном аспекте — практической интерпретации результатов кластерного анализа.
Следует отметить, что даже в наиболее практически ориентированных работах приводятся искусственные примеры, в которых в результате кластеризации получаются идеальные целевые группы респондентов. В настоящей работе мы нарочно взяли для иллюстрации действия кластерного анализа реальный пример из практического маркетингового исследования, не отличающийся идеальными пропорциями. Это позволило нам проиллюстрировать некоторые наиболее распространенные трудности при проведении кластерного анализа, а также оптимальные методы для их устранения.
ЛИТЕРАТУРА
1. Burns A.C., Bush R.F. Marketing research. — Prentice-Hall Inc., New Jersey, 2000.
2. Malhotra N.K., Birks D.F. Marketing research. An applied approach. — Pearson Education Ltd., Essex, 2000.
3. Norusis M.J. SPSS 11.0 Guide to Data Analysis. — Prentice Hall, 2002.
4. Green S.B., Salkind N.J. Using SPSS for the Windows and Macintosh: Analyzing and Understanding Data (3rd Edition). — Prentice Hall, 2002.
5. SPSS 12.0 Help.
6. Tryon R.C., Bailey D.E. Cluster analysis. — McGraw-Hill, NY, 1970.
7. Электронный учебник StatSoft. — «StatSoft Inc.», 1998. |