ЗАДАЧА КЛАСТЕРИЗАЦИИ, КЛАСТЕРНЫЙ АНАЛИЗ: ПРИМЕНЕНИЕ, ОСНОВНЫЕ МЕТОДЫ
Задача кластеризации (то же самое, что кластерный анализ) решена, если получено разбиение множества объектов на подмножества, называемых кластерами. Основное условие решения: объекты, принадлежащие одному кластеру должны быть больше похожи друг на друга, чем объекты из других кластеров. Критерий «похожести» может быть один, но их может быть и несколько.
В процессе кластеризации вводится понятие меры расстояний между объектами (различий значений признака). Для объектов, которые окажутся в одном кластере, расстояние должно быть одного порядка малости.
Вопреки распространенному заблуждению, популярное средство для статистической обработки данных Excel не обладает функциями кластерного анализа. Весьма эффективно задача кластеризации решается с применением языков программирования Python и R в профессиональных средах разработки.
На этой странице после обзора методов содержится форма обратной связи для заказа услуги кластерного анализа. Доверьте проведение этой работы профессионалу в сфере статистической обработки данных.
Применение
Обозначим некоторые сферы, в которых решение задачи кластеризации помогает решать многие прикладные задачи.
- Разделение клиентов и покупателей на группы по среднему размеру стоимости покупки или другим признакам.
- Определение сегментов рынка по какому-либо показателю потребности в товаре или услуге.
- Определение групп посетителей социальных сетей по показателям активности.
- Выделение групп товаров по показателям оборачиваемости или другим показателям.
- Определение групп объектов рынка информации - сайтов, каналов, сюжетов по какому-либо признаку, например, длительности просмотра.
- Определение групп пациентов по каким-либо признакам течения заболевания.
Общая идея состоит в том, чтобы подготовить для каждой группы, выявленной в ходе решения задачи кластеризации, определенные методы работы, эффективные именно для целевой группы, например, специальные предложения для группы покупателей.
Разберем кратко наиболее часто применяемые методы кластеризации.
Метод k-средних
Этот метод применяется чаще всех в тех случаях, когда исследователь заранее предполагает, что интересующие его объекты могут быть разделены на известное ему определенное число кластеров (k кластеров). Тогда, исходя из этой гипотезы, по методу k-средних выстраиваются 3, 4, 5 (выбрать или добавить) кластеров объектов, подлежащих группировке. Кластеры располагаются так, чтобы расстояние между ними было как можно большим.
Для этого решается задача оптимизации целевой функции - суммы квадратов взвешенных отклонений координат исследуемых объектов от центров предполагаемых кластеров. Внутри каждого кластера эта сумма должна быть минимальной, а между кластерами - максимальной. Для получения результата применяемая программа перемещает объекты внутри кластеров и между кластерами, каждый раз измеряя расстояния.
В ряде случаев, когда число кластеров исследователю заранее не известно, применению метода k-средних предшествует применение другого метода - иерархического - с целью определить оптимальное число кластеров.
Иерархический метод
Действует принцип древовидного иерархического объединения. На первом этапе иерархической кластеризации все объекты из выборки определяются как отдельные кластеры. А далее наиболее похожие объекты объединяются в пары. Затем поэтапно наиболее похожие пары объединяются в более крупные кластеры. В результате на выходе представлено бинарное дерево. Оно позволяет достаточно точно интерпретировать различия между объектами и кластерами объектов и меры различий.
В иерархическом методе кластеризации могут быть задействованы различные типы расстояний: евклидово расстояние, квадрат евклидова расстояния, расстояние Чебышева, степенное расстояние, метод ближайшего соседа, другие типы. Выбор типа расстояния зависит от конкретной задачи и от того, какие признаки объектов выбраны и в каких единицах они измерены.
Метод на основе плотности (DBSCAN)
Этот метод позволяет определить объекты, принадлежащие кластерам, и объекты, которые не вошли ни в один кластер («шум»). Кластер формируется как группа плотно расположенных точек, а у «шума» плотность точек значительно ниже.
Для применения метода требуется заранее задать максимально возможное расстояние между объектами, принадлежащими одному кластеру.
На выходе метода - своего рода карта, на которой виды явно различные группы точек, которые и являются кластерами, а также «шум» - объекты, расположенные в том числе и на границах кластеров.
Немного о специалисте
Я - автор проекта "Чистая" и прикладная математика" function-x.ru Юрий Зубков. Проведу кластерный анализ Ваших данных с использованием программной среды Python или R.
Имею опыт в решении задач анализа социально-экономических процессов, которые трудно поддаются математической формализации.
Один рабочий день стоит 3000 рублей. Оплата через Webmoney или на карту Mastercard.