Выборы в АК-12/Факторный и кластерный анализы

Материал из Викиреальностя
Перейти к: навигация, поиск

Содержание

[править] Факторный анализ

Целью факторного анализа является поиск минимального числа наиболее весомых компонент, определяющих наблюдаемое распределение. В случае выборов в АК-12 имеется 17 величин («факторов») — голоса по отдельным кандидатам, многие из которых взаимозависимы (положительно или отрицательно), и, поэтому лишь усложняют понимание ситуации. Сгруппировав некоторые факторы, можно ситуацию значительно упростить и выявить основные причины, заставляющие участников голосовать так или иначе.

Важной задачей факторного анализа является последующая интерпретация полученных результатов, и, для того, чтобы результаты можно было значительно легче интерпретировать, для анализа будет использован модифицированный метод «главных компонент», отличающийся от обычного метода главных компонент только выбором первой главной компоненты, которая выбирается методом «крайних групп», аналогичным методу, использовавшемуся при выделении наиболее антагонистичных групп Ру-вики. Дальнейшие компоненты выбираются ортогонально, в соответствии с методом «главных компонент».

Проведённый анализ показал, что в целом можно выделить 2 наиболее значимых компоненты, суммарный «квадратичный» вес которых составляет более 50 %, в то время, как остальные 15 компонент можно отбросить. Так, если квадратичный вес первой найденной компоненты составляет 31,1 %, второй — 25,3 %, то третьей — 9,7 %, четвёртой — 5,5 %, а веса остальных, соответственно, ещё меньше.

В Таблице 1 приведены ортонормированные компоненты 1 и 2. Числа таблицы означают коэффициенты с которым складываются голоса по 17 кандидатам для получения соответствующей компоненты.

Таблица 1
Кандидат Компонента 1 Компонента 2 Компонента 2'
Vladimir Solovjev 0.026 0.489 0.549
Artem Korzhimanov 0.172 0.353 0.383
Сайга20К 0.232 0.266 0.329
Дядя Фред -0.318 0.331 0.258
D.bratchuk 0.112 0.324 0.329
NBS 0.361 0.066 0.148
Андрей Романенко 0.421 -0.232 0.026
VasilievVV 0.129 0.184 0.092
AndyVolykhov 0.275 -0.152 0.010
Scorpion-811 -0.361 0.210 -0.028
Рулин -0.275 0.114 0.031
Samal 0.052 0.131 -0.003
Кондратьев -0.163 -0.049 -0.059
Schekinov Alexey Victorovich -0.223 -0.144 -0.186
Dima io -0.301 -0.127 -0.227
Glavkom NN -0.155 -0.218 -0.232
Sairam 0.05 -0.27 -0.304

Как и следовало ожидать, «Компонента 1» (далее — К1) почти точно соответствует Индексу консервативности ИК30, найденному при анализе групп избирателей, поэтому далее будем называть её «компонентой консервативности».

Вторая компонента в целом соответствует результатам выборов: кандидаты, получившие большую поддержку оказывают большее положительное (то есть, с положительным коэффициентом) влияние на эту компоненту, а кандидаты, получившие меньшую поддержку сообщества оказываю более отрицательное влияние на компоненту. Впрочем, видны и отклонения от этого правила — кандидат Scorpion-811 имеет сравнительно большой положительный коэффициент, а кандидаты Андрей Романенко и AndyVolykhov — отрицательные. Это объясняется тем, что вторая компонента выбиралась с учётом уже найденной первой компоненты, так как она по определению должна быть ортогональна первой компоненте. А так как между результатами выборов и индексом консервативности ИК30 существует положительная корреляция, то требование ортогональности существенно повлияло на наиболее ключевых фигур, по которым определяется ИК30: увеличив коэффициент Scorpion-811 и уменьшив коэффициенты Андрея Романенко и AndyVolykhov. Если же отказаться от чисто математического требования ортогональности компонент, то в качестве второй очень чёткой и качественной компоненты можно использовать окончательные итоги выборов с учётом голосов «за» как «+1», голосов «против» как «-1», а воздержавшихся как «0». В нормированном виде она представлена в таблице 1 как «Компонента 2'».

Как уже отмечалось выше, для факторного анализа кроме чисто математических результатов важна и их последующая интерпретация. И, если с точки зрения математики, комбинация компонент К1 и К2 лучше, то с точки зрения дальнейшей интерпретации, лучше выглядит комбинация компонент К1 и К2', так как К2' имеет куда более наглядный смысл. Но, что получится с точки зрения математики, если заменить К2 на К2'? Как уже писалось выше, в сумме компоненты К1 и К2 имеют около 56 % общего квадратичного веса. Плоскость же, образованная компонентами К1 и К2' собирает 54 % этого веса, таким образом, происходит общая потеря приблизительно в 2 % суммарного веса, что, в принципе, можно считать приемлемым. По аналогии с похожим «Индексом конформизма», назовём данную компоненту «компонентой конформизма» (или, К2').

Таким образом, более половины суммарного разброса голосов участников объясняется всего двумя факторами — компонентой консервативности и компонентой конформизма. Эти компоненты являются своеобразным компромиссом между математикой и удобством интерпретации, имея важное математическое значение, так и чёткий естественный смысл. При этом между ними самими имеется высокая корреляция — 0.68, т.е, не ортогональны друг-другу.

В таблице 2 приведены значения по этим двум компонентам для администраторов и подводящих итоги. Числа означают произведения вектора голосов участника на соответствующие столбцы таблицы 1. Абсолютные значения чисел роли не играют. Важно, в первую очередь, их соотношение с аналогичными значениями для других участников.

Таблица 2
Участник Компонента консервативности Компонента конформизма
Postoronniy-13 -2.054 0.615
Scorpion-811 -1.943 1.302
Alex Smotrov 3.060 2.223
Андрей Романенко 2.828 1.192
Дядя Фред -0.129 2.001
VasilievVV 0.971 1.498
Neon -1.453 1.697
Drbug -0.911 1.064
Dmitry Rozhkov -1.805 0.240
Altes 0.206 2.405
Обывало -1.057 -0.097
Kalan 2.389 2.139
DerLetzteRegenbogen 1.831 3.043
MaxBioHazard 0.731 2.611
Sergeisemenoff 2.742 2.496
Grebenkov 3.524 2.616
Stauffenberg -0.533 2.407
Сайга20К 2.974 2.331
Testus 0.920 1.381
Dr Jorgen -2.484 0.426
Vladimir Solovjev 1.805 2.080
Wulfson 3.421 2.075
Kv75 2.415 2.435
Levg 2.106 2.052
Wanwa 0.223 3.066
Convallaria majalis 1.513 2.244
Skydrinker -2.114 0.773
Wisky -0.395 1.440
Blacklake 3.249 2.300
D.bratchuk 1.599 1.774
Haffman -0.120 1.583
Claymore 3.172 2.512
Mitrius 1.917 1.516
Pessimist2006 2.304 3.132
Bogdanpax 0.112 1.475
NBS 3.137 2.545
Elmor 1.384 2.361
Trycatch 0.842 -0.373
Abiyoyo 2.802 2.088
Dmitry89 0.636 2.941
Carn 2.441 3.188
Artem Korzhimanov 2.983 2.861
Alex Spade 1.650 1.703
Рулин -1.848 0.909
Юрий Педаченко -0.739 1.161
Letzte*Spieler 1.547 3.058
Николай Путин -1.702 0.983
Michgrig 0.602 1.856
Александр Мотин -0.636 -0.038
Sigwald 0.017 2.879
Vlsergey -0.920 0.426
INSAR 1.014 1.238
Wanderer 3.361 2.558
Putnik 3.266 2.433
Biathlon 0.877 2.999
Obersachse 1.384 0.824
Panther 2.355 1.381
ShinePhantom 2.278 2.915
Ликка 1.006 0.827
Loyna 1.891 1.205
Rave -1.762 -0.569
Deinocheirus -0.232 1.802
Lite 3.412 2.555
АлександрВв 0.971 1.498
Lazyhawk -0.146 1.904
Butko -1.728 -0.204
Torin 2.888 2.826
Yuri Che -0.447 1.248
Ilya Voyager 3.043 2.420
FlankerFF -1.599 1.376
Dimitris -2.836 0.212
Rubin16 1.238 1.667
DR 2.647 2.080
Alma Pater 1.221 1.447
TenBaseT 1.306 2.816
Amdf -1.831 -0.322
Сержант Кандыба 0.206 1.230
Maykel 1.496 0.942
JenVan 0.670 1.634
Mstislavl 3.077 2.591
Dodonov -0.009 1.481
David.s.kats 2.080 3.119
JukoFF -1.745 0.628
Deevrod -0.636 0.613
OneLittleMouse -0.009 1.519
Bezik 0.275 1.003
Cantor 2.948 2.841

[править] График

Следующий график демонстрирует распределение голосов участников по двум выбранным компонентам. По оси X — компонента консервативности, по оси Y — компонента конформизма. Синие квадратики означают голоса администраторов и ПИ, а зелёные ромбики — голоса прочих участников.

Distribution.png


Из графика видно, что:

  1. компоненты консервативности и конформизма коррелируют (график вытянут примерно по диагонали)
  2. среди «прочих» значительно больше участников с низким уровнем конформизма, чем среди администраторов и ПИ
  3. в целом, распределения «прочих участников» и «администраторов и ПИ» значимо различаются (например, в центре графика присутствует довольно много «обычных» участников, но нет ни одного администратора или ПИ)

На следующем графике отображены группы К30 и Л30, найденные при анализе групп избирателей. Красным обозначены консерваторы, синим - либералы, а серым - остальные участники (как администраторы и ПИ, так и не являющиеся ими):

K30-L30.png

[править] Кластерный анализ

Задача выделения кластеров участников на основе их голосов на выборах в АК12 чёткого решения не имеет. Для того, что бы убедиться в этом, достаточно взглянуть на график распределения голосов и заметить, что основная масса голосов образует сплошную плотную группу.

Более того, даже задача определения оптимального числа кластеров в данном случае оказывается нерешаемой, так как никакое увеличение их числа не приводит к существенному улучшению разбиения всего распределения, которое, вместо этого, происходит довольно плавно.

Для иллюстрации вышесказанного приведём несколько примеров кластеризации при с числом кластеров, k = 3, 5 и 20.

3 кластера:

3Clusters.png

20 кластеров:

20Clusters.png

Следующие 2 графика демонстрируют разбивку на 5 кластеров. Оба случая являются концами итерационных процессов, но, даже при этом, разбивки получаются несколько разными.

5 кластеров, вариант 1:

5Clusters-1.png

5 кластеров, вариант 2:

5Clusters-2.png

[править] Анализ 5 кластеров

Изучим подробней кластеризацию на примере 5 кластеров варианта 1 (он оптимальней варианта 2 с точки зрения суммы расстояний до центроидов — центров кластеров). Таблица 3 показывает разбиение по кластерам администраторов и подводящих итоги:

Таблица 3
Кластер 1 Кластер 2 Кластер 3 Кластер 4 Кластер 5
Postoronniy-13 Alex Smotrov Trycatch Дядя Фред Altes
Scorpion-811 Андрей Романенко VasilievVV MaxBioHazard
Neon Kalan Drbug Stauffenberg
Dmitry Rozhkov DerLetzteRegenbogen Testus Wanwa
Обывало Sergeisemenoff Wisky Convallaria majalis
Dr Jorgen Grebenkov D.bratchuk Bogdanpax
Skydrinker Сайга20К Haffman Dmitry89
Рулин Vladimir Solovjev Юрий Педаченко Alex Spade
Николай Путин Wulfson Michgrig Letzte*Spieler
Александр Мотин Kv75 INSAR Sigwald
Rave Levg Obersachse Vlsergey
Butko Blacklake Ликка Biathlon
FlankerFF Claymore Deinocheirus Yuri Che
Dimitris Mitrius АлександрВв Rubin16
Amdf Pessimist2006 Lazyhawk JenVan
JukoFF NBS Alma Pater Deevrod
Elmor Сержант Кандыба
Abiyoyo Dodonov
Carn OneLittleMouse
Artem Korzhimanov Bezik
Wanderer
Putnik
Panther
ShinePhantom
Loyna
Lite
Torin
Ilya Voyager
DR
TenBaseT
Maykel
Mstislavl
David.s.kats
Cantor

Видно, что администраторы и ПИ размещены по кластерам очень неравномерно: в Кластере 3 оказался всего лишь один такой участник (Trycatch), в то время, как в Кластере 2 их сразу 34. Рассмотрим подробнее каждый из найденных кластеров. При этом введём специальную величину «Уровень поддержки», который равен отношению числа не-администраторов и не-ПИ к числу администраторов и ПИ. Она характеризует то, насколько популярны среди «обычных» участников взгляды администраторов и ПИ данного кластера. Чем уровень ниже, тем меньше участников поддерживает администраторов и ПИ данного кластера, а чем больше уровень, тем таких участников больше. Статистические данные кластеров сведены в таблицу 4.

Кластер 1 — кластер либералов. Центр кластера имеет координаты −1.79 по компоненте консервативности и −0.01 по компоненте конформизма. Кластер довольно разбросанный, что оказывает сильное влияние на положение его центра. К кластеру относятся 16 администраторов и подводящих итоги, уровень поддержки, равный 2.88, близок к среднему уровню по всем участникам.

Кластер 2 — кластер консерваторов. Центр кластера имеет координаты 2.42 по компоненте консервативности и 2.27 по компоненте конформизма. К нему относятся 34 администратора и подводящих итоги, что совсем не на много больше числа прочих участников. Соответственно уровень поддержки, составляющий 1.15 — является самым низким среди всех кластеров.

Кластер 3 — кластер центристов-нон-конформистов. Центр кластера имеет координаты −0.41 по компоненте консервативности и −0.23 по компоненте конформизма (что меньше, чем у любого другого кластера). Кластер уникален тем, что в него входит всего 1 администратор или ПИ (Trycatch) и тем, что его участники в основном голосовали «Против» практически всех кандидатов, включая даже кандидата Vladimir Solovjev, общая поддержка которого превысила 90 %. 18 из 26 голосов против Владимира Соловьёва было подано участниками именно этого кластера.

Кластер 4 — мощный центральный кластер, он превосходит по размерам следующий кластер чуть ли не в два раза. Находится в центре распределения по обеим компонентам — и консервативности и конформизма. Не смотря на то, что «обычных» участников в нём более 100 человек, администраторов и ПИ всего лишь 20, таким образом, уровень поддержки почти в 2 раза выше среднего.

Кластер 5 кластер центристов-конформистов. Противоположность кластера 3: его центр имеет координаты 0.27 по компоненте консервативности и 1.9 по компоненте конформизма. В него входят 16 администраторов и ПИ и 38 прочих участников, таким образом, уровень поддержки чуть ниже среднего.

Таблица 4
Кластер 1 Кластер 2 Кластер 3 Кластер 4 Кластер 5
Vladimir Solovjev 0.57 0.95 -0.4 0.58 0.91
Artem Korzhimanov -0.26 0.89 -0.38 0.59 0.7
Сайга20К -0.31 0.95 -0.03 0.47 0.37
Дядя Фред 0.68 -0.29 -0.4 0.56 0.41
D.bratchuk 0.11 0.73 -0.18 0.35 0.52
NBS -0.82 0.9 -0.15 0.33 0.06
Андрей Романенко -0.68 0.74 0.05 0.3 -0.83
VasilievVV -0.18 0.48 -0.5 0.18 0.15
AndyVolykhov -0.61 0.48 -0.33 0.35 -0.52
Scorpion-811 0.74 -0.71 -0.7 0.1 0.17
Рулин 0.65 -0.37 -0.13 0.13 -0.22
Samal 0.03 0.14 -0.33 0.13 -0.35
Кондратьев 0.37 -0.44 -0.35 0.08 -0.2
Schekinov Alexey Victorovich 0.26 -0.69 -0.28 0.1 -0.74
Dima io 0.39 -0.9 -0.3 0.02 -0.69
Glavkom NN 0.31 -0.75 -0.48 0.09 -0.85
Sairam -0.19 -0.62 -0.35 -0.04 -0.8
Компонента
консервативности
-1.793 2.412 0.411 0.33 0.265
Компонента
конформизма
-0.01 2.266 -0.229 1.0 1.895
Администраторов и ПИ 16 34 1 20 16
Прочих 46 39 39 115 38
Уровень поддержки 2.88 1.15 39 5.75 2.38
Выборы в АК-12/Факторный и кластерный анализы относится к теме «АК-12»   ±