Американские выборы на прошлой неделе закончились что называется "нежданчиком" - победой Дональда Трампа вместо Хилари Клинтон, хотя опросы довольно уверенно давали ей фору. О самих выборах не хочу, но так как опросы все же моя профессиональная сфера, напишу немного о том, что пошло не так.
Во-первых, надо сказать, большинство американцев проголосовали-таки за Клинтон - она выиграла popular vote. Но в американской системе победитель выбирается количеством электоральных голосов, а не народным большинством. У каждого штата определенное количество электоральных голосов, и выигравший штат забирает все голоса - т.е. если в штате 10 электоральных голосов, и за кандидата проголосовало 50.1%, то он получает все 10 электоральных голосов. В разных штатах разное количество голосов, поэтому можно выиграть большиство населения, но если проиграть штаты, богатые электоральными голосами - то проигрываешь выборы.
Для опросов это значимо, потому что, все же, они по своей сути направлены на определение мнения большинства населения - и они это сделали, а вот уже распределение этих голосов по штатам совсем другая задача. И тем не менее, на данный момент есть три более-менее установленные теории, почему опросы были неточны.
читать дальше
1. Погрешность неполучения ответов (nonresponse bias)
Многие люди не отвечают на звонки незнакомцев или отказываются отвечать на вопросы, и из-за этого опросы населения могут быть не репрезентативными, появляется так называемая погрешность неполучения ответов (non-response bias). Из-за ошибки отбора характеристики тех, кто согласился пройти опрос и тех, кто отказался могут значительно отличатся (но кстати, могут и не отличаться, и тогда это неважно). По этой теории, сторонники Трампа меньше доверяют опросам/медиа/науке и поэтому отказываются отвечать на вопросы, а значит выборка была нерепрезентативной.
2. "Стеснительный сторонник Трампа"
Здесь идея состоит в том, что многие поддерживали Трампа "тайком", стесняясь признаться по телефону, что они собираются за него голосовать. Что в принципе сомнительно, ибо как-то не заметна в них стеснительность, но и более того, часть опросов была проведена роботами, когда на линии нет живого интервьюера, то есть некого стыдится.
3. Ошибки в определении "вероятного избирателя"
Просто звонить и спрашивать всех "кто вам больше по душе" - довольно бессмысленное дело в плане предсказания результатов выбора, ибо голосовать придут только где-то 50-60% населения. А значит, все звонки начинаются с определения, является ли респондент "вероятным избирателем", что обычно базируется на вопрос о том, голосовал ли он на прошлых выборах, следит ли за новостями, и интересуется ли политикой. Каждая фирма сама определяет, кого она считает "вероятным избирателем" - и кстати, именно по этому между опросами часто бывает большая разбежка. Но дело в том, что если на выборы вдруг явятся люди, которые до этого года не голосовали и не интересовались политикой - то их скорее всего опросы пропустили. И на данный момент, похоже что именно этот момент объясняет ошибки опросов в этом году.
В целом - для индустрии это не смертельно (хотя многие в демократических компаниях потеряют работу, да). Полстеры занимаются предсказаниями результатов выбора где-то с 1928 года, и с тех пор крупно ошиблись только 3 раза - включая выборы 2016 года. Не такой уж плохой результат за почти 100 лет). Сейчас, конечно, начнут строить серьезные модели определения "вероятного избирателя" и все такое - и такая встряска индустрии полезна.