雖然很多人相信 2004 年的子彈讓藍營吃虧,而 2010 年的子彈讓綠營吃虧,但兩黨在這兩次選舉中獲得的得票率卻極為相似。只要知道某黨 2004 年在某地的得票率,便可輕易預測其 2010 年在某地的得票率。這實在是近乎完美的簡單迴歸分析教材。
標準的簡單迴歸方程式如下:
y = a + b*x + e
在此例中,y 為民進黨 2010 年在某區的得票率;x 為民進黨 2004 年在某區的得票率;a 為截距;b 為斜率;e 為某區的殘差。
若觀察值為臺北、新北、臺中、臺南四都的各區,則 a = 0.0743;b = 0.8453。R 平方達到 0.9431,顯示 2004 年各區得票率可以解釋 2010 年各區得票率 94% 的變異量。
利用 a 與 b,可以得到 y 的預測值,稱為 yhat:
yhat = a + b*x
圖上直線通過各區的預測值。直線斜率小於 1,意味民進黨在高得票率區與低得票率區的差距縮小了。例如,若民進黨 2004 年在甲區的得票率為 30%,則其 2010 年在甲區的預測值為 32.8%。若民進黨 2004 年在乙區的得票率為 60%,則其 2010 年在乙區的預測值為 58.1%。
殘差是迴歸方程式無法預測的部分,即圖上各點 (觀察值) 與直線 (預測值) 在 Y 軸上的距離。顯而易見地,臺北、新北、臺中各區的殘差非常小;臺南有些區的殘差較大。進一步觀察,殘差的主要來源為地緣因素。例如,殘差絕對值最大的那一點是國民黨籍候選人郭添財的家鄉:關廟區。由於郭在關廟區拿到許多鄉親票,導致民進黨在當地的得票率低於預測值。
這條迴歸方程式最強大的用途,是回答下列問題:楊秋興拿到的選票當中,有多少屬於藍營?多少屬於綠營?
假設楊秋興沒有參選時,高雄也遵守與其他四都相同的規律。將民進黨 2004 年在高雄的得票率 (x) 代入迴歸方程式,可得其 2010 年在高雄的預測值 (yhat)。如果楊秋興分走部分綠營選票,則民進黨的得票率 (y) 將低於預測值 (yhat)。短缺的部分,即為殘差:
y - yhat = e
因此,計算民進黨在高雄的殘差,即可知楊秋興分走多少綠營選票。
在原高雄市的部分,民進黨的預測值為 54.5%,實際上獲得 54.1%。由此可見,楊秋興分走 0.4% 的選票。
在原高雄縣的部分,民進黨的預測值為 56.8%,實際上獲得 51.2%。由此可見,楊秋興分走 5.6% 的選票。
以整個高雄來看,民進黨的預測值為 55.5%,實際上獲得 52.8%。由此可見,楊秋興分走 2.7% 的選票。已知楊秋興的得票率為 26.7%。因此,來自綠營的 2.7% 大約佔楊秋興選票的一成。也就是說,楊秋興的選票當中,九成藍、一成綠。
如果讓楊秋興的選票分別回歸兩黨,則五都合計民進黨領先國民黨的票數並非 40 萬,而是只有 7 萬。
怎麼樣,迴歸分析真的很簡單吧?
- Dec 09 Thu 2010 20:58
超簡單迴歸分析 (一)
陳菊82萬,楊秋興41萬,黃昭順32萬
所以假設楊秋興1,9拆,陳菊是86萬,黃昭順是67萬
所以差距是19萬,不是7萬
如果2004的得票率已經可以解釋高達九成以上,在2010年的投票, 換個角度來講是不是imply藍綠版圖其實幾年來未變? 至少在這五都上如此.
除非前提是選民非藍即綠,或是有做國民黨的迴歸分析,
才能夠把"九成藍"放到最後的推論吧。
請問如果是地緣因素,那關廟以外的地區的地緣因素是指什麼?高雄的殘差會比台南還大嗎?
看起來每一點代表的是一個區或鄉鎮,然而因為人口數不同,
正確的回歸分析應考慮"比重"的問題.
請問您是否有將人口數的比重放入計算中?
實務上不會達到9成以上,
可以合理懷疑模型有問題
這代表2004年與2010年的選舉投票人的立場相似,導致投票行為雷同。
也就是說,當選舉結果是五五波時,就是曾投過DPP的人回籠了。
另外不負責推測一下,2000年連宋兩人的票加總,跟2008馬的得票去做簡單回歸,應該可以得到R-square很高的類似結果。
這其實跟外在環境因素有非常大的關係,當執政黨執政出問題,的確會有相當大的群眾這時轉而給在野黨機會,包含了投給在野黨與不去投票支持執政黨。而這些群眾其實很早就決定投票的立場,只是講與不講的差異罷了。
這還可以歸納出 蔡英文比其他DPP候選人移動了更多的版塊