雖然很多人相信 2004 年的子彈讓藍營吃虧,而 2010 年的子彈讓綠營吃虧,但兩黨在這兩次選舉中獲得的得票率卻極為相似。只要知道某黨 2004 年在某地的得票率,便可輕易預測其 2010 年在某地的得票率。這實在是近乎完美的簡單迴歸分析教材。

標準的簡單迴歸方程式如下:

y = a + b*x + e

在此例中,y 為民進黨 2010 年在某區的得票率;x 為民進黨 2004 年在某區的得票率;a 為截距;b 為斜率;e 為某區的殘差。

若觀察值為臺北、新北、臺中、臺南四都的各區,則 a = 0.0743;b = 0.8453。R 平方達到 0.9431,顯示 2004 年各區得票率可以解釋 2010 年各區得票率 94% 的變異量。

利用 a 與 b,可以得到 y 的預測值,稱為 yhat:

yhat = a + b*x

圖上直線通過各區的預測值。直線斜率小於 1,意味民進黨在高得票率區與低得票率區的差距縮小了。例如,若民進黨 2004 年在甲區的得票率為 30%,則其 2010 年在甲區的預測值為 32.8%。若民進黨 2004 年在乙區的得票率為 60%,則其 2010 年在乙區的預測值為 58.1%。

殘差是迴歸方程式無法預測的部分,即圖上各點 (觀察值) 與直線 (預測值) 在 Y 軸上的距離。顯而易見地,臺北、新北、臺中各區的殘差非常小;臺南有些區的殘差較大。進一步觀察,殘差的主要來源為地緣因素。例如,殘差絕對值最大的那一點是國民黨籍候選人郭添財的家鄉:關廟區。由於郭在關廟區拿到許多鄉親票,導致民進黨在當地的得票率低於預測值。

這條迴歸方程式最強大的用途,是回答下列問題:楊秋興拿到的選票當中,有多少屬於藍營?多少屬於綠營?

假設楊秋興沒有參選時,高雄也遵守與其他四都相同的規律。將民進黨 2004 年在高雄的得票率 (x) 代入迴歸方程式,可得其 2010 年在高雄的預測值 (yhat)。如果楊秋興分走部分綠營選票,則民進黨的得票率 (y) 將低於預測值 (yhat)。短缺的部分,即為殘差:

y - yhat = e

因此,計算民進黨在高雄的殘差,即可知楊秋興分走多少綠營選票。

在原高雄市的部分,民進黨的預測值為 54.5%,實際上獲得 54.1%。由此可見,楊秋興分走 0.4% 的選票。

在原高雄縣的部分,民進黨的預測值為 56.8%,實際上獲得 51.2%。由此可見,楊秋興分走 5.6% 的選票。

以整個高雄來看,民進黨的預測值為 55.5%,實際上獲得 52.8%。由此可見,楊秋興分走 2.7% 的選票。已知楊秋興的得票率為 26.7%。因此,來自綠營的 2.7% 大約佔楊秋興選票的一成。也就是說,楊秋興的選票當中,九成藍、一成綠

如果讓楊秋興的選票分別回歸兩黨,則五都合計民進黨領先國民黨的票數並非 40 萬,而是只有 7 萬。

怎麼樣,迴歸分析真的很簡單吧?


Posted by Richter at 痞客邦 PIXNET 留言(9) 引用(0) 人氣()

open trackbacks list Trackbacks (0)

留言列表 (9)

Post Comment
  • 方向歸零
  • 前面都對,最後有一個小錯誤
    陳菊82萬,楊秋興41萬,黃昭順32萬
    所以假設楊秋興1,9拆,陳菊是86萬,黃昭順是67萬
    所以差距是19萬,不是7萬
  • 抱歉,我剛剛沒講清楚。差7萬指的是五都總計。

    Richter replied in 2010/12/09 23:46

  • ggsadventure
  • 這個有趣.

    如果2004的得票率已經可以解釋高達九成以上,在2010年的投票, 換個角度來講是不是imply藍綠版圖其實幾年來未變? 至少在這五都上如此.
  • localki
  • 截距項是7.43%,這個數字有顯著嗎?如果有,那民進黨的確是進步了。
  • 不見得,因為斜率小於1。

    Richter replied in 2010/12/10 13:00

  • 訪客
  • 由上面的資料的推論應該是"楊秋興的選票當中,一成綠"
    除非前提是選民非藍即綠,或是有做國民黨的迴歸分析,
    才能夠把"九成藍"放到最後的推論吧。
  • 本次選舉新北、臺中、臺南三都的選票都是非藍即綠,而臺北市的無黨籍選票也少到可以忽略不計。換言之,用民進黨的迴歸方程式就可以預測國民黨得票率。

    Richter replied in 2010/12/10 19:45

  • 訪客
  • 顯而易見地,臺北、新北、臺中各區的殘差非常小;臺南有些區的殘差較大。進一步觀察,殘差的主要來源為地緣因素。例如,殘差絕對值最大的那一點是國民黨籍候選人郭添財的家鄉:關廟區。由於郭在關廟區拿到許多鄉親票,導致民進黨在當地的得票率低於預測值。

    請問如果是地緣因素,那關廟以外的地區的地緣因素是指什麼?高雄的殘差會比台南還大嗎?
  • 例如,大新營地區有些選民可能對縣市合併不爽,抵制來自臺南市的候選人。

    高雄因為有三個主要候選人,套用這條迴歸方程式的殘差當然較大。

    Richter replied in 2010/12/15 15:38

  • SPL
  • 我對斜率小於一非常在意,因此想要更確認分析過程。
    看起來每一點代表的是一個區或鄉鎮,然而因為人口數不同,
    正確的回歸分析應考慮"比重"的問題.
    請問您是否有將人口數的比重放入計算中?


  • 觀察值都畫在圖上了。用肉眼就看得出來,即使以人口加權,也不會明顯改變斜率。

    Richter replied in 2010/12/15 19:16

  • ZEPHYR
  • R-SQUARE 太高應該有問題吧......
    實務上不會達到9成以上,
    可以合理懷疑模型有問題
  • 這是哪一個老師教你的?

    Richter replied in 2011/02/08 10:22

  • 哇哈哈
  • R-square高很正常阿

    這代表2004年與2010年的選舉投票人的立場相似,導致投票行為雷同。
    也就是說,當選舉結果是五五波時,就是曾投過DPP的人回籠了。

    另外不負責推測一下,2000年連宋兩人的票加總,跟2008馬的得票去做簡單回歸,應該可以得到R-square很高的類似結果。

    這其實跟外在環境因素有非常大的關係,當執政黨執政出問題,的確會有相當大的群眾這時轉而給在野黨機會,包含了投給在野黨與不去投票支持執政黨。而這些群眾其實很早就決定投票的立場,只是講與不講的差異罷了。
  • guest
  • 蔡英文的殘差大部分都是正的
    這還可以歸納出 蔡英文比其他DPP候選人移動了更多的版塊

You haven’t logged in yet, please use guest status to leave message. You can also log in with above service account and leave message

本文章強制悄悄話,訪客將無法觀看版主回覆,建議您登入之後再留言。
other options