作者 Tpintrts (Tt.梅梗)標題 [討論] YT民調資料查詢工具-加入電訪資料時間 Tue Sep 26 00:19:43 2023
https://www.aweb.tpin.idv.tw/president2024/
這個是先前提過可以查詢YT街訪民調的工具,
你可以透過篩選條件來查詢影片和統計資料。
原本做這個工具主要是想研究YT影片為何做出來的結果與電訪民調的差異那麼大,
第一個想到的當然就是抽樣問題,但隨著研究他們的樣本分佈,我漸漸覺得,
會不會其實街訪和電訪根本是調查著兩個特徵完全不同的族群呢?
而這個特徵(我不知道是何種特徵)正好與是否為柯文哲的支持者正相關,
因為另外兩位候選人在街訪與電訪的結果並沒有像柯文哲那樣大的差異,
正因為如此,過去電訪可以一定程度的「代表」全台,但這次可能不行了。
基於這個假設,不得不設法加入電訪民調的內容,
正好TVBS的民調提供的公開資料中,有足夠的資訊可以反推年齡層的樣本數。
同時TVBS的民調資料,也會成為街訪民調的「對照組」,
讓我們看看街訪民調的取樣分佈比起電訪民調的取樣分佈,
是不是真的糟到不堪使用的地步。
以下TVBS的報告用以下這個為例:
https://reurl.cc/Oj4oYA
我們就以版上對關注度最高似乎也比較「有系統和計劃的」在做民調的木炭為例吧。
這是木炭目前影片的年齡分佈,
請把60~69歲及70歲以上合計為30.2%,我國合計為30.5%,
其他年齡層的樣本分佈也大致與國家分佈相同。
https://i.imgur.com/03QyJjc.png
這是TVBS的年齡層分佈,基本上與國家分佈也沒有差很多,
60~69歲那組請視為60歲以上,因為報告中是採用這個刻度。
https://i.imgur.com/vkMFpjm.png
這裡我們可以知道,木炭的年齡隨機性並沒有比TVBS的電訪民調差,
分佈上大致符合國人情況。
至於地區取樣,木炭是各縣市做100票,
這部份雖然地區分佈平均(人口分佈問題後面談),
但會被質疑「抽樣太少」的問題,
這部份就要談到「信賴水準」和「抽樣誤差」
我們常常會看到傳統民調中的這段話
「95%信心水準下,抽樣誤差為±XX 個百分點以內」,
這東西是怎麼算出來的呢?
可以參考這個網頁工具,裡面也有公式介紹:
https://zh.surveymonkey.com/mp/margin-of-error-calculator/
單縣市只抽100人的話,以雲林縣為例,出來的結果會是:
https://i.imgur.com/fZEiLf5.png
560853為雲林縣人口,所以單抽一百人的話會是
「95%信心水準下,抽樣誤差為±5 個百分點以內」
通常民調公司都會壓在±2.5,所以就單縣市來說,這個樣本太少沒有錯。
但TVBS總共只抽千餘位,平均一個縣市差不多50人,單縣市就不會樣本太少嗎?
所以他們分層不是單縣市。
https://i.imgur.com/WDCNmvo.png
我原本是這樣以為的,但當我計算樣本時發現也不對,
這個例子裡有效樣本數為1273位,15%為191位,雲嘉南總投票人口為2769467,
放進公式算:
https://i.imgur.com/yucGzws.png
TVBS誤差範圍是±3.5%,
反而木炭做300人,誤差範圍是±3%,
所以到頭來那個「95%信心水準下,抽樣誤差為±2.7 個百分點以內」
是以總樣本數對應總投票人口算出來的,所以如果木炭真的22縣市做完,共計2200人,
他們算出來會是:
https://i.imgur.com/Qt8m9mE.png
「95%信心水準下,抽樣誤差為±1 個百分點以內」
這裡要說的並不是木炭的抽樣誤差有多小,而是這東西反正你就套公式進去算,
就像分層用雲嘉南,如果他雲林訪了150個,嘉南訪41個,合計也是191人,15%,
TVBS報告裡面你也看不出來。
所以就這部份來說,木炭的街訪的樣本也沒有比較差。
再來是加權問題,
同樣抽100人,連江縣的100人和台北市的100人,
如果要推估全台灣的投票人口母群體,就不能把它們各視為「100票」,
因為台北市的投票人口是連江的173倍左右,推估全台支持度的話,
都算成一票是有問題的,
因此如果木炭他們把不同縣市的票數未經加權就合計,然後做比較,
這樣是不行的,但他們也沒有那麼做。
講到這裡,我們至少可以知道木炭街訪的樣本品質沒有差到不堪使用,
至少在地區和年齡的處理上,並沒有比民調公司的差太多。
所以,我們應該可以運用這些樣本來做處理。
那麼接下來的問題就是,假設市話手機民調與街訪其實是三個族群,
那他們的比例應該是多少,
根據這份關於市話使用情況的報告
https://reurl.cc/V41oq5
這份報告詳盡的介紹了研究方法,也提供了原始樣本,
可信度應該很高,
從中我們可以知道有51%左右的人已經完全不使用市話,
剩下的市話用戶裡還有約27%左右為企業用戶,也就是說,
還在使用市話的個人用戶可能只剩全部人口的33%,
我們可以認為這33%就是市話民調的「母群體」,
那剩下的67%人口,是市話民調調查不到的人,
調查不到就是調查不到,再怎麼加權也沒有意義,
那我們假設手機調查的群體也和市話一樣33%,剩下的就是街訪了。
這是我的比重推測,當然這部份也是大家爭議最多的地方,
雖然我預設電訪佔65%,但網頁中這部份大家可以自由設定,你也可以設定100%。
接下來要談的圖表,都是以木炭有年齡資料的影片和TVBS的民調的調查,
電訪比重:65%、電訪平均投票率:75%
https://i.imgur.com/D52Kzei.png
我們可以看到在原始樣本無加權的情況下
賴37.2%、侯27.2%、柯35.78%
https://i.imgur.com/xteUnYq.png
我們對縣市口加權,但假設投票率為100%時
只有街訪的話是
賴35.32%、侯19.02%、柯45.65%
街訪併電訪
賴35.32%、侯19.02%、柯45.65%
https://i.imgur.com/phE9sBy.png
這裡對縣市人口加權的方法,舉例來說:
候選人共獲得該次100票中的50票,調查的縣市為連江縣,其總人口數為12118,則此候選
人在此次調查中會被加權為6059票。
併電訪時,則是依照上面的方式得到票數後,再乘上權重。
接下來我們把年齡層的投票率考慮進去:
網頁中提供了以2020年齡投票率為基礎的高投票率
還有以2016年齡投票率為基礎的低投票率,這裡就只講2020的為例
只有街訪的話是
賴35.95%、侯19.58%、柯44.47%
街訪併電訪
賴37.05%、侯25.69%、柯37.26%
https://i.imgur.com/etg8tdZ.png
計算方式為舉例來說:
候選人在20-29歲年齡層共獲得該次100票中的20票,而2020年總統大選20-29歲的投票率
約71%,連江縣總人口為12118,則投票率100%時該候選人可以獲得20-29歲約2424票,但
投票率此時假設為71%,因此加權後計為1720票。
電訪的情況下,因為沒有辦法得知單一縣市的年齡層分佈情況,所以要人口併年齡加權有
困難,所以其投票率設定為75%,此為2020年總統大選的平均投票率。
這裡可能有人認為,報告中特別強調只調查「有投票意願」者,這裡怎麼還要有投票率,
這是因為人只加權的情況,即使只記載「有投票意願」者,人口總數中仍然會有「無投票
意願」者,他們沒有在報告中被記載,但人口加權時還是要先排除掉這些人。
每種加權方式的重要假設都寫在表中,其統計結果會有多少參考性就自行評估了
https://i.imgur.com/Kp264nF.png
到這裡說明完樣本加權的方法與結果,有興趣的人也可以試試別種篩選條件。
我認為,街訪就是比較容易做出柯文哲領先是不爭的事實,
而市話使用人口剩下約33%也是有根據的,
與其一直說其中一邊不準是假的,
或許應該考慮怎麼做才能獲得一點真實性。
美麗島民調執著在市話民調是一件很奇怪的事,
確實市話有著能準確知道對方地點的好處,
問題用的人就是變少了,我不免覺得是因為花大錢系統建在那邊了,
如今要改也是累,就繼續用吧的感覺。
街訪民調也有其限制和缺陷,但直接說成沒有用,也是不太合理,
畢竟實地訪問是很常見統計調查方式,難道那些研究收集的樣本都沒用嗎?
另外,用選舉結果衡量民調準不準是不公平的,
你現在調查我,我說我要投A,因為我很討厭C,
結果後來看一看B好像比較會上,為了幹掉C我就投了B
我能說你的調查「不準」嗎?在那個當下還是準的吧?
既然有「棄保」這種東西,民調註定會和選舉結果有落差,
只能求當下是貼近現實的,
讓民眾能有效決定投票策略,候選人能準確知道努力方向,
所以追求「真實」的民調還是很重要,
那我們就需要知道民調的細節,才能考慮他可能哪些地方會與現實有落差。
最後提一個人口加權重要性的例子,
剛好「五星司機艾倫」目前做出來的結果是個好例子
他所有影片只做了新北市和台北市,沒有年齡資料,
在沒有縣市人口加權的情況下是:
賴40.35%、侯16.99%、柯42.66%
https://i.imgur.com/3y7SSIi.png
不過人口加權後就驚人的逆轉了:
賴45.15%、侯23.86%、柯30.99%
https://i.imgur.com/undefined.png
這是為什麼呢?加權方式有問題?作弊?
其實不是,我們觀察他台北市和新北市的訪查的樣本數
https://i.imgur.com/uRUGevO.png
https://i.imgur.com/EP9W0C1.png
會發現賴清德在新北壓勝,柯文哲則在台北大勝,
但台北投票人口為209萬,新北則為340萬,
較多的樣本數並不會影響人口總數和得票比例,
人口加權之後,反而賴在新北的樣本就變大很多,於是結果就不同了。
至於他兩個縣市的調查分佈可能有點問題,這裡就略過不談了。
其實不管街訪多麼不嚴謹,他們都至少讓另一種聲音能被注意到,
也讓民調公司有一些壓力,讓人們開始會想探討樣本與統計方法,
而不是只是一直談立場,講「機構效應」之類的東西。
另外,有些人喜歡用YT出片時,影片結果是誰領先來講對方風向變了或是別有用心,
這裡統計了各YT頻道各候選人領先時的影片數,相信對測風向有點幫助,
https://i.imgur.com/iu3q6da.png
我們可以發現桃園孫先生每個候選人領先的影片數都差不多,
賴領先的影片還相對較多,
但我想並不會有太多人(包括他自己)覺得他支持民進黨吧?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.161.145.178 (臺灣)
※ 作者: Tpintrts 2023-09-26 00:19:43
※ 文章代碼(AID): #1b4RCaiU (HatePolitics)
※ 文章網址: https://www.ptt.cc/bbs/HatePolitics/M.1695658788.A.B1E.html
噓 seraphimm: 該睡了,人獸交民調1F 39.10.49.195 台灣 09/26 00:22
推 zeuswell: 幫推,但太長我看不下2F 27.53.9.212 台灣 09/26 00:22
※ 編輯: Tpintrts (1.161.145.178 臺灣), 09/26/2023 00:24:22
推 aling1205: 辛苦的認真分析,不過某些族群會不開心3F 122.121.139.82 台灣 09/26 00:28
推 etset: 師父穩了5F 118.160.84.15 台灣 09/26 00:32
如果你有看內容,你得到的結論應該是師父很不穩。
沒有棄保很難當選。
噓 VANNN: 鬼扯,,光隨機性就差很多了6F 114.44.7.99 台灣 09/26 00:34
我已經證明了至少年齡分佈符合國人年齡分佈,縣市分佈也是各縣都抽,
如果你這樣還認為我未能「證實」有相當的隨機性,但也請「證偽」,
這樣的隨機性為何不足?
→ VANNN: 市話安裝比例還有7成,7F 114.44.7.99 台灣 09/26 00:35
推 sam7207: ...為什麼可以這麼認真..他公式一開始就.8F 114.34.143.1 台灣 09/26 00:35
→ VANNN: 什麼叫做不知道人口分佈9F 114.44.7.99 台灣 09/26 00:36
我猜你是看錯了,我是指TVBS的調查中沒辦法知道單縣市人口與年齡支持度分佈的情況,
所以沒辦法用各縣市人口去加權,只好用總體去算。全國人口分佈當然知道,
第一段就在談人口分佈了。
→ sam7207: 用錯啊..怎麼會用平均數的信賴區間估計..10F 114.34.143.1 台灣 09/26 00:36
謝謝你,其實人家給我的連結,我以為是相同的東西,這樣那段就留著給大家笑吧。
→ sam7207: 什麼 撫慰人心的網頁 包含在5000萬裡面嗎13F 114.34.143.1 台灣 09/26 00:36
個人研究而已。
→ VANNN: 十個月做2200百份,,你告訴我抽樣誤差正負2.5 拿去任何一家正統民調公司都會被笑死14F 114.44.7.99 台灣 09/26 00:37
噓 scratch01: 光街訪的偽隨機就無效問卷了18F 36.232.32.125 台灣 09/26 00:38
以某些YT的情況確實如此,最後面也舉了反例了。
但前幾段就是在證明至少木炭民調的隨機性並沒有特別差。
→ sam7207: 什麼抽樣阿 隨機性阿..真的不要這樣比19F 114.34.143.1 台灣 09/26 00:39
→ VANNN: 隨便問一個統計老師說要用街頭民調代表隨機20F 114.44.7.99 台灣 09/26 00:39
→ sam7207: 那個便利抽樣 跟 隨機抽樣 先搞懂一下21F 114.34.143.1 台灣 09/26 00:39
好哦。我去查了兩者,街訪民調確實更接近「便利抽樣」,不過我比較在意的是,
我查到的「分層隨機抽樣」是這樣解釋的:
分層抽樣是從幾個子群裡面隨機選出個體來形成最終樣本。假設研究人員想了解美國成年
人的意見,除了任意選出 500 名成年人以外,也可以在 50 個州當中各取 10 名成人,
以此做為「隨機」樣本。如果每個子群的標準差 (誤差率) 都低於整體,那麼就能全面降
低誤差範圍。
如果用他的例子來講:
木炭想了解台灣成年人的意見,除了任意選出2200名成年人之外,
也可以在22個縣市中各取100名成年人,以此做為「隨機」樣本。
如果每個子群的標準差 (誤差率) 都低於整體,那麼就能全面降
低誤差範圍。
聽起來木炭的問題主要只是他的誤差範圍無法評估吧?可能高誤差,也可能低誤差?
→ VANNN: 性抽樣就會被打零分了吧
電訪用的叫 分層隨機抽樣...街頭用的是便22F 114.44.7.99 台灣 09/26 00:39
→ VANNN: 利抽樣+立意抽樣,,,你說有做系統抽樣還準一點25F 114.44.7.99 台灣 09/26 00:40
推 sam7207: 鐵了心要洗YT街訪屌打傳統民調公司..QQ27F 114.34.143.1 台灣 09/26 00:42
你這話就不對了,整篇文章表達的並不是傳統民調不準,
而是它們可能已經不像從前那樣可以代表整個族群了,
同時街訪民調也沒有那麼不具參考性,如果他們觸及了完全不同的族群,
是不是應該兩邊都要參照呢?
噓 VANNN: 應是民眾堂要 抹街頭抽樣民是準的那掛
韓國瑜當年敗像已露就開始洗 不看民調只看造勢大會,民調大家蓋牌28F 114.44.7.99 台灣 09/26 00:42
推 sam7207: 民調可以做出表象 但是你拿一個更啦嘰的這真的太誇張
我相信民調公司 跟 政黨內部一定有真實31F 114.34.143.1 台灣 09/26 00:44
→ VANNN: newbrain 被封了,,,柯粉再接再勵34F 114.44.7.99 台灣 09/26 00:45
→ sam7207: 內部參考民調啦 只是不會給外人知道
簡單問就是 你民眾黨內參用YT街訪 我也認了....35F 114.34.143.1 台灣 09/26 00:45
學習中,兩位統計學大師讓我有所獲益。我這篇文章只是提出想法,
和論證過程,正例反例對照例都有舉,
並沒有打算帶什麼風向,暗示哪個候選人比較高支持度,
這樣預設我的立場我也沒有辦法。
→ andy199113: 好酷喔38F 118.167.150.194 台灣 09/26 00:46
→ VANNN: 當年韓國瑜韓粉智障到由電話==>街頭==>網路==>看yt 觀看人數,,就知道完了
前面全輸,,,只好蓋牌39F 114.44.7.99 台灣 09/26 00:46
噓 BDG: garbage in garbage out42F 114.40.208.234 台灣 09/26 00:47
推 sam7207: 真的是 嘎逼居 硬43F 114.34.143.1 台灣 09/26 00:48
推 boogieman: 你是新新腦嗎?44F 114.137.71.56 台灣 09/26 00:56
推 sheng319: 首先街坊的問題每個人都不太一樣,雖然大意一樣卻也會造成引導,電訪同樣可以在問題上引導但是能保障每個人問的問題是一樣的,光是這點街坊就沒有統計性了再來把每個不同的街坊摻在一起做統計分析更是可笑,以為是撒尿牛丸可以這樣參雜的嗎?45F 218.164.229.118 台灣 09/26 00:56
老實說,這次街訪只有「一個題目」,反而可以不用考慮問卷設計的問題,
是相對單純的狀態,台灣民意基金會也有公開他們的報告,
只是他們的問題極為複雜,到沒有辦法像TVBS那樣,與街訪的資料一起格式化。
→ sheng319: 統計真沒想像的簡單,要嚴謹一點從問卷設計,統計方式都要考慮,不是抓抓數據有在信賴區間就是對的52F 218.164.229.118 台灣 09/26 01:00
推 sam7207: 總之 是個撫慰人心的民調 對吧?55F 114.34.143.1 台灣 09/26 01:00
文章大概太長了。
→ sheng319: 民調就參考看看就好,所以民調有機構效應不要太意外56F 218.164.229.118 台灣 09/26 01:03
→ skbb2553: 只能說大大的統計學觀念還需要再加強58F 36.230.97.33 台灣 09/26 01:07
我是在學習中沒錯,所以問題很多,沒講出來給大家炮一下,
自己想自己對也不太好。無知並不可恥,可恥的是昧於無知對吧!
推 iamdota: 就是新新聞的兒子,新新腦59F 104.28.156.241 台灣 09/26 01:11
※ 編輯: Tpintrts (1.161.145.178 臺灣), 09/26/2023 01:35:54
※ 編輯: Tpintrts (1.161.145.178 臺灣), 09/26/2023 01:41:55
推 bloodyiris: 還有時間軸問題 選前跟十個月前拿來一起平均也沒什麼用60F 39.15.10.17 台灣 09/26 01:57
時間這確實是硬傷,不過並沒有用平均的方式。所有的樣本都是被累積的。
所以基本假設是,人們的投票意願並不會因為時間而改變,
我知道這個假設很有問題,不過街訪就是沒辦法短時間拿到足夠多的樣本,
但這方面反而炮的人比較少。
※ 編輯: Tpintrts (1.161.145.178 臺灣), 09/26/2023 02:10:46
※ 編輯: Tpintrts (1.161.145.178 臺灣), 09/26/2023 02:21:50
※ 編輯: Tpintrts (1.161.145.178 臺灣), 09/26/2023 02:25:30
推 miha80425: 街頭民調並不是大量取樣的好辦法
個體戶容易滯後 但市話民調差不多要淘汰了 用戶少到一定程度就容易偏差62F 61.224.48.134 台灣 09/26 02:55
推 sc024500: 樣本隨機性時間性都是問題 問卷方法也是問題65F 1.200.47.77 台灣 09/26 06:29
噓 VANNN: 光是你那200份代表台北 在那個"行政區"抽樣67F 114.44.7.99 台灣 09/26 06:31
→ sc024500: 更何況有些街坊甚至是拿白板貼貼紙的 這不會影響調查?68F 1.200.47.77 台灣 09/26 06:31
→ VANNN: 就有很大問題,,電訪是盡量將台北市各區抽的機率一致,,避免樣本的"同質性" 木炭的鬼扯民調 20-50份在同一區,, 根本就視隨機性為無誤,,其它就別再鬼扯了
還不只同一個"行政區" 甚至是同一個里,你用一個里代表大安區的民意???回去重讀統計
最最基本的 統計推估原理全錯了,還煞有其事在研究????? 木炭的作法 自己去查什麼叫PPS抽樣 還有道理一些70F 114.44.7.99 台灣 09/26 06:31
推 sariel0322: 他們沒有說你要表達傳統民調不準啊,但就是要告訴你街訪對於全國總統選舉民調就是幾乎沒有參考性。講不好聽一點,撿了一堆垃圾當寶,辛苦了82F 118.150.154.253 台灣 09/26 09:54
--