作者 Imotucc (建築師巴布)標題 Re: [問卦] 我不懂統計,有朋友送我這張圖有卦嗎?時間 Sun Nov 19 05:37:46 2023
認真回
這篇文章在講的事情是error propagation
如果我有兩個實驗數據
這兩個數據是獨立量測的
那我測到的第一組是A+/-a
第二組是B+/-b
假設你的實驗量總是常態分佈
有統計顯著意義應該是要
|A-B|>sqrt(a^2+b^2)
舉例來說 如果A=40 B=44 a=b=3
他認為統計顯著意義應該要是
|40-44|>sqrt(3^2+3^2)=4.26
但這條沒有成立 所以沒有統計顯著意義
那比較confidence interval的意義是甚麼呢
就是當我們設定95%信心水準樣本數1000
母體數很大的時候不太重要 但我們可以假設個一千萬
那對應的confidence interval大約是3%
也就是說我做無限次調查的時候
有95%的結果我可以肯定
支持某個選項的比例跟某個數值A的差距在3%之內
那在某些社會科學(有些自然科學好像也是)的慣例中
在誤差範圍內=在誤差範圍外的相反
甚麼是在誤差範圍外
就是我可以肯定我量測到的數值跟A的差距不是誤差導致的
換句話說就是
在誤差範圍內=A跟B的差距有可能是誤差導致的
但你可能會問這樣的機率很小怎麼辦
這就是為甚麼一開始要設定95%信心水準
當設定信心水準之後你基本上就可以確定95%情況(母體真實情況)的範圍
接著再來比較這95%情況下有沒有可能(有沒有一種母體)
抽樣調查有可能測到A也有可能測到B
如果有可能 就是在誤差範圍內
如果不可能 就是在誤差範圍外
舉例來說 調查你喜歡買星巴克嗎 1是喜歡 0是不喜歡
母體可能是
100011111000 支持率是41%
也可能是
110011111000 支持率是58%
也可能是
110000000000 支持率是17%
...
但你調查的時候只抽3個
你抽到 010 所以喜歡比例是33%
但有沒有誤差值? 有 95%信心下 誤差大概是50%
在這95%的母體中
有沒有可能有一個母體的真實支持率是60%? 有
有沒有可能有母體的真實支持率是90%? 沒有
(根據你的實驗結果 這樣的母體存在的機率不到5%)
為甚麼可以用實驗結果反推母體?
這也很簡單 因為你測到110
所以有沒有可能有母體是 000000000000?
不可能 所以實驗結果是可以反推可能的母體 跟他對應的比例的
所以統計觀念就進來了
95%信心水準下誤差50%的意思是
真實母體的支持率跟33%有沒有可能差超過50%
有可能 例如111111111110
但這種母體存在的比例不到5%
接著問題來了
現在有一間星巳克
你要調查對消費者來說喜歡星巴克跟星巳克有沒有區別
所以你做了一樣的調查
結果呢你一樣抽三個 這次抽到111 喜歡比例是100%
接著你問根據這樣的實驗結果
有沒有可能出現一種母體 消費者對星巴克跟星巳克的喜歡是一樣的
答案是有 而且還蠻常見的 大約有9成的母體容許這種實驗結果
舉例來說 母體可能是
111000000001
111100000001
111110000001
.....
如果你支持3% 你可能會覺得奇怪
支持率差距是66% 怎麼66%超過誤差50%還有這麼多可能的母體
但是但是 這些都是假設信心95%的情況下
95%只是常用的標準
你可以說 我想要誤差0.001%可不可以
當然可以 如果你的信心只有1% 誤差就會很小
換句話說 你做了一個測量
你只要求母體實際支持率跟你量到的差距在0.001%內
那你就只會撈到可能1%左右的母體
那用這個基礎進行討論你就可以說
你有不到1%的信心 消費者喜歡星巳克多於星巴克
當然這是極端的例子 也許你會有80%的信心可以下這種結論
但通常習慣是用95%90%之類的就是了
回過頭來講
要用error propagation通常的假設是你預期你做的測量背後有一個確定的真實值
你的平行世界就只有一個
不會有這種背後有不同母體不同情況的可能性
而因為誤差 你實際做測量的時候的測量值大約是常態分佈
至於喜好調查這種東西呢
當你只抽樣調查 你是不會知道背後母體真實長的樣子的
所以你只能討論眾多可能性中 在某種給定條件的各種可能性下的結果
我知道風向不對
但科學精神就是這樣
如果你說我錯 你要講出我哪裡錯
如果你提出一個說法
這個說法要有可以被證明是錯的可能性(不一定錯 但要有可證偽性)
※ 引述《Popechiou (是我)》之銘言:
: https://i.imgur.com/XpDyyD8.jpg
: 剛剛在友版問問題,有朋友回應我這張圖,我看不懂,我只知道投降輸一半,不懂統計,
: 這張圖好像很厲害,請問有卦嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 76.53.238.53 (美國)
※ 作者: Imotucc 2023-11-19 05:37:46
※ 文章代碼(AID): #1bMIwiIp (Gossiping)
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1700343468.A.4B3.html
※ 同主題文章:
Re: [問卦] 我不懂統計,有朋友送我這張圖有卦嗎?
11-19 05:37 Imotucc
※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 05:44:04
推 s9234032: 一場 選舉 全民上統計課 這畫面好美2F 111.82.61.247 台灣 11/19 05:47
推 doohan01: 前提是兩組獨立數據3F 27.53.232.143 台灣 11/19 05:48
沒有錯 如果數據不是獨立就要考慮相關性
第一種常態分佈的例子中誤差有可能修正
至於是變大還是變小要看兩者是正相關還是負相關
回到統計的例子 基本上你是星巴克星巳克分開問的
所以你得到的兩個對於母體推論基本上是獨立的
推 ShockHo222: 台灣人真可憐,一會兒要懂疫苗,一會兒要懂統計4F 27.247.94.35 台灣 11/19 05:49
推 ok66: 你假設錯了啊 柯侯跟侯柯就有相關性 而且是6F 133.237.7.71 日本 11/19 05:56
推 ewing: 如有天命 需要讓票?7F 223.139.188.244 台灣 11/19 05:57
→ ok66: 正的 所以會比你估的小8F 133.237.7.71 日本 11/19 05:57
我沒有在討論那個例子
你可以說這個假設下的論述不適用某個例子
而不是你假設錯了
再回來相關性這件事
首先你要放相關性進來考慮的就是第一個例子
假設有一個上帝知道的真實數值而不是有各種可能的母體
那確實正相關會使誤差傳遞比原本的誤差傳遞小
但問題來了 請問你如何知道cov(A,B)是多少呢?
推 ok66: 看民調有沒有計算這項啊 我怎知==9F 133.237.7.71 日本 11/19 06:04
民調當然沒有這項
因為通常計算covariance的時候是第一種例子
你在做實驗量測 量測一個數值
而不是做民調 調查支持比例
事情是這樣的
https://imgur.com/4zQ7Ztp
這是covariance
如果假設支持算1不支持算0 讓x_i要嘛1要嘛0
可能可以算至於能不能用我持保留態度
畢竟第一種常態分佈的狀況假設的是常態分佈
但0跟1顯然不是常態分佈
總之退一萬步我們用0跟1做個估計好了
但只是估計所以實際計算結果也許跟估計不一樣
總之
甚麼時候會得到最高的負相關呢
就是同一個人喜歡星巴克就不喜歡星巳克
甚麼時候會得到最高的正相關呢
就是同一個人喜歡星巴克就喜歡星巳克
的確正相關會讓誤差變小
但是呢 我們要看的就是有沒有統計顯著可以證明喜歡星巴克的人多於星巳克的人
高度正相關基本上是否定這個看法
因為高度正相關代表的是多數人兩個都一樣喜歡
推 sofaly: 請問什麼是越位10F 112.78.84.56 台灣 11/19 06:11
推 brian900530: 正解就是沒有raw data都算不出來啦沒有原始數據要怎麼知道共變異數XDDD11F 1.161.213.250 台灣 11/19 06:15
→ wen17: 9成的母體 你是假設各種母體機率均等吧14F 31.205.109.42 英國 11/19 06:32
概念是這樣的
首先我們知道做了測量之後各種母體存在的機率就不均等了
舉例來說你測到111
母體就不可能是00000
所以一般來說我們看的是把9成5的母體挑出來
看能不能排除某種情況
換句話說 能不能挑9成6的母體出來
且這些母體實際支持率跟測量的小於3%呢?
答案是不能 一旦你做了1000份問卷 這種可能性就被排除了
至於挑出來的9成5的母體裡面各種比例是多高?
這跟誤差範圍內是兩件事
因為9成5的母體裡各種母體支持率分布的比例跟10成母體差不多
但10成母體統計誤差是100%
所以有兩個不同的問題
1.我能不能猜哪個母體最有可能
答案是可以 而且你八成會猜是你量到的那個
可是這時候你猜錯母體的機率也很高
2.我可不可以降低猜錯母體的機率
並在這個基礎上排除某事件發生的機會
可以 這就是統計誤差
→ wen17: 也就是0 1都50% 這樣能maximize interval我不是很確定同時比兩組數據這樣公平嗎
而且實際上因為有賴 所以其實不論柯或侯
母體比率應該都<<0.5 直接用0.5估
然後要求interval不能疊 怪怪der
這例子不太像星巴克 but anyway
為什麼智商157還有統計學博士簽的約
可以不清不楚 定義都沒定義好15F 31.205.109.42 英國 11/19 06:33
推 pc011630: 學生時代的惡魔又回來了23F 114.33.5.252 台灣 11/19 06:45
推 tn368: 我知道的是重點在如果你要比較兩組有差異的數據是不是有顯著差異你會設定一個P值,就是當你的假說是真的時候,你的結果出現極端情形的機率(例如常態分佈單雙尾的5% 95%,P value=0.05), 你去計算你要比較數據的p value是不是低於設定值你才會知道是不是有統計上有顯著差距的意義24F 118.167.227.249 台灣 11/19 06:55
你說的沒錯 這就是第一種常態分佈的狀況
如果你在測量一個數值的時候
例如全班體重
我們會假設體重分布是常態分佈
再根據常態分佈各數值出現的機率去設定p value的閥值
至於問卷這種問題呢
基本上就是1跟0
畫成圖就是兩條bar
基本上不是常態分佈
並且處理的問題也不一樣
常態分佈是假設宇宙有個真實的值和真實的分布
這個分布就是常態分佈
所以他不用處裡母體的問題
也就是為甚麼你假設常態分佈之後就不用假設95%信心水準了
(這跟P value的5%是不太一樣的概念)
因為你的"母體"就只會是常態分佈
至於問卷呢
我們要做的事情是在95%的母體中
討論某事件發生的機會有沒有可能完全被排除
※ 編輯: Imotucc (76.53.238.53 美國), 11/19/2023 07:06:35
→ wen17: 不是 我是指 假設母體有10個 你測2個
排除掉不可能發生的 剩下的用2選1 0/1去湊猜0.5的好處是能CI啊XD 你單純要檢定一個我覺得max CI很合理 CI最大都能跑出去
肯定能跑出去了 但如果想玩兩個CI不重疊
我不知道這樣做合不合適就是了
不過我覺得你的排除在今天的例子不太重要?因為選民人數遠遠比民調樣本多31F 31.205.109.42 英國 11/19 06:56
--