top of page

觀察家手上的數據是否造假?


如果觀察家覺得字體太小不易閱讀,不妨可以聽聽看




角度數據是透過台灣的消費數據進行各種消費行為的分析研究,可是有品牌商質疑角度數據的數據資料是否可能造假?今天角度數據就針對這個議題與各位觀察家分析討論這個主題。




關於假數據資料的檢驗問題,世界上存在一個著名的檢測定律叫做班佛定律(Benford’s Law),這個定律是由在奇異電器工作的物理學家 Frank Benford 經過大量數據測試後所得到的結果,這個定律是從觀察家手上的所有數據資料進行統計,如果觀察家手上的數據資料與班佛定律的結果越接近,就代表資料造假的機率比較低,反之,差異越大表示資料造假的機率提升。這個定律是檢查觀察家手邊收集到數據資料的第一個數字,假設觀察家數據中有一組數字是 13 ,該數字的第一個數字是 1,在假設觀察家的數據資料存在另一個數字是 946 ,該數字的第一個數字是 9,該定律就是取數據資料每個數字的首位進行機率的評估,每個數字的首位可能是 1、2、3、4、5、6、7、8、9 其中一個,首位不包含 0,因為正常的數字不會以 0 開頭,所以數字的首位出現 1 的機率應該是九分之一,從 1 到 9 選其中一個數字,從九種可能選擇其中一個數字,所以機率值是九分之一,數字的首位出現 2 的機率應該也是九分之一,數字的首位出現 9 的機率應該也是九分之一,所以首位數字無論是多少,出現的機率都是九分之一。可是班佛透過大量實驗,發現在現實世界裡,數字的首位出現 1 的機率不會與數字的首位出現 2 的機率相等,也不會與數字的首位出現 3 的機率相等,班佛發現數字的首位出現 1 的機率應該比數字的首位出現 2 的機率高一點,數字的首位出現 2 的機率比數字的首位出現 3 的機率高一點,首位數字越大出現的機率就會越低,也就是說數字的首位出現 9 的機率是所有首位數字出現機率最低的一個數字,而現實世界的機率分布符合上面的圖表的表示,d 表示數據的首位:1、2、3、4、5、6、7、8、9 中的一個,首位出現 1 的機率應該是 30.10%,首位出現 2 的機率應該是 17.6%,首位數字出現 3 的機率應該是 12.5%,並非遵循觀察家熟悉的數學機率法則,出現的機率都是九分之一。



角度數據以班佛定律的檢測方式檢測提供的數據資料,圖表中藍色的值方圖表示班佛定律的資料分布樣貌,而紅色的值方圖示角度數據根據各種不同情況所統計出來的資料分布,紅色的分布狀態越接近藍色的分布曲線,表示資料是真實資料的機率相對比較高。根據班佛定律首位出現 1 的機率應該是 30.10%,角度數據提供的商品交易次數統計資料,首位出現 1 的機率是 35.03% ,比班佛定律率高 5%,但整體的分布狀態確實是符合班佛定律的分布圖形。在觀察區間內每項商品營業金額累積加總的數據,首位出現 1 的機率是28.84%,比 30.10% 略低一些,可是分布的趨勢仍與班佛定律一致。在進行測試之前,角度數據其實對班佛定律也感到存疑,認為現實世界的機率分布真的如班佛定律所說的那樣嗎?在測試角度數據的資料之前,角度數據也測試了許多別人的數據資料,發現現實世界的數字確實大部分符合班佛定律的分布狀況,如果觀察家懷疑數據資料可能造假,也許可以先花一點時間進行測試。



角度數據在驗證班佛定律時,曾經使用近十年財政部開出特別獎的數字進行測試,結果發現大部分的數字機率都落於九分之一,而財政部的開獎數據與班佛定律的分布相差勝遠,或許真實世界的數據資料不會像特別獎的數字每一位都是以隨機的方式產生,所以首位數也並不會產生像特別獎的首位數字接近九分之一的分布情況。角度數據除了檢測商品的營收價格外,對商品的銷售數量,以及相異類別商品的數量也都進行了檢測,商品銷售數量首位是 1 的機率是 34.44%,而相異類別的商品數量首位是 1 的機率是 30.98% 而不是 11.11%,也許這樣的檢測方法可以降低品牌對數據廠商資料造假的質疑。







資料來源:角度數據 2024 年消費者消費交易資料庫



Коментарі


熱門文章
近期文章
bottom of page