數據的預處理 – 標準化和正規化
數據預處理 (Data Preparation) 是機器學習的步驟之一。
但是有些觀念是統計學的,沒有要做機器學習可能也會用到。
不同的變量他們的【數值的範圍】不同。
當用他們來做預測或推論其他的變量,【數值的範圍】會影響到預測結果。
標準化(Standardization、Z-Score ,Z值)
又叫做Z-Score 、Z值。
(原始數字 – 平均數)/ 標準差
最後算出來的值有正有負,數值代表【這個數字到距離平均數之間距離】是幾個標準差
如果是常態分佈,這個值可以用來判斷原來的數字是不是很偏(偏離值,Outlier),還是接近平均數。
算出的Z-Score ,它的平均值是零。標準差是1.
他的值的範圍不一定,但是如果是常態分配,大概介於正負3個標準差之間。
計算Z值時需要「母體」的平均值和標準差,而不是「樣本」的平均值和標準差。
正規化(Normalization、Feature Scaling、歸一化)
把數字轉換成介於零與一之間的數字,等比例轉換。
(原始數字 – 最小值)/ (最大值 – 最小值)
歸一化之後的值,介於0與1之間,大部分的值都是分數。
另一種類似的歸一化,是均值歸一化,
(原始數字 – 平均數)/ (最大值 – 最小值)
這種算法,值是介於1和-1之間。
這兩種基於最大值和最小值的歸一化都有一個缺點,就是最大值、最小值如果根據樣本來看,是會變化的。
發表留言
Comments 0