數據的預處理 – 標準化和正規化

數據預處理 (Data Preparation) 是機器學習的步驟之一。

但是有些觀念是統計學的,沒有要做機器學習可能也會用到。

不同的變量他們的【數值的範圍】不同。

當用他們來做預測或推論其他的變量,【數值的範圍】會影響到預測結果。

標準化(Standardization、Z-Score ,Z值)

又叫做Z-Score 、Z值。

(原始數字 – 平均數)/ 標準差

最後算出來的值有正有負,數值代表【這個數字到距離平均數之間距離】是幾個標準差

如果是常態分佈,這個值可以用來判斷原來的數字是不是很偏(偏離值,Outlier),還是接近平均數。

算出的Z-Score ,它的平均值是零。標準差是1.

他的值的範圍不一定,但是如果是常態分配,大概介於正負3個標準差之間。

計算Z值時需要「母體」的平均值和標準差,而不是「樣本」的平均值和標準差。

正規化(Normalization、Feature Scaling、歸一化)

把數字轉換成介於零與一之間的數字,等比例轉換。

(原始數字 – 最小值)/ (最大值 – 最小值)

歸一化之後的值,介於0與1之間,大部分的值都是分數。

另一種類似的歸一化,是均值歸一化,

(原始數字 – 平均數)/ (最大值 – 最小值)

這種算法,值是介於1和-1之間。

這兩種基於最大值和最小值的歸一化都有一個缺點,就是最大值、最小值如果根據樣本來看,是會變化的。

Posted on 2021年11月19日, in 統計學, 機器學習. Bookmark the permalink. 發表留言.

發表留言