數據的預處理 – 標準化和正規化

十一月 19

Posted by Dylan Wan

數據預處理（Data Preparation）是機器學習的步驟之一。

但是有些觀念是統計學的，沒有要做機器學習可能也會用到。

不同的變量他們的【數值的範圍】不同。

當用他們來做預測或推論其他的變量，【數值的範圍】會影響到預測結果。

標準化（Standardization、Z-Score ，Z值）

又叫做Z-Score 、Z值。

（原始數字 – 平均數）/ 標準差

最後算出來的值有正有負，數值代表【這個數字到距離平均數之間距離】是幾個標準差

如果是常態分佈，這個值可以用來判斷原來的數字是不是很偏（偏離值，Outlier），還是接近平均數。

算出的Z-Score ，它的平均值是零。標準差是1.

他的值的範圍不一定，但是如果是常態分配，大概介於正負3個標準差之間。

計算Z值時需要「母體」的平均值和標準差，而不是「樣本」的平均值和標準差。

正規化（Normalization、Feature Scaling、歸一化）

把數字轉換成介於零與一之間的數字，等比例轉換。

（原始數字 – 最小值）/ （最大值 – 最小值）

歸一化之後的值，介於0與1之間，大部分的值都是分數。

另一種類似的歸一化，是均值歸一化，

（原始數字 – 平均數）/ （最大值 – 最小值）

這種算法，值是介於1和-1之間。

這兩種基於最大值和最小值的歸一化都有一個缺點，就是最大值、最小值如果根據樣本來看，是會變化的。

Posted on 2021年11月19日, in 統計學, 機器學習. Bookmark the permalink. 發表留言.

發表留言
Comments 0

從 BI 到 AI 商業應用

學習【商業智慧】與【人工智慧】

數據的預處理 – 標準化和正規化

標準化（Standardization、Z-Score ，Z值）

正規化（Normalization、Feature Scaling、歸一化）

發表留言

Comments 0

發表留言取消回覆

近期文章

文章存檔

分類

其它

近期迴響

從 BI 到 AI 商業應用

學習 【商業智慧】 與 【人工智慧】

數據的預處理 – 標準化和正規化

標準化（Standardization、Z-Score ，Z值）

正規化（Normalization、Feature Scaling、歸一化）

分享此文：

相關

發表留言

Comments 0

發表留言 取消回覆

近期文章

文章存檔

分類

其它

近期迴響

學習【商業智慧】與【人工智慧】

發表留言取消回覆