Monthly Archives: 九月 2021

自變數和依變數

在統計以及實驗設計中,變數可以分類為自變數和依變數。

研究統計學的人有興趣變數之間的關係。例如發展出迴歸分析的Francis Galton,當時他研究的是父母的身高和子女的身高的關係。

自變數(Independent Variable)也叫獨立變數,在因果關係裡,是不被影響的變數。

依變數(Dependent Variable)或稱之為因變數,或是應變數,是被假設為會被影響的變數。

Read the rest of this entry

重新複習線性代數

這個影片有談到他是如何學習線性代數。

Read the rest of this entry

用numpy擷取子矩陣和向量

我用的例子是來自 【均一教育】的子矩陣和向量的教學。

下面的python程式用numpy把例子跑過一遍:

import numpy as np
## 誠品書局一月到六月,產品銷售額
誠品銷售額 = np.array(
           [[8,9,7,10,6,7],
            [20,31,33,28,21,35],
            [64,68,55,49,66,52]])
## 這是一個 3 x 6 的矩陣
誠品銷售額.shape
# 可以取一個子矩陣

# 冒號是從A到B的「到」,如果左邊沒有寫出,就是從第一個開始,右邊沒寫出,就是最後一個
# 第一個寫的是橫列,因為我們要所有的橫列,就用一個單獨的冒號來代表
# 第二個寫的是要抽出的直行,在numpy,矩陣的index是由0開始,所以一月是0而二、三、四月是1到3
# 要擷取時 Numpy的結尾是不包括在內的,所以要寫4,而不是3。

誠品銷售額[:,1:4]
Read the rest of this entry

矩陣與向量

複習矩陣和向量在數學上的定義,可以作為學習Numpy的基礎。

這幾個高中課程介紹的不錯:

1. 矩陣的意義

這個課程用了很實用的商業實例來解釋矩陣。

名詞:

  • 矩陣(Matrix):方形的數字陣列
  • 行(Column)
  • 列(Row)
  • 矩陣的大小用m x n (橫列數 x 直行數)來表示

這幾個名稱應該要記起來。

Read the rest of this entry

把不同的聲音在吵雜的環境中區分開來

一般機器學習,是如此分類:

  • 監督式學習(supervised learning)
    • 數字:迴歸(Regression)
    • 文字:分類(Classification)
  • 非監督式學習(unsupervised learning)
    • 集群分析(clustering)
    • 非集群(non-clustering):雞尾酒會(cocktail party problem)

這個影片在解釋,什麼是雞尾酒會問題:

Read the rest of this entry

Numpy和Pandas

數據科學家很常用的工具,就是Numpy和Pandas。這兩個是Python的程式庫。

  • Numpy是Num (Numeric 數字) + Py(Python)的簡稱。原本專門處理數字的。它有很多專門處理數字的程序庫
  • Pandas 是從 Panel Data 一詞而來。Panel Data 平行數據是計量經濟學的詞彙,指的是「在時間數列上去多個截面(Snapshot),然後再這些時間點上,選取觀察值所得到的數據」,從數據科學的工具來看,這是一種多維度的數據處理工具。

Pandas從R語言中擷取了許多的觀念,將其重新在Python的語言中實踐。