一、概率論基礎(chǔ)
ML中的概率論基礎(chǔ)概念
不確定性產(chǎn)生的三種來源:
(1)建模系統(tǒng)存在隨機(jī)性
(2)不完全觀測(cè): 確定的系統(tǒng),但是觀測(cè)值不完全,因?yàn)橛行┲禃r(shí)不可能完全觀測(cè)到的。
(3)不完全建模:可以理解建模時(shí)候,舍棄的部分值導(dǎo)致了模型預(yù)測(cè)時(shí)出現(xiàn)的不確定性
隨機(jī)變量可以使離散的和連續(xù)的。例如:
離散隨機(jī)變量:觀測(cè)天氣狀態(tài)x, x可以是(多云、晴天,雷暴天氣)定量數(shù)據(jù)
連續(xù)隨機(jī)變量:統(tǒng)計(jì)抽煙人群年齡x, x可以是 [15, 65] 區(qū)間的任一值
概率分布
(1)離散型隨機(jī)變量 + 概率質(zhì)量函數(shù)
離散型隨機(jī)變量的概率分布使用概率質(zhì)量函數(shù)(PMF)來表示,用字母P來表示,則有P(x)
函數(shù)P是x的概率質(zhì)量函數(shù)必須滿足以下條件:
A、P定義域是x的所有可能狀態(tài): 如x的可能狀態(tài)為(x1,x2,x3),恰好 (x1,x2,x3)是P的整個(gè)定義域
B、任意x,有 0 ≤ P(x)≤ 1 : P(x) = 0, 表示不會(huì)發(fā)生;P(x) = 1表示一定發(fā)生。P的值域必須處于[0,1] 之間
C、x的所有狀態(tài)的概率和為1 (歸一化). P(X=x1) +P(X=x1) + ... + P(X=xn) = 1
(2)連續(xù)型隨機(jī)變量 + 概率密度函數(shù)
連續(xù)型隨機(jī)變量用概率密度函數(shù)(PDF)表示, 用p(小寫)表示
函數(shù)p是x的 概率密度函數(shù)必須滿足以下條件:
A、P定義域是x的所有可能狀態(tài)
B、任意x, p(x) ≥0。 (不要求 p(x) ≤ 1)
假設(shè)x落在區(qū)間[a,b]上, 可以通過對(duì)概率密度函數(shù)求導(dǎo)得到概率真實(shí)值:
(3)聯(lián)合概率分布:概率質(zhì)量函數(shù)可以同時(shí)作用于多個(gè)隨機(jī)變量的, 如P(X=x, Y=y)表示x和y同時(shí)發(fā)生的概率
邊緣概率
邊緣概率是針對(duì)于聯(lián)合概率分布,用于了解一個(gè)子集的概率分布,其計(jì)算方式就是針對(duì)某個(gè)隨機(jī)變量求導(dǎo),如下:
計(jì)算聯(lián)合概率分布P(X=x, Y=y) :
對(duì)任意x, 都有:
相當(dāng)于對(duì)于
條件概率
條件概率在統(tǒng)計(jì)學(xué)里這樣描述的,在事件B發(fā)生的條件下,事件A發(fā)生的概率,表示為 P( B | A)。
統(tǒng)計(jì)學(xué)中的表示方法:
P(A | B) = P(A B) / P(B) = P(A U B)/ P(B), 表示 A在B條件下發(fā)生的概率= AB共同發(fā)生的概率 / B 發(fā)生的概率。 P(AB)表示A和B同時(shí)發(fā)生的概率。
ML中的表示:
獨(dú)立性:如果事件A和事件B同時(shí)發(fā)生的概率 = 事件A發(fā)生的概率 × 事件B發(fā)生的概率,那么成事件A和事件B是相互獨(dú)立的
P(AB) = P(A)P(B)
對(duì)于任意x和y,有如下式子:
條件獨(dú)立性 : 給定事件C發(fā)生概率的條件下, 事件A和事件B同時(shí)發(fā)生的概率 = 事件C條件下,A發(fā)生的概率 × 事件C條件下,B發(fā)生的概率,那么說明事件A和事件B在給定事件C下條件獨(dú)立。
P(A,B |C) = P(A|C) P(B|C)
P(a, b, c) = P(a | b, c) * P(b, c)
= P(a | b, c) * P(b | c) * P(c)
貝葉斯定理(樸素貝葉斯算法那有介紹):
已知 A在B條件下發(fā)生的概率 P(A | B), B發(fā)生的概率P(B), 求 P(B | A)發(fā)生的概率。
貝葉斯定理如下:
P(B | A) = P(A | B)·P(B) / P(A)
期望、方差和協(xié)方差
離散型隨機(jī)變量:
連續(xù)型隨機(jī)變量:
令E(X)=μ1, E(Y)=μ2,那么x,y的協(xié)方差為:
cov(X,Y)= E((X-μ1) (Y-μ2))
cov(X,Y)= E(X·Y)- μ1μ2
若| cov(X,Y)| 很大,表示變量變化大,且各自距離均值很遠(yuǎn)。
cov(X,Y) > 0 , 兩個(gè)變量?jī)A向于 取較大值
cov(X,Y) < 0, 一個(gè)變量較大值,一個(gè)較小值,反之亦然。
ML常用概率分布
(1)伯努利分布:二值隨機(jī)變量分布,0-1分布。
P(x=0)= a, p(x=1) = 1-a
(2)多項(xiàng)式分布:
(3)高斯分布
正太分布又稱為 高斯分布
標(biāo)準(zhǔn)正態(tài)分布: μ=0, = 1的正態(tài)分布。
概率密度函數(shù), 其為一個(gè)鐘型曲線:
A、建模時(shí),很多真實(shí)情況比較接近正態(tài)分布。中心極限定理也說明很多隨機(jī)變量的和/均值等都服從正態(tài)分布
B、相同方差的所有可能概率分布中, 正態(tài)分布有最大的不確定性。 所以正態(tài)分布是先驗(yàn)知識(shí)最少的分布。噪聲較多的正態(tài)分布,其不確定性較高,如果模型能表現(xiàn)較好,那么說明模型魯棒性較高。
正態(tài)分布推廣到多維空間,就有多維正態(tài)分布
(4)指數(shù)分布和laplace分布(拉普拉斯分布):
二、信息論基礎(chǔ)
信息論基本想法:
一個(gè)不太可能發(fā)生的是發(fā)生了,要比非??赡馨l(fā)生的事,提供更多的信息
基本性質(zhì)
(1)、 非??赡馨l(fā)生的事信息量少,極端情況下,確保能夠發(fā)生的事件應(yīng)該無信息量
(2)、 較不可能發(fā)生的事,具有較高的信息量
(3)、 獨(dú)立事件應(yīng)具有增量的信息
定義與部分概念
定義(以e為底的自然對(duì)數(shù)) :
單位:奈特(1奈特= 1/e的概率觀測(cè)到一個(gè)事件所獲取的信息量)
公式:
一個(gè)分部的香農(nóng)熵是遵循這個(gè)分布的事件所產(chǎn)生的期望信息總量
若X為連續(xù)的, 香農(nóng)熵被稱為 微分熵
當(dāng)且僅當(dāng)兩個(gè)分布相同時(shí),散度為0。連續(xù)型隨機(jī)變量,“幾乎處處”是相同的分布。