免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
【機(jī)器學(xué)習(xí)基礎(chǔ)】深入淺出經(jīng)典貝葉斯統(tǒng)計(jì)

貝葉斯統(tǒng)計(jì)

概率的類(lèi)型

假設(shè)  為  數(shù)據(jù)對(duì)象的值 , 的相關(guān)頻率為 ,其中N表示總的出現(xiàn)次數(shù)().

一個(gè)事件  的概率為 ,代表事件  發(fā)生的可能性有多大。

我們通過(guò)在  范圍內(nèi)為某個(gè)空間中的結(jié)果(事件)集分配一個(gè)數(shù)值概率來(lái)構(gòu)造一個(gè)概率空間。

當(dāng)結(jié)果是一個(gè)不確定但可重復(fù)的過(guò)程的結(jié)果時(shí),概率總是可以通過(guò)簡(jiǎn)單地觀(guān)察多次過(guò)程的重復(fù)并計(jì)算每個(gè)事件發(fā)生的頻率來(lái)衡量。這些頻率概率可以很好地陳述客觀(guān)現(xiàn)實(shí)。如

  • 電子自旋是1/2。
  • 希格斯粒子的質(zhì)量在124到126 GeV之間。
  • 現(xiàn)在宇宙中暗能量的比例在68%到70%之間。
  • 超導(dǎo)體Hg-1223的臨界溫度超過(guò)130K。

如果我們假設(shè)這些是通用的常數(shù),而這些常數(shù)不會(huì)因?yàn)槟阈枰獪y(cè)量過(guò)程而得到不同的結(jié)果。這決定了我們最感興趣的陳述不能被賦予頻率統(tǒng)計(jì)的概率。

然而,如果我們也允許概率來(lái)衡量在陳述中的主觀(guān)的'信仰程度',那么就可以使用概率論的完整機(jī)制來(lái)討論更有趣的陳述。這些被稱(chēng)為貝葉斯概率。

貝葉斯概率是由貝葉斯理論所提供的一種對(duì)概率的解釋?zhuān)捎脤⒏怕识x為某人對(duì)一個(gè)命題信任的程度的概念

最傳統(tǒng)的概率理論是基于事件的相對(duì)頻率(頻率),而貝葉斯觀(guān)點(diǎn)更加靈活地看待概率。在任何情況下,概率總是介于0和1之間,所有可能事件的概率值的總和等于1。

貝葉斯概率和頻率概率相對(duì),它從確定的分布中觀(guān)測(cè)到的頻率或者在樣本空間中的比例來(lái)導(dǎo)出概率。粗略描述兩種概率統(tǒng)計(jì)是:

  • 頻率統(tǒng)計(jì): 無(wú)趣陳述的客觀(guān)概率。
  • 貝葉斯統(tǒng)計(jì): 有趣陳述的主觀(guān)概率。

貝葉斯聯(lián)合概率

離散隨機(jī)變量的聯(lián)合分布

對(duì)離散隨機(jī)變量而言,聯(lián)合分布概率質(zhì)量函數(shù)為 ,即

因?yàn)槭歉怕史植己瘮?shù),所以必須有

連續(xù)隨機(jī)變量的聯(lián)合分布

類(lèi)似地,對(duì)連續(xù)隨機(jī)變量而言,聯(lián)合分布概率密度函數(shù)為 ,其中  和  分別代表  時(shí) 的條件分布以及  時(shí)  的條件分布; 和  分別代表和的邊緣分布。

同樣地,因?yàn)槭歉怕史植己瘮?shù),所以必須有

獨(dú)立變量的聯(lián)合分布

對(duì)于兩相互獨(dú)立的事件  及 ,任意x和y而言有離散隨機(jī)變量 ,或者有連續(xù)隨機(jī)變量  。

貝葉斯統(tǒng)計(jì)從聯(lián)合概率分布開(kāi)始

括號(hào)內(nèi)分別是數(shù)據(jù)特征 ,模型參數(shù)  和超參數(shù) 。 上的下標(biāo)是為了提醒我們,通常所使用的參數(shù)集依賴(lài)于超參數(shù)(例如,增加n_components為新組件添加參數(shù))。有時(shí)我們將這個(gè)  對(duì)稱(chēng)為模型。

這個(gè)聯(lián)合概率意味著模型參數(shù)和超參數(shù)都是隨機(jī)變量,這意味著它們標(biāo)記了潛在概率空間中的可能結(jié)果。

可能性

可能性  是模型參數(shù) (給定超參數(shù) )和數(shù)據(jù)特征  的函數(shù),度量模型給定的觀(guān)測(cè)數(shù)據(jù)的概率(密度)。例如,高斯混合模型有如下可能性函數(shù):

參數(shù)  為:

及超參數(shù) 。注意,對(duì)于任何(固定)參數(shù)和超參數(shù)的值,可能性必須在數(shù)據(jù)上進(jìn)行標(biāo)準(zhǔn)化。而不是在參數(shù)或超參數(shù)上標(biāo)準(zhǔn)化的。

可能性度函數(shù)在頻率統(tǒng)計(jì)和貝葉斯統(tǒng)計(jì)中都起著核心作用,但是他們使用和解釋的方式不同,這里主要討論貝葉斯的觀(guān)點(diǎn),其中  和  是隨機(jī)變量,可能性函數(shù)與條件概率相關(guān)。

條件概率的表示在給定模型  的情況下,觀(guān)察特征 。

貝葉斯定理

貝葉斯定理是概率論中的一個(gè)定理,描述在已知一些條件下,某事件的發(fā)生概率。

比如,如果已知某人媽媽得癌癥與壽命有關(guān),使用貝葉斯定理則可以通過(guò)得知某人年齡,來(lái)更加準(zhǔn)確地計(jì)算出他媽媽罹患癌癥的概率。

通常,事件A在事件B已發(fā)生的條件下發(fā)生的概率,與事件B在事件A已發(fā)生的條件下發(fā)生的概率是不一樣的。然而,這兩者是有確定的關(guān)系的,貝葉斯定理就是這種關(guān)系的陳述。貝葉斯公式的一個(gè)用途,即透過(guò)已知的三個(gè)概率而推出第四個(gè)概率。貝葉斯定理跟隨機(jī)變量的條件概率以及邊際概率分布有關(guān)。

我們將可能性與條件概率聯(lián)系起來(lái),我們就可以應(yīng)用概率演算的早期規(guī)則(2 & 3)來(lái)推導(dǎo)廣義貝葉斯規(guī)則:

上面的每一項(xiàng)都有一個(gè)名稱(chēng),測(cè)量不同的概率:

  1. 后驗(yàn)概率:  是給定數(shù)據(jù)  和超參數(shù)  的參數(shù)值  的條件概率。
  2. 可能性:  是給出模型  的數(shù)據(jù)  的概率,又稱(chēng)為模型  的似然。
  3. 先驗(yàn)概率:  是給定超參數(shù)的模型參數(shù)的概率,并且在所有可能的數(shù)據(jù)上被邊緣化。
  4. 證據(jù):  是給出超參數(shù)的數(shù)據(jù)的概率,并且在給出超參數(shù)的所有可能的參數(shù)值上被邊緣化

在典型的推理問(wèn)題中,(1)后驗(yàn)概率是我們真正關(guān)心的,而(2)似然是我們知道如何計(jì)算的。(3)先驗(yàn)概率是我們必須量化我們對(duì)宇宙不同可能的主觀(guān)'信仰程度'。

(4)證據(jù)呢?利用前面的概率計(jì)算法則,我們發(fā)現(xiàn)(4)可以由(2)和(3)計(jì)算出來(lái):

通過(guò)選擇適合的先驗(yàn)概率函數(shù)和可能性函數(shù),這個(gè)積分可以通過(guò)解析來(lái)執(zhí)行求解。然而,對(duì)于大多數(shù)實(shí)際工作來(lái)說(shuō),需要用近似的數(shù)值方法來(lái)計(jì)算復(fù)雜的分布。這類(lèi)常用的方法有馬爾可夫鏈蒙特卡羅變分推理。

先驗(yàn)信息選擇問(wèn)題

優(yōu)先權(quán)的選擇必然是主觀(guān)的,有時(shí)還會(huì)引起爭(zhēng)議。盡管如此,這里總結(jié)了如下一般準(zhǔn)則:

  • 從信息性實(shí)驗(yàn)中得出的數(shù)據(jù)推論對(duì)你的先驗(yàn)選擇不是很敏感。
  • 如果你的(后驗(yàn))結(jié)果對(duì)你選擇的先驗(yàn)是敏感的,此時(shí)你需要更多(或更好的)數(shù)據(jù)。

對(duì)于先驗(yàn) ,我們使用beta分布[4],它由超參數(shù)  和  指定:

其中  是Gamma函數(shù)[5]與階乘  相關(guān)的。

該函數(shù)提供了一個(gè)二項(xiàng)式過(guò)程的先驗(yàn)(或后驗(yàn)),對(duì)應(yīng)于先前(或更新)的測(cè)量值,該二項(xiàng)式共有  次過(guò)程,并在這些試驗(yàn)中,有  次通過(guò), 次不通過(guò)。

下面定義函數(shù)binomial_learn函數(shù)計(jì)算并繪制先驗(yàn)概率、可能性及后驗(yàn)概率曲線(xiàn)。

def binomial_learn(prior_a, prior_b, n_obs, n_pass):
   '''
   prior_a, prior_b: 超參數(shù)a和b
   n_obs:觀(guān)察或測(cè)量次數(shù)
   n_pass:通過(guò)樣本數(shù)
   '''
    theta = np.linspace(0, 1, 100)
    # 計(jì)算和繪制關(guān)于theta的先驗(yàn)概率。
    prior = scipy.stats.beta(prior_a, prior_b)
    plt.fill_between(theta, prior.pdf(theta), alpha=0.25)
    plt.plot(theta, prior.pdf(theta), label='Prior')
    # 計(jì)算并繪制給定任意theta的固定數(shù)據(jù)的可能性。
    likelihood = scipy.stats.binom.pmf(n_pass, n_obs, theta)
    plt.plot(theta, likelihood, 'k:', label='Likelihood')
    # 根據(jù)觀(guān)測(cè)數(shù)據(jù)計(jì)算并繪制后驗(yàn)曲線(xiàn)。
    posterior = scipy.stats.beta(prior_a + n_pass, prior_b + n_obs - n_pass)
    plt.fill_between(theta, posterior.pdf(theta), alpha=0.25)
    plt.plot(theta, posterior.pdf(theta), label='Posterior')
    plt.legend(bbox_to_anchor=(0., 1.02, 1., .102), loc=3,
               ncol=3, mode='expand', borderaxespad=0., fontsize='large')
    plt.ylim(0, None)
    plt.xlim(theta[0], theta[-1])
    plt.xlabel('Pass fraction $\\theta$')

通過(guò)圖形實(shí)例回答如下問(wèn)題

Q1: 在你的研究領(lǐng)域想一個(gè)問(wèn)題,這個(gè)問(wèn)題適用于這個(gè)推理問(wèn)題。

Q2: 使用超參數(shù) ,從2個(gè)觀(guān)測(cè)中推斷 。

  • 根據(jù)觀(guān)察數(shù)據(jù)解釋為什么后驗(yàn)是合理的。
  • 什么值  是絕對(duì)排除的數(shù)據(jù)?這有意義嗎?
  • 這三個(gè)量是如何標(biāo)繪的?

Q3: 用  代替 ,從相同的2次觀(guān)察中推斷 。

  • 根據(jù)觀(guān)察數(shù)據(jù),后驗(yàn)仍然合理嗎?解釋你的推理。
  • 你如何在這兩種主觀(guān)的先驗(yàn)中做出選擇?

Q4: 使用上面的每個(gè)先驗(yàn)均不同的數(shù)據(jù): 100個(gè)試驗(yàn)中有60個(gè)通過(guò)。

  • 先驗(yàn)和可能性的相對(duì)重要性如何隨著更好的數(shù)據(jù)而變化?
  • 為什么現(xiàn)在的可能性值這么小?
binomial_learn(prior_a=1, prior_b=1, n_obs=2, n_pass=1)

后驗(yàn)概率峰值是在觀(guān)察到的平均通過(guò)率為1/2處。這顯然是合理的,因?yàn)槲覀冎蛔隽藘蓚€(gè)觀(guān)察。

絕對(duì)排除0和1,因?yàn)槲覀円呀?jīng)觀(guān)察到1個(gè)通過(guò)和1個(gè)不通過(guò)。

先驗(yàn)概率、后驗(yàn)概率及可能性是標(biāo)準(zhǔn)化的 ,所以它們?cè)趫D中的面積是1。而因所有可能的數(shù)據(jù)的可能性也都是標(biāo)準(zhǔn)化的,所以他們?cè)谶@個(gè)圖中面積沒(méi)有1。

binomial_learn(5, 10, 2, 1)

當(dāng)用  代替  后,

后驗(yàn)概率的峰值在遠(yuǎn)離平均觀(guān)察通過(guò)率的1/2處。如果繼續(xù)相信先驗(yàn)信息,這也是合理的,因?yàn)樵谙鄬?duì)于沒(méi)有任何信息的數(shù)據(jù)中,貝葉斯定理告訴我們,它應(yīng)該占據(jù)我們對(duì)  的知識(shí)。
另一方面,如果我們不能證明為什么這個(gè)先驗(yàn)比之前的平坦分布的先驗(yàn)更加可信,那么我們必須得出這樣的結(jié)論: 的值是未知的,這些數(shù)據(jù)也是沒(méi)有任何幫助的。

如果在之前的13次【】實(shí)驗(yàn)中觀(guān)察到4次【】通過(guò),那么新的先驗(yàn)概率是非常合理的。然而,如果從未觀(guān)察到這個(gè)過(guò)程,并且沒(méi)有理論偏見(jiàn),那么原來(lái)的平坦分布的先驗(yàn)是合理的。

接下來(lái)增加觀(guān)察次數(shù),即增加數(shù)據(jù)量。

binomial_learn(1, 1, 100, 60)
binomial_learn(5, 10, 100, 60)

數(shù)據(jù)越多,先驗(yàn)的影響就越小。

且可能性值更大,因?yàn)橛懈嗟目赡芙Y(jié)果(通過(guò)或不通過(guò))與更多的觀(guān)測(cè)值,所以任何一個(gè)結(jié)果變得相對(duì)不太可能。

貝葉斯網(wǎng)絡(luò)

貝葉斯網(wǎng)絡(luò)(Bayesian network),又稱(chēng)信念網(wǎng)絡(luò)(belief network)或是有向無(wú)環(huán)圖模型(directed acyclic graphical model),是一種概率圖型模型,借由有向無(wú)環(huán)圖(directed acyclic graphs, or DAGs)中得知一組隨機(jī)變量  及其  組條件概率分布的性質(zhì)。

舉例而言,貝葉斯網(wǎng)絡(luò)可用來(lái)表示疾病和其相關(guān)癥狀間的概率關(guān)系;倘若已知某種癥狀下,貝葉斯網(wǎng)絡(luò)就可用來(lái)計(jì)算各種可能罹患疾病之發(fā)生概率。

一般而言,貝葉斯網(wǎng)絡(luò)的有向無(wú)環(huán)圖中的節(jié)點(diǎn)表示隨機(jī)變量,它們可以是可觀(guān)察到的變量,抑或是隱變量、未知參數(shù)等。

連接兩個(gè)節(jié)點(diǎn)的箭頭代表此兩個(gè)隨機(jī)變量是具有因果關(guān)系或是非條件獨(dú)立的;而兩個(gè)節(jié)點(diǎn)間若沒(méi)有箭頭相互連接一起的情況就稱(chēng)其隨機(jī)變量彼此間為條件獨(dú)立。若兩個(gè)節(jié)點(diǎn)間以一個(gè)單箭頭連接在一起,表示其中一個(gè)節(jié)點(diǎn)是“(parents)”,另一個(gè)是“(descendants or children)”,兩節(jié)點(diǎn)就會(huì)產(chǎn)生一個(gè)條件概率值。

貝葉斯網(wǎng)絡(luò)是用于建模屬性和類(lèi)別標(biāo)簽之間的概率關(guān)系。通過(guò)建立概率論和圖倫的概念,貝葉斯網(wǎng)絡(luò)能夠捕獲更簡(jiǎn)單的條件獨(dú)立形式,使用簡(jiǎn)單的示意進(jìn)行表示。他們還提供了必要的計(jì)算結(jié)構(gòu),以有效的方式對(duì)隨機(jī)變量執(zhí)行推斷。

概率圖模型

貝葉斯網(wǎng)絡(luò)術(shù)語(yǔ)捕獲隨機(jī)變量之間的概率關(guān)系的模型,被稱(chēng)為概率圖模型(probabilistic graphical model)。這些模型背后的基本概念是使用圖表示,其中圖的節(jié)點(diǎn)對(duì)應(yīng)于隨機(jī)變量,節(jié)點(diǎn)之間的邊緣表示概率關(guān)系。

我們從貝葉斯聯(lián)合概率開(kāi)始:

當(dāng)一個(gè)函數(shù)有數(shù)據(jù)特征 ,模型參數(shù)  和超參數(shù) ,這個(gè)函數(shù)通常是一個(gè)非常高維的函數(shù)。

在最普遍的情況下,聯(lián)合概率需要大量的數(shù)據(jù)來(lái)估計(jì)。然而,許多問(wèn)題可以用聯(lián)合概率(通過(guò)假設(shè)一些隨機(jī)變量是相互獨(dú)立的)來(lái)(近似)描述。

概率圖模型是隨機(jī)變量之間假定的直接依賴(lài)關(guān)系的一種方便的可視化方法。

例如,假設(shè)我們有兩個(gè)參數(shù) ,并且沒(méi)有超參數(shù),那么聯(lián)合概率  可以利用概率演算的規(guī)則,以不同的方式展開(kāi)成條件的乘積:

或者

對(duì)應(yīng)的圖表為:

讀這些圖的方法是:一個(gè)標(biāo)記為  的節(jié)點(diǎn)表示聯(lián)合概率中的(乘性)因子 ,其中  列出了其他節(jié)點(diǎn)的箭頭指向該節(jié)點(diǎn)(以任何順序,根據(jù)概率微積分規(guī)則1)。陰影節(jié)點(diǎn)表示直接觀(guān)察到的隨機(jī)變量(即數(shù)據(jù)),而非陰影節(jié)點(diǎn)表示(未觀(guān)察到的)潛在隨機(jī)變量。

這些圖都描述了具有兩個(gè)參數(shù)的聯(lián)合概率。建立具有任意參數(shù)的聯(lián)合概率的規(guī)則為:

  • 選擇參數(shù)(任意)的順序。
  • 第一個(gè)參數(shù)的節(jié)點(diǎn)箭頭指向所有其他節(jié)點(diǎn)(包括數(shù)據(jù))。
  • 第n個(gè)參數(shù)的節(jié)點(diǎn)箭頭指向所有后面的參數(shù)節(jié)點(diǎn)和數(shù)據(jù)。

有了  參數(shù),就有  可能的圖,潛在依賴(lài)關(guān)系的數(shù)量隨著  迅速增長(zhǎng)。

為了減輕這種階乘增長(zhǎng),我們尋找不互相依賴(lài)的隨機(jī)變量對(duì)。例如,在兩個(gè)參數(shù)的情況下:

請(qǐng)注意每個(gè)圖是如何描述一個(gè)不同的故事的。例如,第一個(gè)圖告訴我們,只知道  就可以預(yù)測(cè)數(shù)據(jù),但是我們對(duì)  的先驗(yàn)知識(shí)依賴(lài)于 。因此,實(shí)際上,簡(jiǎn)化聯(lián)合概率涉及到繪制一個(gè)圖表,為數(shù)據(jù)和模型講述一個(gè)合適的故事。

從案例中理解貝葉斯網(wǎng)絡(luò)

考慮觀(guān)察某人扔一個(gè)球,并測(cè)量它落地的距離,以推斷重力的強(qiáng)度:

  • 數(shù)據(jù)是測(cè)量范圍 。
  • 參數(shù)是球的初始速度  和角度  以及重力的強(qiáng)度 。
  • 超參數(shù)是球的直徑  和風(fēng)速 。

畫(huà)一個(gè)圖例來(lái)說(shuō)明這個(gè)推斷的聯(lián)合概率

假設(shè)投擲者總是盡可能地用力投擲,然后根據(jù)風(fēng)向調(diào)整角度。畫(huà)一個(gè)圖來(lái)表示這個(gè)簡(jiǎn)單的聯(lián)合概率中的直接依賴(lài)關(guān)系。

寫(xiě)出對(duì)這個(gè)推理問(wèn)題感興趣的后驗(yàn)。

我們對(duì)這個(gè)推論最感興趣的后驗(yàn)是

但更完整的后驗(yàn)為

這兩個(gè)式子的不同之處在于,在第一種情況中,我們忽略了'討厭的'參數(shù) 。


這些圖中的箭頭定義了條件依賴(lài)關(guān)系的方向。它們通常反映了潛在物理系統(tǒng)的因果影響,具有有向邊的概率圖被稱(chēng)為貝葉斯網(wǎng)絡(luò)

也可以在沒(méi)有指定方向的情況下,繪制對(duì)稱(chēng)連接節(jié)點(diǎn)的圖。這些被稱(chēng)為馬爾可夫隨機(jī)場(chǎng)馬爾可夫網(wǎng)絡(luò),當(dāng)依賴(lài)關(guān)系在兩個(gè)方向或一個(gè)未知方向流動(dòng)時(shí)適用。你可以閱讀更多相關(guān)信息馬爾可夫網(wǎng)絡(luò)[6].

貝葉斯網(wǎng)絡(luò)的特點(diǎn)

  1. 給定屬性和類(lèi)別標(biāo)簽之間的概率關(guān)系,貝葉斯網(wǎng)絡(luò)提供了表示圖模型的方法。
  2. 貝葉斯網(wǎng)絡(luò)可以輕松處理相關(guān)或冗余屬性的存在。
  3. 貝葉斯網(wǎng)絡(luò)對(duì)不包含類(lèi)別標(biāo)簽對(duì)判別信息的不相關(guān)屬性具有魯棒性。
  4. 貝葉斯網(wǎng)絡(luò)由于表示復(fù)雜形式的關(guān)系的能力,更加容易過(guò)擬合,因此需要更多的訓(xùn)練實(shí)例來(lái)有效地學(xué)習(xí)概率表。

參考資料

[1] 

貝葉斯統(tǒng)計(jì): https://github.com/dkirkby/MachineLearningStatistics

[2] 

估算德國(guó)坦克的生產(chǎn)速度: https://en.wikipedia.org/wiki/German_tank_problem

[3] 

The Theory That Would Not Die: https://www.amazon.com/Theory-That-Would-Not-Die/dp/0300188226

[4] 

beta分布: https://en.wikipedia.org/wiki/Beta_distribution

[5] 

Gamma函數(shù): https://en.wikipedia.org/wiki/Gamma_function

[6] 

馬爾可夫網(wǎng)絡(luò): https://en.wikipedia.org/wiki/Markov_random_field

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
通俗理解LDA主題模型
CMU-10707 第七、八講 概率圖模型
貝葉斯網(wǎng)絡(luò),看完這篇我終于理解了(附代碼)!
貝葉斯機(jī)器學(xué)習(xí):經(jīng)典模型與代碼實(shí)現(xiàn)
最大似然估計(jì)、貝葉斯估計(jì)兩類(lèi)參數(shù)估計(jì)的對(duì)比
參數(shù)估計(jì):最大似然估計(jì)、貝葉斯估計(jì)與最大后驗(yàn)估計(jì)
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服