專題11 統(tǒng)計
易錯點1 不能正確區(qū)分總體、樣本、樣本容量
易錯點2 對隨機抽樣的概念理解不透徹
1.簡單隨機抽樣是不放回抽樣,抽樣過程中,每個個體被抽到的機會(概率)相等.
2.應(yīng)用簡單隨機抽樣應(yīng)注意的問題:
(1)一個抽樣試驗?zāi)芊裼贸楹灧?,關(guān)鍵看兩點:
一是抽簽是否方便;
二是號簽是否易攪勻.
一般地,當(dāng)總體容量和樣本容量都較小時可用抽簽法.
(2)在使用隨機數(shù)表時,如遇到三位數(shù)或四位數(shù)時,可從選擇的隨機數(shù)表中的某行某列的數(shù)字計起,每三個或四個作為一個單位,自左向右選取,有超過總體號碼或出現(xiàn)重復(fù)號碼的數(shù)字舍去.
(3)簡單隨機抽樣需滿足:
①被抽取的樣本總體的個體數(shù)有限;
②逐個抽取;
③是不放回抽取;
④是等可能抽取.
簡單隨機抽樣是逐個抽取,而題中是一次性抽??;④不是簡單隨機抽樣,原因是個子最高的5名同學(xué)是56名同學(xué)中特定的,不存在隨機性,不是等可能抽樣.
故選擇D.
【名師點睛】簡單隨機抽樣的特征
要判斷所給的抽樣方法是否是簡單隨機抽樣,關(guān)鍵是看它們是否符合簡單隨機抽樣的定義,即簡單隨機抽樣的四個特點:有限性、逐一性、不放回性、等可能性.
①有限性:簡單隨機抽樣要求被抽取的樣本的總體個數(shù)是有限的,便于通過樣本對總體進行分析.
②逐一性:簡單隨機抽樣是從總體中逐個地進行抽取,便于實踐中操作.
③不放回性:簡單隨機抽樣是一種不放回抽樣,便于進行有關(guān)的分析和計算.
④等可能性:簡單隨機抽樣中各個個體被抽到的機會都相等,從而保證了抽樣方法的公平性.
易錯點3 對系統(tǒng)抽樣的特點理解不到位
易錯點4 對個體的入樣可能性與抽樣間隔理解不透
1.明確系統(tǒng)抽樣的操作要領(lǐng)
系統(tǒng)抽樣操作要領(lǐng)是先將個體數(shù)較多的總體分成均衡的若干部分,然后按照預(yù)先指定的規(guī)則,從每一部分中抽取一個個體,得到所需樣本.系統(tǒng)抽樣是等距離抽樣,每個個體被抽到的機會是相等的,如本題中2000人要分為50段.
2.對系統(tǒng)抽樣合理分段
在系統(tǒng)抽樣過程中,為將整個編號分段,要確定分段間隔,當(dāng)在系統(tǒng)抽樣過程中比值不是整數(shù)時,要從總體中剔除一些個體(用簡單隨機抽樣),但每一個個體入樣的機會仍然相等.如本題中剔除14人后,每個人被抽取的可能性不變.
易錯點5 忽略分層抽樣的特點
1.分層抽樣的前提和遵循的兩條原則
(1)前提:分層抽樣使用的前提是總體可以分層,層與層之間有明顯區(qū)別,而層內(nèi)個體間差異較小,每層中所抽取的個體數(shù)可按各層個體數(shù)在總體的個體數(shù)中所占比例抽取.
(2)遵循的兩條原則:
①將相似的個體歸入一類,即為一層,分層要求每層的各個個體互不交叉,即遵循不重復(fù)、不遺漏的原則;
②分層抽樣為保證每個個體等可能入樣,需遵循在各層中進行簡單隨機抽樣,每層樣本數(shù)量與每層個體數(shù)量的比等于抽樣比.
2.與分層抽樣有關(guān)問題的常見類型及解題策略:
(1)求某一層的樣本數(shù)或總體個數(shù).可依據(jù)題意求出抽樣比,再由某層總體個數(shù)(或樣本數(shù))確定該層的樣本(或總體)數(shù).
(2)求各層的樣本數(shù).可依據(jù)題意,求出各層的抽樣比,再求出各層樣本數(shù).
進行分層抽樣時應(yīng)注意以下幾點:
(1)分層抽樣中分多少層、如何分層要視具體情況而定,總的原則是層內(nèi)樣本的差異要小,兩層之間的樣本差異要大,且互不重疊.
(2)為了保證每個個體等可能入樣,所有層中每個個體被抽到的可能性相同.
(3)在每層抽樣時,應(yīng)采用簡單隨機抽樣或系統(tǒng)抽樣的方法進行抽樣.
易錯點6 誤將頻率分布直方圖的縱坐標(biāo)當(dāng)作頻率
1.畫頻率分布直方圖的步驟
(1)求極差(即一組數(shù)據(jù)中最大值與最小值的差);
(2)決定組距與組數(shù);
(3)將數(shù)據(jù)分組;
(4)列頻率分布表;
(5)畫頻率分布直方圖(以橫軸表示樣本分組,縱軸表示頻率與組距的比值).
2.頻率分布直方圖的性質(zhì)
(1)落在各小組內(nèi)的頻率用各小長方形的面積表示,且各小長方形的面積的和等于1.
(2)頻率分布直方圖與眾數(shù)、中位數(shù)與平均數(shù)的關(guān)系
①最高的小長方形中的某個(些)點的橫坐標(biāo)即是眾數(shù);
②中位數(shù)左邊和右邊的小長方形的面積和是相等的;
③平均數(shù)是頻率分布直方圖的“重心”,等于頻率分布直方圖中每個小長方形的面積乘以小長方形底邊中點的橫坐標(biāo)之和.
繪制頻率分布直方圖的注意事項:
(1)計算極差,需要找出這組數(shù)的最大值和最小值,當(dāng)數(shù)據(jù)很多時,可選一個數(shù)當(dāng)參照.
(2)將一批數(shù)據(jù)分組,目的是要描述數(shù)據(jù)分布規(guī)律,要根據(jù)數(shù)據(jù)多少來確定分組數(shù)目,一般來說,數(shù)據(jù)越多,分組越多.
(3)將數(shù)據(jù)分組,決定分點時,一般使分點比數(shù)據(jù)多一位小數(shù),并且把第一組的起點稍微減小一點.
(4)列頻率分布表時,可通過逐一判斷各個數(shù)據(jù)落在哪個小組內(nèi),以“正”字確定各個小組內(nèi)數(shù)據(jù)的個數(shù).
(5)畫頻率分布直方圖時,縱坐標(biāo)表示頻率與組距的比值,一定不能標(biāo)成頻率.
頻率分布直方圖是用樣本估計總體的一種重要方法,是高考命題的一個熱點,多以選擇題或填空題的形式呈現(xiàn),試題難度不大,多為容易題或中檔題,且主要有以下幾個命題角度:
(1)已知頻率分布直方圖中的部分數(shù)據(jù),求其他數(shù)據(jù).可根據(jù)頻率分布直方圖中的數(shù)據(jù)求出樣本與總體的關(guān)系,利用頻率和等于1就可求出其他數(shù)據(jù).
(2)已知頻率分布直方圖,求某種范圍內(nèi)的數(shù)據(jù).可利用圖形及某范圍結(jié)合求解.
(3)與概率有關(guān)的綜合問題,可先求出頻率,再利用古典概型等知識求解.
易錯點7 對莖葉圖的畫法規(guī)則認識不夠
1.莖葉圖將所有兩位數(shù)的十位數(shù)字作為莖,個位數(shù)字作為葉,莖相同者共用一個莖,莖按從小到大的順序從上向下列出,共莖的葉可以按從大到小(或從小到大)的順序同行列出(也可以沒有大小順序).
2.繪制莖葉圖的關(guān)鍵是分清莖和葉.一般地說,當(dāng)數(shù)據(jù)是兩位數(shù)時,十位上的數(shù)字為“莖”,個位上的數(shù)字為“葉”;如果是小數(shù),通常把整數(shù)部分作為“莖”,小數(shù)部分作為“葉”.解題時要根據(jù)數(shù)據(jù)的特點合理地選擇莖和葉.
3.應(yīng)用莖葉圖對兩組數(shù)據(jù)進行比較時,要從數(shù)據(jù)分布的對稱性、中位數(shù)、穩(wěn)定性等幾方面來比較.
4.莖葉圖只適用于樣本數(shù)據(jù)較少的情況.
在樣本數(shù)據(jù)較少時,用莖葉圖表示數(shù)據(jù)的效果較好.它不但可以保留所有信息,而且可以隨時記錄,這對數(shù)據(jù)的記錄和表示都能帶來方便.但是當(dāng)樣本數(shù)據(jù)較多時,莖葉圖就顯得不太方便,因為每一個數(shù)據(jù)都要在圖中占據(jù)一個空間,如果數(shù)據(jù)很多,枝葉就會很長.
故該校應(yīng)該選擇乙班參賽.
【名師點睛】本題考查了根據(jù)莖葉圖求平均數(shù),根據(jù)平均數(shù)、中位數(shù)求原始數(shù)據(jù),考查了計算方差,并利用方差做出統(tǒng)計判斷的問題.
易錯點8 忽略方差的統(tǒng)計意義
用樣本估計總體時,樣本的平均數(shù)、標(biāo)準差只是總體的平均數(shù)、標(biāo)準差的近似.實際應(yīng)用中,當(dāng)所得數(shù)據(jù)的平均數(shù)不相等時,需先分析平均水平,再計算標(biāo)準差(方差)分析穩(wěn)定情況.
1.平均數(shù)與方差都是重要的數(shù)字特征,是對總體的一種簡明的描述.
2.眾數(shù)、中位數(shù)與平均數(shù)都是描述一組數(shù)據(jù)集中趨勢的量,平均數(shù)是最重要的量.平均數(shù)反映的是樣本個體的平均水平,眾數(shù)和中位數(shù)則反映樣本中個體的“重心”.
3.?dāng)?shù)據(jù)的離散程度可以通過極差、方差或標(biāo)準差來描述,極差反映了一組數(shù)據(jù)變化的最大幅度,它對一組數(shù)據(jù)中的極端值極為敏感.一般情況下,極差大,則數(shù)據(jù)波動性大;極差小,則數(shù)據(jù)波動性小.極差只需考慮兩個極端值,便于計算,但沒有考慮中間的數(shù)據(jù),可靠性較差.方差和標(biāo)準差反映了數(shù)據(jù)波動程度的大?。畼?biāo)準差、方差越大,數(shù)據(jù)的離散程度越大,越波動;標(biāo)準差、方差越小,數(shù)據(jù)的離散程度越小,越穩(wěn)定.
易錯點9 運用數(shù)字特征作評價時考慮不周
1.平均數(shù)受個別極端數(shù)據(jù)(比其他數(shù)據(jù)大很多或小很多的數(shù)據(jù))的影響較大,因此若在數(shù)據(jù)中存在少量極端數(shù)據(jù)時,平均數(shù)對總體估計的可靠性較差,往往用眾數(shù)或中位數(shù)去估計總體.有時也采用剔除最大值與最小值后所得的平均數(shù)去估計總體.
2.運用數(shù)字特征進行評價時,要全面考慮各數(shù)字特征的優(yōu)缺點,從不同層面或兩兩綜合進行評價,才能得到較為可靠的估計.
本題考查分層抽樣的方法,平均數(shù)、方差的計算方法以及應(yīng)用,考查用樣本的數(shù)據(jù)特征估計總體的數(shù)據(jù)特征的方法,考查運算求解能力和數(shù)據(jù)處理能力,考查運用基本知識分析解決實際問題的能力.
平均數(shù):能較好地反映一組數(shù)據(jù)的總體平均水平,但易受少數(shù)極端值的影響;
方差:反映數(shù)據(jù)的波動程度,方差值越大,數(shù)據(jù)的波動越大.
易錯點10 弄錯回歸方程中,的位置
易錯點11 忽略求回歸方程的前提——線性相關(guān)
相關(guān)關(guān)系與函數(shù)關(guān)系的異同點:
共同點:二者都是指兩個變量間的關(guān)系.
不同點:函數(shù)關(guān)系是一種確定性關(guān)系,體現(xiàn)的是因果關(guān)系;而相關(guān)關(guān)系是一種非確定性關(guān)系,體現(xiàn)的不一定是因果關(guān)系,可能是伴隨關(guān)系.
1.兩個變量x與y相關(guān)關(guān)系的判斷方法:
(1)散點圖法:通過散點圖,觀察它們的分布是否存在一定規(guī)律,直觀地判斷;如果發(fā)現(xiàn)點的分布從整體上看大致在一條直線附近,那么這兩個變量就是線性相關(guān)的,注意不要受個別點的位置的影響.
(2)表格、關(guān)系式法:結(jié)合表格或關(guān)系式進行判斷;
(3)經(jīng)驗法:借助積累的經(jīng)驗進行分析判斷.
2.求線性回歸方程時,先利用散點圖判斷兩個變量是否存在線性相關(guān)關(guān)系,只有在兩個變量之間存在線性相關(guān)關(guān)系時,求出的線性回歸方程才有意義.否則,如果兩個變量之間不存在線性相關(guān)關(guān)系,即使由樣本數(shù)據(jù)求出回歸方程,用其估計和預(yù)測的結(jié)果也是不可信的.
這種解法是錯誤的,原因是這兩個變量之間不是線性相關(guān)關(guān)系.此類問題的解決,應(yīng)先對兩個變量間的相關(guān)關(guān)系進行相關(guān)性檢驗,然后結(jié)合作出的散點圖,選擇適宜的回歸方程.
易錯點12 沒有準確掌握公式中參數(shù)的含義
2.抽樣方法的選取方法
(1)若總體由差異明顯的幾個層次組成,則選用分層抽樣.
(2)若總體沒有差異明顯的層次,則考慮采用簡單隨機抽樣或系統(tǒng)抽樣.
當(dāng)總體容量較小時宜用抽簽法;當(dāng)總體容量較大,樣本容量較小時宜用隨機數(shù)表法;當(dāng)總體容量較大,樣本容量也較大時宜用系統(tǒng)抽樣.
2.統(tǒng)計表
(1)頻率分布的估計:頻率分布是指各個小組數(shù)據(jù)在樣本中所占比例的大小,可以用樣本的頻率分布估計總體的頻率分布,頻率分布表是反映樣本的頻率分布的表格.通過頻率分布直方圖和頻率分布表可以看到樣本的頻率分布.
(2)盡管有些總體密度曲線是客觀存在的,但是在實際應(yīng)用中我們并不知道它的具體表達形式,需要用樣本來估計.由于樣本是隨機的,不同的樣本得到的頻率分布折線圖不同;即使對于同一個樣本,不同的分組情況得到的頻率分布折線圖也不同.頻率分布折線圖是隨樣本容量和分組情況的變化而變化的,因此不能用樣本的頻率分布折線圖得到準確的總體密度曲線.
(3)估計總體分布的步驟是:
①選擇適當(dāng)?shù)某闃臃椒◤目傮w中抽取樣本,即收集數(shù)據(jù).
②利用樣本數(shù)據(jù)畫出統(tǒng)計圖或計算數(shù)字特征.
③結(jié)合統(tǒng)計圖分析樣本取值的分布規(guī)律.
④用樣本取值的分布規(guī)律估計總體分布,由于是用科學(xué)抽樣抽取的樣本,那么樣本與總體取值的分布規(guī)律近似,有時也可看成相同.
⑤利用總體分布解決有關(guān)問題.
(4)各種統(tǒng)計表的優(yōu)點與不足
從散點圖上看,點散布在從左下角到右上角的區(qū)域內(nèi),兩個變量的這種相關(guān)關(guān)系稱為正相關(guān),點散布在從左上角到右下角的區(qū)域內(nèi),兩個變量的相關(guān)關(guān)系為負相關(guān).
具有正相關(guān)關(guān)系的兩個變量的散點圖如圖1,具有負相關(guān)關(guān)系的兩個變量的散點圖如圖2.
3.回歸分析
如果散點圖中點的分布從整體上看大致在一條直線附近,則這兩個變量之間具有線性相關(guān)關(guān)系,這條直線叫做回歸直線.
回歸直線對應(yīng)的方程叫做回歸直線方程(簡稱回歸方程).
求非線性回歸方程的步驟:
①確定變量,作出散點圖.
②根據(jù)散點圖,選擇恰當(dāng)?shù)臄M合函數(shù).
③變量置換,通過變量置換把非線性回歸問題轉(zhuǎn)化為線性回歸問題,并求出線性回歸方程.
④分析擬合效果:通過計算相關(guān)指數(shù)或畫殘差圖來判斷擬合效果.
⑤根據(jù)相應(yīng)的變換,寫出非線性回歸方程.
答案解析