食品伙伴網(wǎng)服務(wù)號(hào)

實(shí)驗(yàn)中的離群數(shù)據(jù)應(yīng)該怎樣判斷和處理?判斷和處理原則匯總來(lái)了!

放大字體  縮小字體 發(fā)布日期:2021-06-29
核心提示:離群數(shù)據(jù)來(lái)源與判斷:1、離群值按產(chǎn)生原因分為兩類:a)第一類離群值是總體固有變異性的極端表現(xiàn),這類離群值與樣本中其余觀測(cè)值屬
 離群數(shù)據(jù)來(lái)源與判斷:

1、離群值按產(chǎn)生原因分為兩類:

a)第一類離群值是總體固有變異性的極端表現(xiàn),這類離群值與樣本中其余觀測(cè)值屬于同一總體;

b)第二類離群值是由于試驗(yàn)條件和試驗(yàn)方法的偶然偏離所產(chǎn)生的結(jié)果,或產(chǎn)生于觀測(cè)、記錄、計(jì)算中的失誤,這類離群值與樣本中其余觀測(cè)值不屬于同一總體。對(duì)離群值的判定通常可根據(jù)技術(shù)上或物理上的理由直接進(jìn)行,例如當(dāng)試驗(yàn)者已經(jīng)知道試驗(yàn)偏離了規(guī)定的試驗(yàn)方法,或測(cè)試儀器發(fā)生問(wèn)題等。當(dāng)上述理由不明確時(shí),可用本標(biāo)準(zhǔn)規(guī)定的方法。


2、離群值的三種情形:

本標(biāo)準(zhǔn)在下述不同情形下判斷樣本中的離群值:

a)上側(cè)情形:根據(jù)實(shí)際情況或以往經(jīng)驗(yàn),離群值都為高端值;

b)下側(cè)情形:根據(jù)實(shí)際情況或以往經(jīng)驗(yàn),離群值都為低端值;

c)雙側(cè)情形:根據(jù)實(shí)際情況或以往經(jīng)驗(yàn),離群值可為高端值,也可為低端值。


3、檢出離群值個(gè)數(shù)的上限

應(yīng)規(guī)定在樣本中檢出離群值個(gè)數(shù)的上限(與樣本量相比應(yīng)較小),當(dāng)檢出離群值個(gè)數(shù)超過(guò)了這個(gè)上限時(shí),對(duì)此樣本應(yīng)作慎重的研究和處理。


4、單個(gè)離群值情形

a)依實(shí)際情況或以往經(jīng)驗(yàn)選定,選定適宜的離群值檢驗(yàn)規(guī)則(格拉布斯檢驗(yàn)、狄克遜檢驗(yàn)等);

b)確定適當(dāng)?shù)娘@著性水平;

c)根據(jù)顯著性水平及樣本量,確定檢驗(yàn)的臨界值;d)由觀測(cè)值計(jì)算相應(yīng)統(tǒng)計(jì)量的值,根據(jù)所得值與臨界值的比較結(jié)果作出判斷。


5、判定多個(gè)離群值的檢驗(yàn)規(guī)則

在允許檢出離群值的個(gè)數(shù)大于1的情況下,重復(fù)使用檢驗(yàn)規(guī)則進(jìn)行檢驗(yàn)。若沒(méi)有檢出離群值,則整個(gè)檢驗(yàn)停止;若檢出離群值,當(dāng)檢出的離群值總數(shù)超過(guò)上限時(shí),檢驗(yàn)停止,對(duì)此樣本應(yīng)慎重處理,否則,采用相同的檢出水平和相同的規(guī)則,對(duì)除去已檢出的離群值后余下的觀測(cè)值繼續(xù)檢驗(yàn)。


 

離群值處理

1、處理方式

處理離群值的方式有:

a)保留離群值并用于后續(xù)數(shù)據(jù)處理;

b)在找到實(shí)際原因時(shí)修正離群值,否則予以保留;

c)剔除離群值,不追加觀測(cè)值;

d)剔除離群值,并追加新的觀測(cè)值或用適宜的插補(bǔ)值代替。

格魯布斯檢驗(yàn)方法: 

在定量分析實(shí)驗(yàn)中,實(shí)驗(yàn)結(jié)束后,必須對(duì)分析數(shù)據(jù)進(jìn)行處理,在一組分析數(shù)據(jù)中,往往有個(gè)別數(shù)據(jù)與其它數(shù)據(jù)相差較大,這種個(gè)別數(shù)據(jù)稱為可疑值。

對(duì)可疑值的處理,應(yīng)首先回顧和檢查生產(chǎn)可疑值的實(shí)驗(yàn)過(guò)程,有無(wú)可覺(jué)察到的技術(shù)上的異常原因。

當(dāng)原因不明時(shí),必須按一定的數(shù)理統(tǒng)計(jì)方法進(jìn)行處理,決定是保留還是舍棄。

格魯布斯檢驗(yàn)法效果比較好的方法。格魯布斯檢驗(yàn)法的優(yōu)點(diǎn)是在判斷可疑值取舍的過(guò)程中,將正態(tài)分布中的兩個(gè)最重要的參數(shù)—平均值和標(biāo)準(zhǔn)偏差引進(jìn)來(lái),故方法的準(zhǔn)確性較高。方法計(jì)算的過(guò)程是這樣的:

1.實(shí)驗(yàn)得出一組數(shù)據(jù)X1;X2;X3;X4……Xn,懷疑其中某個(gè)數(shù)據(jù)可疑(X可疑)

2.計(jì)算X1;X2;X3;X4……Xn 的平均數(shù)(X平均)標(biāo)準(zhǔn)偏差(S)

3.計(jì)算格魯布斯G計(jì)算=(X平均-X可疑)/S,取絕對(duì)值

4.查表求格魯布斯G查表

5.若G計(jì)算≥G查表,則可疑數(shù)據(jù)舍去,反之保留

 

2、處理規(guī)則

對(duì)檢出的離群值,應(yīng)盡可能尋找其技術(shù)上和物理上的原因,作為處理離群值的依據(jù)。應(yīng)根據(jù)實(shí)際問(wèn)題的性質(zhì),權(quán)衡尋找和判定產(chǎn)生離群值的原因所需代價(jià)、正確判定離群值的得益及錯(cuò)誤剔除正常觀測(cè)值的風(fēng)險(xiǎn),以確定實(shí)施下述三個(gè)規(guī)則之一:

 



a)若在技術(shù)上或物理上找到了產(chǎn)生離群值的原因,則應(yīng)剔除或修正;若未找到產(chǎn)生它的物理上和技術(shù)上的原因,則不得剔除或進(jìn)行修正。

 

b)若在技術(shù)上或物理上找到產(chǎn)生離群值的原因,則應(yīng)剔除或修正;否則,保留歧離值,剔除或修正統(tǒng)計(jì)離群值;在重復(fù)使用同一檢驗(yàn)規(guī)則檢驗(yàn)多個(gè)離群值的情形,每次檢出離群值后,都要再檢驗(yàn)它是否為統(tǒng)計(jì)離群值。

 

若某次檢出的離群值為統(tǒng)計(jì)離群值,則此離群值及在它前面檢出的離群值(含歧離值)都應(yīng)被剔除或修正。

 

c)檢出的離群值(含歧離值)都應(yīng)被剔除或進(jìn)行修正。



3、備案

被剔除或修正的觀測(cè)值及其理由應(yīng)予記錄,以備查詢。

 

文章內(nèi)容來(lái)源于儀器信息網(wǎng),轉(zhuǎn)載僅為分享知識(shí),如有侵權(quán)請(qǐng)聯(lián)系刪除。

編輯:songjiajie2010

 
分享:
 

 
 
推薦圖文
推薦檢驗(yàn)技術(shù)
點(diǎn)擊排行
檢驗(yàn)技術(shù)
 
 
Processed in 0.022 second(s), 14 queries, Memory 0.97 M