Eksperimentelle data må granskes for uteliggere for å trekke meningsfulle konklusjoner fra det. I de enkleste tilfellene, dette oppnås ved å beregne middelverdien og standardavviket ved hjelp av alle datapunktene og avvise noen som er over tre standardavvik unna gjennomsnittet.
Men som antall prøver i datasettet øker, øker sannsynligheten for å se ekstreme eksempler også. For å veie opp for den økte sannsynligheten for å komme over ekstreme verdier, er følgende endringer foreslått.
Trinn
- 1Beregn middelverdien å bruke alle datapunktene, inkludert mistenkte uteliggere.
- 2Beregne standardavviket ved hjelp
- 3For hvert datapunkt, xi, beregnings-, i en separat kolonne,
- For hver z> 0, beregne den Na, området under normalfordelingskurven mellom z og ∞, i en egen kolonne. Du kan gjøre dette i Excel ved hjelp av N * NORMSFORDELING ()-funksjonen, eller ved hjelp av følgende formel:
- For hver z <0, beregne den Na, området under normalfordelingskurven mellom - ∞ og z, i en egen kolonne. Du kan gjøre dette i Excel ved hjelp av en - N * NORMSFORDELING ()-funksjonen, eller ved hjelp av følgende formel:
- Hvis den Na <0,05, avviser datapunkt som en avvikende.
- 4Figuren nedenfor viser en serie av datapunkter med de to første med vilje satt til å være synlig forskjellig fra de andre. Det var 80 datapunkter, med et gjennomsnitt på 1122,6 og et standardavvik på 1.430.
- Den lave outlier var 1117, med en beregnet z = 3,899. Den Na_ verdi var 0,004, noe som er mindre enn 0,05, så dette punktet kan trygt avvist som en avvikende.
- Den høye outlier var 1128, med en datamaskin z = 3,794. Den Na_ verdi var 0,006, noe som er mindre enn 0,05, så dette punkt kan det også være trygt avvist som en avvikende.
Tips
- Hvis uteliggere oppstår, bør årsaken til avvikende bli identifisert før du forkaster det. Hvis en verdi er en dataregistrering feil eller fra en annen prosess det skal korrigeres hvis mulig i stedet for å slette den. Hvis verdien er fra prosessen eller befolkningen du studerer og er ikke en dataregistrering feil det ikke skal slettes. Det er en del av den naturlige variasjon i dataene, og bør være inkludert i kvantifisere variabilitet.
Advarsler
- Denne prosedyren forutsetter verdiene generert av prosessen eller befolkningen følger en normalfordeling. Selv målefeil kan følge en normal fordeling i mange tilfeller, kan mange populasjoner og prosesser ikke følge en normalfordeling. Som et resultat av den fremgangsmåte som er beskrevet i denne artikkelen kan resultere i feilaktig sletting verdier fra dataene. Også selv med data som er normalfordelt noen verdier utover 3 standardavvik vil oppstå med et stort antall observasjoner.
- Det anses ikke god statistisk praksis å forkaste uteliggere uten sterk sak. Forkaster uteliggere uten grunn vanligvis resulterer i å undervurdere den faktiske variasjonen av prosessen som genererer data. Uteliggere oppstår vanligvis fra tre mulige årsaker:
- Dataregistrering feil.
- Verdier fra en annen populasjon eller prosess.
- Faktiske uvanlige verdier i dataene.