Autokorrelasjon av flytende gjennomsnittsprosess Dette eksemplet viser hvordan du kan introdusere autokorrelasjon til en hvit støyprosess ved å filtrere. Når vi presenterer autokorrelasjon i et tilfeldig signal, manipulerer vi frekvensinnholdet. Et bevegelig gjennomsnittsfilter demper signalets høyfrekvente komponenter, effektivt utjevning av det. Opprett impulsresponsen for et 3-punkts glidende gjennomsnittsfilter. Filter en N (0,1) hvit støy sekvens med filteret. Sett tilfeldig talgeneratoren til standardinnstillingene for reproducerbare resultater. Få den forhåndsinnstilte prøveautokorrelasjonen ut til 20 lags. Plot prøveautokorrelasjonen sammen med teoretisk autokorrelasjon. Prøveautokorrelasjonen fanger den generelle formen for den teoretiske autokorrelasjonen, selv om de to sekvensene ikke er enige i detalj. I dette tilfellet er det klart at filteret kun har innført signifikant autokorrelasjon over lags -2,2. Den absolutte verdien av sekvensen avtar raskt til null utenfor dette området. For å se at frekvensinnholdet har blitt påvirket, beregner Welch estimater av effektspektraldensitetene i de opprinnelige og filtrerte signalene. Den hvite støyen har blitt farget av det bevegelige gjennomsnittsfilteret. MATLAB og Simulink er registrerte varemerker for The MathWorks, Inc. Vennligst se mathworkstrademarks for en liste over andre varemerker eid av The MathWorks, Inc. Annet produkt - eller varemerker er varemerker eller registrerte varemerker for deres respektive eiere. Velg ditt land2.1 Flytte gjennomsnittlige modeller (MA-modeller) Tidsseriemodeller kjent som ARIMA-modeller kan inneholde autoregressive vilkår og eller flytte gjennomsnittlige vilkår. I uke 1 lærte vi et autoregressivt uttrykk i en tidsseriemodell for variabelen x t er en forsinket verdi på x t. For eksempel er et lag 1 autoregressivt uttrykk x t-1 (multiplisert med en koeffisient). Denne leksjonen definerer glidende gjennomsnittlige vilkår. En glidende gjennomsnittlig term i en tidsseriemodell er en tidligere feil (multiplisert med en koeffisient). La (wt overset N (0, sigma2w)), noe som betyr at w t er identisk, uavhengig distribuert, hver med en normalfordeling med gjennomsnittlig 0 og samme varians. Den første ordre-flytende gjennomsnittsmodellen, betegnet med MA (1), er (xt mu wt theta1w) Den andre ordens bevegelige gjennomsnittsmodellen, betegnet med MA (2), er (xt mu wt theta1w theta2w) , betegnet med MA (q) er (xt mu wt theta1w theta2w punkter thetaqw) Merknad. Mange lærebøker og programvare definerer modellen med negative tegn før betingelsene. Dette endrer ikke de generelle teoretiske egenskapene til modellen, selv om den ikke flipper de algebraiske tegnene på estimerte koeffisientverdier og (unsquared) termer i formler for ACFer og avvik. Du må sjekke programvaren for å verifisere om negative eller positive tegn har blitt brukt for å skrive riktig estimert modell. R bruker positive tegn i sin underliggende modell, som vi gjør her. Teoretiske egenskaper av en tidsrekkefølge med en MA (1) modell Merk at den eneste ikke-nullverdien i teoretisk ACF er for lag 1. Alle andre autokorrelasjoner er 0. Således er en prøve-ACF med en signifikant autokorrelasjon bare ved lag 1 en indikator på en mulig MA (1) modell. For interesserte studenter er bevis på disse egenskapene et vedlegg til denne utdelingen. Eksempel 1 Anta at en MA (1) modell er x t10 w t .7 w t-1. hvor (wt overset N (0,1)). Dermed er koeffisienten 1 0,7. Den teoretiske ACF er gitt av Et plott av denne ACF følger. Plottet som nettopp er vist er den teoretiske ACF for en MA (1) med 1 0,7. I praksis vil en prøve vanligvis ikke gi et slikt klart mønster. Ved hjelp av R simulerte vi n 100 prøveverdier ved hjelp av modellen x t 10 w t .7 w t-1 hvor w t iid N (0,1). For denne simuleringen følger en tidsserie-plott av prøvedataene. Vi kan ikke fortelle mye fra denne plottet. Prøven ACF for de simulerte dataene følger. Vi ser en spike i lag 1 etterfulgt av generelt ikke signifikante verdier for lags forbi 1. Merk at prøven ACF ikke samsvarer med det teoretiske mønsteret til den underliggende MA (1), som er at alle autokorrelasjoner for lags forbi 1 vil være 0 . En annen prøve ville ha en litt annen prøve-ACF vist nedenfor, men vil trolig ha de samme brede funksjonene. Terapeutiske egenskaper av en tidsrekkefølge med en MA (2) modell For MA (2) modellen er teoretiske egenskaper følgende: Merk at de eneste ikke-nullverdiene i teoretisk ACF er for lags 1 og 2. Autokorrelasjoner for høyere lags er 0 . En ACF med signifikant autokorrelasjoner på lags 1 og 2, men ikke-signifikante autokorrelasjoner for høyere lags indikerer en mulig MA (2) modell. iid N (0,1). Koeffisientene er 1 0,5 og 2 0,3. Fordi dette er en MA (2), vil den teoretiske ACF bare ha null nullverdier ved lags 1 og 2. Verdier av de to ikke-null-autokorrelasjonene er Et plot av teoretisk ACF følger. Som nesten alltid er tilfellet, vil prøvedataene ikke oppføre seg så perfekt som teori. Vi simulerte n 150 utvalgsverdier for modellen x t 10 w t .5 w t-1 .3 w t-2. hvor det er N (0,1). Tidsserien av dataene følger. Som med tidsserien for MA (1) eksempeldata, kan du ikke fortelle mye om det. Prøven ACF for de simulerte dataene følger. Mønsteret er typisk for situasjoner der en MA (2) modell kan være nyttig. Det er to statistisk signifikante pigger på lags 1 og 2 etterfulgt av ikke-signifikante verdier for andre lags. Merk at på grunn av prøvetakingsfeil, samsvarte ACF ikke nøyaktig det teoretiske mønsteret. ACF for General MA (q) Modeller En egenskap av MA (q) - modeller generelt er at det finnes ikke-null autokorrelasjoner for de første q lagene og autokorrelasjonene 0 for alle lagene gt q. Ikke-entydighet av sammenhengen mellom verdier av 1 og (rho1) i MA (1) Modell. I MA (1) - modellen, for en verdi på 1. Den gjensidige 1 1 gir samme verdi. For eksempel, bruk 0,5 for 1. og bruk deretter 1 (0,5) 2 for 1. Du får (rho1) 0,4 i begge tilfeller. For å tilfredsstille en teoretisk begrensning kalt invertibility. vi begrenser MA (1) - modeller for å ha verdier med absolutt verdi mindre enn 1. I eksemplet som er gitt, vil 1 0,5 være en tillatelig parameterverdi, mens 1 10,5 2 ikke vil. Invertibility av MA modeller En MA-modell sies å være invertibel hvis den er algebraisk tilsvarer en konvergerende uendelig rekkefølge AR-modell. Ved konvergering mener vi at AR-koeffisientene reduseres til 0 da vi beveger oss tilbake i tid. Invertibility er en begrensning programmert i tidsserier programvare som brukes til å estimere koeffisientene av modeller med MA termer. Det er ikke noe vi ser etter i dataanalysen. Ytterligere opplysninger om inverterbarhetsbegrensningen for MA (1) - modeller er gitt i vedlegget. Avansert teorienotat. For en MA (q) modell med en spesifisert ACF, er det bare en inverterbar modell. Den nødvendige betingelsen for invertibilitet er at koeffisientene har verdier slik at ligningen 1- 1 y-. - q y q 0 har løsninger for y som faller utenfor enhetens sirkel. R-kode for eksemplene I eksempel 1, plotte vi den teoretiske ACF av modellen x t10 w t. 7w t-1. og deretter simulert n 150 verdier fra denne modellen og plottet prøve tidsseriene og prøven ACF for de simulerte dataene. R-kommandoene som ble brukt til å plotte den teoretiske ACF var: acfma1ARMAacf (mac (0,7), lag. max10) 10 lag av ACF for MA (1) med theta1 0,7 lags0: 10 skaper en variabel som heter lags som varierer fra 0 til 10. plot (lags, acfma1, xlimc (1,10), ylabr, typh, main ACF for MA (1) med theta1 0,7) abline (h0) legger til en horisontal akse på plottet. Den første kommandoen bestemmer ACF og lagrer den i en gjenstand kalt acfma1 (vårt valg av navn). Plot-kommandoen (den tredje kommandoen) plots lags versus ACF-verdiene for lags 1 til 10. ylab-parameteren merker y-aksen og hovedparameteren setter en tittel på plottet. For å se de numeriske verdiene til ACF, bruk bare kommandoen acfma1. Simuleringen og tomtene ble gjort med følgende kommandoer. xcarima. sim (n150, liste (mac (0.7))) Simulerer n 150 verdier fra MA (1) xxc10 legger til 10 for å gjøre gjennomsnitt 10. Simuleringsstandarder betyr 0. Plot (x, typeb, mainSimulated MA (1) data) acf (x, xlimc (1,10), mainACF for simulerte prøvedata) I eksempel 2 skisserte vi den teoretiske ACF av modellen xt 10 wt .5 w t-1 .3 w t-2. og deretter simulert n 150 verdier fra denne modellen og plottet prøve tidsseriene og prøven ACF for de simulerte dataene. R-kommandoene som ble brukt var acfma2ARMAacf (mac (0,5,0,3), lag. max10) acfma2 lags0: 10 plot (lags, acfma2, xlimc (1,10), ylabr, typh, hoved ACF for MA (2) med theta1 0,5, theta20.3) abline (h0) xcarima. sim (n150, liste (mac (0,5, 0,3)) xxc10 plot (x, typeb, hoved Simulert MA (2) Serie) acf (x, xlimc (1,10) mainACF for simulert MA (2) Data) Vedlegg: Bevis på egenskaper av MA (1) For interesserte studenter, her er bevis for teoretiske egenskaper av MA (1) modellen. Varians: (tekst (xt) tekst (mu wt theta1 w) 0 tekst (wt) tekst (theta1w) sigma2w theta21sigma2w (1theta21) sigma2w) Når h 1, er det forrige uttrykket 1 w 2. For ethvert h 2, . Årsaken er at ved definisjon av uavhengighet av wt. E (w k w j) 0 for noen k j. Videre, fordi w t har middelverdien 0, E (w jw j) E (w j 2) w 2. For en tidsserie, Bruk dette resultatet for å få ACF gitt ovenfor. En inverterbar MA-modell er en som kan skrives som en uendelig rekkefølge AR-modell som konvergerer slik at AR-koeffisientene konvergerer til 0 mens vi beveger oss uendelig tilbake i tiden. Vel demonstrere invertibility for MA (1) modellen. Vi erstatter deretter forholdet (2) for w t-1 i ligning (1) (3) (zt wt theta1 (z-theta1w) wt theta1z-tet2w) Ved tid t-2. (2) blir vi da erstatter forholdet (4) for w t-2 i ligning (3) (zt wt theta1z-teteta21wt theta1z-teteta21 (z-theta1w) wt theta1z-theta12z theta31w) Hvis vi skulle fortsette uendelig), ville vi få den uendelige rekkefølgen AR-modellen (zt wt theta1z - theta21z theta31z - theta41z prikker) Merk imidlertid at hvis 1 1, vil koeffisientene som multipliserer lagene av z, øke (uendelig) i størrelse når vi beveger oss tilbake i tid. For å forhindre dette, trenger vi 1 lt1. Dette er betingelsen for en inverterbar MA (1) modell. Uendelig Order MA-modell I uke 3 ser du at en AR (1) - modell kan konverteres til en uendelig rekkefølge MA-modell: (xt - mu wt phi1w phi21w prikker phik1 w dots sum phij1w) Denne summeringen av tidligere hvite støybetingelser er kjent som årsakssammenheng av en AR (1). Med andre ord, x t er en spesiell type MA med et uendelig antall vilkår som går tilbake i tid. Dette kalles en uendelig ordre MA eller MA (). En endelig ordre MA er en uendelig orden AR og en hvilken som helst endelig rekkefølge AR er en uendelig rekkefølge MA. Tilbakekall i uke 1, bemerket vi at et krav til en stasjonær AR (1) er at 1 lt1. Lar beregne Var (x t) ved hjelp av årsakssammensetningen. Dette siste trinnet bruker et grunnleggende fakta om geometrisk serie som krever (phi1lt1) ellers ser serien ut. Navigasjon Det første trinnet i å utvikle en Box-Jenkins-modell er å avgjøre om serien er stasjonær og om det er noen signifikant sesongmessighet som må modelleres. Stasjonar kan vurderes fra en run-sekvensplot. Kjøringssekvensplottet skal vise konstant plassering og skala. Det kan også detekteres fra en autokorrelasjonsplott. Spesielt er ikke-stationaritet ofte indikert av en autokorrelasjonsplott med meget sakte forfall. Forskjeller for å oppnå stasjonærhet, Box og Jenkins anbefaler differenseringsmetoden for å oppnå stasjonar. Imidlertid kan montering av kurve og subtrahering av de monterte verdiene fra de opprinnelige dataene også brukes i sammenheng med Box-Jenkins-modeller. Ved modellidentifikasjonstrinnet er målet vårt å oppdage årstiden, hvis den eksisterer, og å identifisere rekkefølgen for sesongmessige autoregressive og sesongmessige glidende gjennomsnittlige vilkår. For mange serier er perioden kjent, og en enkelt sesongbetegnelse er tilstrekkelig. For eksempel, for månedlige data vil vi typisk inkludere enten en sesongbasert AR 12-periode eller en sesongmessig MA 12-periode. For Box-Jenkins-modeller fjerner vi ikke sesongmessig før du passer på modellen. I stedet inkluderer vi rekkefølgen av sesongmessige vilkår i modellspesifikasjonen til ARIMA estimeringsprogramvaren. Det kan imidlertid være nyttig å bruke en sesongforskjell til dataene og regenerere autokorrelasjonen og delvise autokorrelasjonsplottene. Dette kan bidra til modellens identifikasjon av den ikke-sesongbestemte komponenten av modellen. I noen tilfeller kan sesongmessige differensier fjerne mest eller alle sesongmessige effekter. Identifiser p og q Når stasjonar og sesongmessighet er adressert, er neste trinn å identifisere rekkefølgen (dvs. (p) og (q)) av de autoregressive og bevegelige gjennomsnittlige termer. Autokorrelasjon og delvise autokorrelasjonsplottformer De primære verktøyene for å gjøre dette er autokorrelasjonsplottet og den delvise autokorrelasjonsplottet. Prøveautokorrelasjonsplottet og prøven delvis autokorrelasjonsplot sammenlignes med den teoretiske oppførelsen av disse plottene når bestillingen er kjent. Ordre av autoregressiv prosess ((p)) Spesielt for en AR (1) - prosess bør prøveautokorrelasjonsfunksjonen ha et eksponentielt avtagende utseende. Imidlertid er høyere rekkefølge AR-prosesser ofte en blanding av eksponentielt avtagende og dempede sinusformede komponenter. For autoregressive prosesser i høyere rekkefølge, må prøveautokorrelasjonen suppleres med en delvis autokorrelasjonsplott. Den delvise autokorrelasjonen av en AR ((p)) prosess blir null ved lag (p 1) og større, så vi undersøker prøven delvis autokorrelasjonsfunksjon for å se om det er tegn på avvik fra null. Dette bestemmes vanligvis ved å plassere et 95 konfidensintervall på prøven, delvis autokorrelasjonsplott (de fleste programvareprogrammer som genererer sample autocorrelation plots vil også plotte dette konfidensintervallet). Hvis programvaren ikke genererer konfidensbåndet, er det omtrentlig (pm 2sqrt), med (N) betegner prøvestørrelsen. Ordre av Moving Average Process ((q)) Autokorrelasjonsfunksjonen til en MA ((q)) prosess blir null ved lag (q 1) og større, slik at vi undersøker prøveautokorrelasjonsfunksjonen for å se hvor den i hovedsak blir null. Vi gjør dette ved å plassere 95 konfidensintervallet for prøveautokorrelasjonsfunksjonen på prøveautokorrelasjonsplottet. De fleste programvare som kan generere autokorrelasjonsplottet, kan også generere dette konfidensintervallet. Prøvepartial autokorrelasjonsfunksjonen er generelt ikke nyttig for å identifisere rekkefølgen av den bevegelige gjennomsnittsprosessen. Form for autokorrelasjonsfunksjon Følgende tabell oppsummerer hvordan vi bruker prøveautokorrelasjonsfunksjonen for modellidentifikasjon. Mål: Kontroller Randomness Autocorrelation plots (Box og Jenkins, s. 28-32) er et vanlig brukt verktøy for å sjekke tilfeldighet i et datasett. Denne tilfeldigheten er fastslått ved å beregne autokorrelasjoner for dataværdier ved varierende tidsforsinkelser. Hvis tilfeldig, bør slike autokorrelasjoner være nær null for alle tidsforsinkelsesavvik. Hvis ikke-tilfeldig, vil en eller flere av autokorrelasjonene være betydelig ikke-null. I tillegg brukes autokorrelasjonsplott i modellidentifikasjonsfasen for Box-Jenkins autoregressive, bevegelige gjennomsnittlige tidsseriemodeller. Autokorrelasjon er bare ett mål for tilfeldighet. Merk at ukorrelert ikke nødvendigvis betyr tilfeldig. Data som har betydelig autokorrelasjon er ikke tilfeldig. Data, som ikke viser signifikant autokorrelasjon, kan imidlertid fortsatt vise seg tilfeldig på andre måter. Autokorrelasjon er bare et mål for tilfeldighet. I sammenheng med modellvalidering (som er den primære typen tilfeldighet som vi skriver i håndboken), er kontroll av autokorrelasjon vanligvis en tilstrekkelig test av tilfeldighet siden resterne fra en dårlig passende modeller har en tendens til å vise ikke-subtil tilfeldighet. Noen programmer krever imidlertid en strengere bestemmelse av tilfeldighet. I disse tilfellene blir det brukt et batteri av tester, som kan omfatte kontroll av autokorrelasjon, da data kan være ikke-tilfeldig på mange forskjellige og ofte subtile måter. Et eksempel på hvor det er behov for en strengere kontroll for tilfeldighet, ville være å teste tilfeldige tallgivere. Eksempelplott: Autokorrelasjoner bør være nær null for tilfeldighet. Slik er ikke tilfellet i dette eksemplet, og dermed slår tilfeldighetsforutsetningen bort. Denne utvalgsautokorrelasjonsplottet viser at tidsserien ikke er tilfeldig, men har snarere en høy grad av autokorrelasjon mellom tilstøtende og nærliggende observasjoner. Definisjon: r (h) versus h Autokorrelasjonsplottene dannes av Vertikal akse: Autokorrelasjonskoeffisient der Ch er autokovariansfunksjonen og C 0 er variansfunksjonen Merk at R h er mellom -1 og 1. Merk at enkelte kilder kan bruke Følgende formel for autokovariansfunksjonen Selv om denne definisjonen har mindre bias, har formuleringen (1N) noen ønskelige statistiske egenskaper og er formen som oftest brukes i statistikklitteraturen. Se side 20 og 49-50 i Chatfield for detaljer. Horisontal akse: Tidsforsinkelse h (h 1, 2, 3.) Ovenstående linje inneholder også flere horisontale referanselinjer. Midtlinjen er null. De andre fire linjene er 95 og 99 konfidensbånd. Merk at det er to forskjellige formler for å generere konfidensbåndene. Hvis autokorrelasjonsplottet brukes til å teste for tilfeldighet (det er ingen tidsavhengighet i dataene), anbefales følgende formel: hvor N er prøvestørrelsen, er z den kumulative fordelingsfunksjonen til standard normalfordeling og (alfa ) er signifikansnivået. I dette tilfellet har konfidensbåndene en fast bredde som avhenger av prøvestørrelsen. Dette er formelen som ble brukt til å generere konfidensbåndene i det ovenstående diagrammet. Autocorrelation plots brukes også i modellidentifikasjonstrinnet for montering av ARIMA-modeller. I dette tilfellet antas en bevegelig gjennomsnittsmodell for dataene, og følgende konfidensbånd skal genereres: hvor k er lagret, N er prøvestørrelsen, z er den kumulative fordelingsfunksjonen til standard normalfordeling og (alfa) er betydningsnivået. I dette tilfellet øker konfidensbåndene etter hvert som laget øker. Autokorrelasjonsplottet kan gi svar på følgende spørsmål: Er data-tilfeldig Er en observasjon knyttet til en tilstøtende observasjon Er en observasjon knyttet til en observasjon to ganger fjernet (etc.) Er den observerte tidsserien hvit støy Er den observerte tidsserien sinusformet Er den observerte tidsserien autoregressiv Hva er en passende modell for de observerte tidsserier Er modellen gyldig og tilstrekkelig Er formelen ssqrt gyldig Viktighet: Sikre gyldigheten av ingeniørkonklusjoner Tilfeldighet (sammen med fast modell, fast variasjon og fast distribusjon) er En av de fire antagelsene som vanligvis ligger til grunn for alle måleprosesser. Tilfeldighetsforutsetningen er kritisk viktig av følgende tre grunner: De fleste standardstatistiske tester er avhengig av tilfeldighet. Gyldigheten av testkonklusjonene er direkte knyttet til gyldigheten av tilfeldighetsforutsetningen. Mange vanlige statistiske formler er avhengig av tilfeldighetsforutsetningen, den vanligste formelen er formelen for å bestemme standardavviket til utvalgsmiddelet: hvor s er standardavviket til dataene. Selv om det er mye brukt, er resultatene fra å bruke denne formelen av ingen verdi med mindre tilfeldigheten antakelsen holder. For univariate data er standardmodellen Hvis dataene ikke er tilfeldige, er denne modellen feil og ugyldig, og estimatene for parametrene (for eksempel konstanten) blir usynlige og ugyldige. Kort sagt, hvis analytikeren ikke ser etter tilfeldighet, blir gyldigheten av mange av de statistiske konklusjonene mistenkt. Autocorrelation plot er en utmerket måte å sjekke for slik tilfeldighet.
No comments:
Post a Comment