Friday, 17 February 2017

Autocorrélation D'Un Processus De Moyenne Mobile

2.1 Modèles de moyenne mobile (modèles MA) Les modèles de séries chronologiques connus sous le nom de modèles ARIMA peuvent inclure des termes autorégressifs ou des termes de moyenne mobile. Dans la semaine 1, nous avons appris un terme autorégressif dans un modèle de série chronologique pour la variable x t est une valeur décalée de x t. Par exemple, un terme autorégressif de retard 1 est x t-1 (multiplié par un coefficient). Cette leçon définit les termes moyens mobiles. Un terme moyen mobile dans un modèle de séries chronologiques est une erreur passée (multipliée par un coefficient). Soit (wt overet N (0, sigma2w)), ce qui signifie que les w t sont identiquement, indépendamment distribués, chacun avec une distribution normale ayant une moyenne 0 et la même variance. Le modèle de moyenne mobile du 1er ordre, noté MA (1) est (xt mu wt theta1w) Le modèle de moyenne mobile du 2 e ordre, noté MA (2) est (xt mu wt theta1w theta2w) , Désignée par MA (q) est (xt mu wt theta1w theta2w points thetaqw) Note. De nombreux manuels et programmes logiciels définissent le modèle avec des signes négatifs avant les termes. Cela ne modifie pas les propriétés théoriques générales du modèle, bien qu'il renverse les signes algébriques des valeurs des coefficients estimés et des termes (non carrés) dans les formules pour les ACF et les variances. Vous devez vérifier votre logiciel pour vérifier si des signes négatifs ou positifs ont été utilisés pour écrire correctement le modèle estimé. R utilise des signes positifs dans son modèle sous-jacent, comme nous le faisons ici. Propriétés théoriques d'une série temporelle avec un modèle MA (1) Notez que la seule valeur non nulle dans l'ACF théorique est pour le lag 1. Toutes les autres autocorrélations sont 0. Ainsi, un échantillon ACF avec une autocorrélation significative seulement au décalage 1 est un indicateur d'un modèle MA (1) possible. Pour les étudiants intéressés, les preuves de ces propriétés sont une annexe à ce document. Exemple 1 Supposons qu'un modèle MA (1) soit x t 10 w t .7 w t-1. Où (wt dépasse N (0,1)). Ainsi, le coefficient 1 0,7. L'ACF théorique est donné par Un tracé de cette ACF suit. Le graphique qui vient d'être montré est l'ACF théorique pour un MA (1) avec 1 0,7. En pratique, un échantillon ne fournira habituellement qu'un tel motif clair. En utilisant R, nous avons simulé n 100 échantillons en utilisant le modèle x t 10 w t .7 w t-1 où w t iid N (0,1). Pour cette simulation, un schéma chronologique des données de l'échantillon suit. Nous ne pouvons pas dire beaucoup de cette intrigue. L'échantillon ACF pour les données simulées suit. Nous observons un pic au décalage 1 suivi par des valeurs généralement non significatives pour les décalages au-delà de 1. Notez que l'échantillon ACF ne correspond pas au modèle théorique du MA (1) sous-jacent, c'est-à-dire que toutes les autocorrélations Un échantillon différent aurait un ACF d'échantillon légèrement différent indiqué ci-dessous, mais aurait probablement les mêmes caractéristiques générales. Propriétés théoriques d'une série temporelle avec un modèle MA (2) Pour le modèle MA (2), les propriétés théoriques sont les suivantes: Noter que les seules valeurs non nulles dans l'ACF théorique sont pour les lags 1 et 2. Les autocorrélations pour les décalages supérieurs sont 0 . Ainsi, un échantillon ACF avec des autocorrélations significatives aux décalages 1 et 2, mais des autocorrélations non significatives pour des décalages plus élevés indique un modèle MA (2) possible. Iid N (0,1). Les coefficients sont 1 0,5 et 2 0,3. Parce qu'il s'agit d'une MA (2), l'ACF théorique aura des valeurs non nulles uniquement aux lags 1 et 2. Les valeurs des deux autocorrélations non nulles sont: Un tracé de la théorie ACF suit. Comme presque toujours le cas, les données d'échantillon ne se comporteront pas aussi parfaitement que la théorie. Nous avons simulé n 150 échantillons pour le modèle x t 10 w t .5 w t-1 .3 w t-2. Où w t iid N (0,1). Le tracé de la série chronologique des données suit. Comme avec le graphique de la série temporelle pour les données d'échantillon MA (1), vous ne pouvez pas en dire beaucoup. L'échantillon ACF pour les données simulées suit. Le modèle est typique pour les situations où un modèle MA (2) peut être utile. Il y a deux pointes statistiquement significatives aux écarts 1 et 2, suivies des valeurs non significatives pour les autres retards. Notez qu'en raison de l'erreur d'échantillonnage, l'ACF de l'échantillon ne correspondait pas exactement au modèle théorique. ACF pour les modèles MA (q) Une propriété des modèles MA (q) en général est qu'il existe des autocorrélations non nulles pour les q premiers lags et autocorrélations 0 pour tous les retards gt q. Non-unicité de la connexion entre les valeurs de 1 et (rho1) dans MA (1) Modèle. Dans le modèle MA (1), pour toute valeur de 1. La valeur réciproque 1 1 donne la même valeur pour. Par exemple, utilisez 0,5 pour 1. Puis utilisez 1 (0,5) 2 pour 1. Vous obtiendrez (rho1) 0,4 dans les deux cas. Pour satisfaire une restriction théorique appelée invertibilité. Nous limitons les modèles MA (1) à des valeurs dont la valeur absolue est inférieure à 1. Dans l'exemple donné, 1 0,5 sera une valeur de paramètre admissible, alors que 1 10,5 2 ne le sera pas. Invertibilité des modèles MA Un modèle MA est dit inversible s'il est algébriquement équivalent à un modèle d'ordre infini convergent. En convergeant, nous voulons dire que les coefficients AR décroissent à 0 lorsque nous retournons dans le temps. Invertibilité est une restriction programmée dans le logiciel de séries temporelles utilisé pour estimer les coefficients de modèles avec des termes MA. Ce n'est pas quelque chose que nous vérifions dans l'analyse des données. Des informations supplémentaires sur la restriction d'inversibilité pour les modèles MA (1) sont données en annexe. Théorie avancée. Pour un modèle MA (q) avec un ACF spécifié, il n'existe qu'un seul modèle inversible. La condition nécessaire à l'inversibilité est que les coefficients ont des valeurs telles que l'équation 1- 1 y-. - q y q 0 a des solutions pour y qui tombent en dehors du cercle unitaire. Code R pour les exemples Dans l'exemple 1, nous avons représenté l'ACF théorique du modèle x t 10 w t. 7w t-1. Puis a simulé n 150 valeurs à partir de ce modèle et a représenté graphiquement la série chronologique de l'échantillon et l'échantillon ACF pour les données simulées. Les r commandes utilisées pour tracer l'ACF théorique sont: acfma1ARMAacf (mac (0.7), lag. max10) 10 lags de ACF pour MA (1) avec theta1 0.7 lags0: 10 crée une variable nommée lags qui va de 0 à 10. plot Abline (h0) ajoute un axe horizontal à la trame La première commande détermine l'ACF et la stocke dans un objet (a0) Nommé acfma1 (notre choix de nom). La commande plot (la 3ème commande) trace des retards par rapport aux valeurs ACF pour les lags 1 à 10. Le paramètre ylab étiquette l'axe y et le paramètre principal place un titre sur la trame. Pour voir les valeurs numériques de l'ACF, utilisez simplement la commande acfma1. La simulation et les parcelles ont été effectuées avec les commandes suivantes. (X, typeb, mainSimulated MA (1) data) xcarima. sim (n150, list (mac (0.7))) Simule n 150 valeurs de MA (1) xxc10 ajoute 10 pour faire la moyenne 10. La simulation (X, xlimc (1,10), mainACF pour des données d'échantillon simulées) Dans l'exemple 2, nous avons représenté graphiquement l'ACF théorique du modèle xt 10 wt.5 w t-1 .3 w t-2. Puis a simulé n 150 valeurs à partir de ce modèle et a représenté graphiquement la série chronologique de l'échantillon et l'échantillon ACF pour les données simulées. Les ordres R utilisés étaient: ACFma2ARMAacf (mac (0,5,0,3), lag. max10) acfma2 lags0: 10 tracé (lags, acfma2, xlimc (1,10), ylabr, typeh, ACF principal pour MA (2) avec theta1 0,5, (X, typeb, principale série MA (2) simulée) acf (x, xlimc (1,10), x2) (1) Pour les étudiants intéressés, voici des preuves des propriétés théoriques du modèle MA (1). Lorsque x 1, l'expression précédente 1 w 2. Pour tout h 2, l'expression précédente 0 (x), x, x, x, x, x, La raison en est que, par définition de l'indépendance du wt. E (w k w j) 0 pour tout k j. En outre, parce que w t ont une moyenne 0, E (w j w j) E (w j 2) w 2. Pour une série chronologique, appliquer ce résultat pour obtenir l'ACF ci-dessus. Un modèle inversible MA est celui qui peut être écrit comme un modèle AR d'ordre infini qui converge de sorte que les coefficients AR convergent vers 0 alors que nous avançons infiniment dans le temps. Bien démontrer l'inversibilité pour le modèle MA (1). On substitue alors la relation (2) pour w t-1 dans l'équation (1) (3) (zt wt theta1 (z - theta1w) wt theta1z - theta2w) Au temps t-2. L'équation (2) devient Nous substituons alors la relation (4) pour w t-2 dans l'équation (3) (zt wt theta1 z - theta21w wt theta1z - theta21 (z - theta1w) wt theta1z - theta12z theta31w) Si nous devions continuer On notera cependant que si 1 1, les coefficients multipliant les décalages de z augmentent (infiniment) en taille à mesure que l'on se déplace vers l'arrière temps. Pour éviter cela, nous avons besoin de 1 lt1. C'est la condition pour un modèle inversible MA (1). Infinite Order MA model Dans la semaine 3, voyez bien qu'un modèle AR (1) peut être converti en un modèle d'ordre infini MA: (xt - mu wt phi1w phi21w points phik1 w dots sum phij1w) Cette sommation des termes de bruit blanc passé est connue Comme la représentation causale d'un AR (1). En d'autres termes, x t est un type spécial de MA avec un nombre infini de termes revenant dans le temps. C'est ce qu'on appelle un ordre infini MA ou MA (). Un ordre fini MA est un ordre infini AR et tout ordre fini AR est un ordre infini MA. Rappelons à la semaine 1, nous avons noté qu'une exigence pour un AR stationnaire (1) est que 1 lt1. Calculons le Var (x t) en utilisant la représentation causale. Cette dernière étape utilise un fait de base sur les séries géométriques qui nécessite (phi1lt1) sinon la série diverge. NavigationLa première étape dans le développement d'un modèle de Box-Jenkins est de déterminer si la série est stationnaire et s'il ya une saisonnalité significative qui doit être modélisée. La stationnarité peut être évaluée à partir d'un diagramme séquentiel. Le tracé de la séquence d'exécution doit montrer un emplacement et une échelle constants. Il peut également être détecté à partir d'un graphe d'autocorrélation. Plus précisément, la non-stationnarité est souvent indiquée par un graphique d'autocorrélation avec une décroissance très lente. Différenciation pour atteindre la stationnarité Box et Jenkins recommandent l'approche de différenciation pour atteindre la stationnarité. Cependant, l'ajustement d'une courbe et la soustraction des valeurs ajustées des données d'origine peuvent également être utilisés dans le contexte des modèles Box-Jenkins. Au stade de l'identification du modèle, notre objectif est de détecter la saisonnalité, s'il existe, et d'identifier l'ordre des moyennes saisonnières autorégressives et saisonnières. Pour de nombreuses séries, la période est connue et un seul terme de saisonnalité est suffisant. Par exemple, pour les données mensuelles, nous inclurons généralement un terme AR 12 saisonnier ou un terme saisonnier MA 12. Pour les modèles Box-Jenkins, nous ne supprimons pas explicitement la saisonnalité avant d'installer le modèle. Au lieu de cela, nous incluons l'ordre des termes saisonniers dans la spécification du modèle au logiciel d'estimation ARIMA. Cependant, il peut être utile d'appliquer une différence saisonnière aux données et de régénérer les parcelles d'autocorrélation et d'autocorrélation partielle. Cela peut aider à identifier le modèle de la composante non saisonnière du modèle. Dans certains cas, la différenciation saisonnière peut supprimer la plupart ou la totalité de l'effet saisonnier. Identifier p et q Une fois que la stationnarité et la saisonnalité ont été abordées, l'étape suivante consiste à identifier l'ordre (c'est-à-dire les (p) et (q)) des termes autorégressifs et mobiles. Autocorrélation et parcelles d'autocorrélation partielle Les outils primaires pour ce faire sont le graphe d'autocorrélation et le tracé d'autocorrélation partielle. Le graphique d'autocorrélation de l'échantillon et le graphique d'autocorrélation partielle de l'échantillon sont comparés au comportement théorique de ces parcelles lorsque l'ordre est connu. Ordre du processus autorégressif (p)) Spécifiquement, pour un processus AR (1), la fonction d'autocorrélation de l'échantillon devrait avoir une apparence décroissante exponentiellement. Cependant, les processus AR de plus haut ordre sont souvent un mélange de composants sinusoïdaux décroissants et amortis de façon exponentielle. Pour les processus autorégressifs d'ordre supérieur, l'autocorrélation de l'échantillon doit être complétée par un graphique d'autocorrélation partielle. L'autocorrélation partielle d'un processus AR ((p)) devient zéro au décalage (p 1) et plus grand, donc nous examinons la fonction d'autocorrélation partielle de l'échantillon pour voir s'il existe une évidence d'un départ de zéro. Cela est habituellement déterminé en plaçant un intervalle de confiance de 95 sur le graphique d'autocorrélation partielle de l'échantillon (la plupart des programmes logiciels qui génèrent des diagrammes d'autocorrélation d'échantillons vont également tracer cet intervalle de confiance). Si le programme ne génère pas la bande de confiance, il est d'environ (pm 2sqrt), avec (N) indiquant la taille de l'échantillon. (Q)) La fonction d'autocorrélation d'un processus MA ((q)) devient zéro à lag (q 1) et plus, donc nous examinons la fonction d'autocorrélation de l'échantillon pour voir où elle devient essentiellement nulle. Nous le faisons en plaçant l'intervalle de confiance 95 pour la fonction d'autocorrélation de l'échantillon sur le graphique d'autocorrélation de l'échantillon. La plupart des logiciels qui peuvent générer le graphe d'autocorrélation peuvent également générer cet intervalle de confiance. La fonction d'autocorrélation partielle de l'échantillon n'est généralement pas utile pour identifier l'ordre du processus de la moyenne mobile. Forme de la fonction d'autocorrélation Le tableau suivant résume comment nous utilisons la fonction d'autocorrélation de l'échantillon pour l'identification du modèle. Pourquoi: Vérifier l'aléatoire Les diagrammes d'autocorrélation (Box et Jenkins, pp. 28-32) sont un outil couramment utilisé pour vérifier le caractère aléatoire dans un ensemble de données. Ce caractère aléatoire est déterminé en calculant des autocorrélations pour des valeurs de données à différents décalages temporels. Si elles sont aléatoires, ces autocorrélations devraient être proches de zéro pour toutes les séparations temporelles. Si elle n'est pas aléatoire, une ou plusieurs des autocorrélations seront significativement non nulles. De plus, les diagrammes d'autocorrélation sont utilisés dans le modèle d'identification des modèles auto-régressifs de Box-Jenkins, modèles de séries temporelles mobiles. L'autocorrélation est une seule mesure de l'aléa Notez que non corrélée ne signifie pas nécessairement aléatoire. Les données qui ont une autocorrélation significative n'est pas aléatoire. Cependant, les données qui ne montrent pas d'autocorrélation significative peuvent encore présenter un caractère non aléatoire d'autres façons. L'autocorrélation n'est qu'une mesure du hasard. Dans le contexte de la validation de modèle (qui est le type primaire de hasard que nous décrivons dans le Manuel), la vérification de l'autocorrélation est généralement un test de hasard suffisant puisque les résidus d'un mauvais modèle d'ajustement ont tendance à afficher un aléatoire non subtil. Cependant, certaines applications nécessitent une détermination plus rigoureuse du caractère aléatoire. Dans ces cas, une batterie de tests, qui peuvent inclure la vérification de l'autocorrélation, sont appliqués puisque les données peuvent être non aléatoires de nombreuses façons différentes et souvent subtiles. Un exemple de l'endroit où un contrôle plus rigoureux pour le hasard est nécessaire serait dans le test des générateurs de nombres aléatoires. Exemple de tracé: Les autocorrélations devraient être proches de zéro pour le hasard. Ce n'est pas le cas dans cet exemple et donc l'hypothèse de hasard échoue. Cet exemple de graphique d'autocorrélation montre que la série chronologique n'est pas aléatoire, mais présente plutôt un degré élevé d'autocorrélation entre des observations adjacentes et presque adjacentes. Définition: r (h) versus h Les tracés d'autocorrélation sont formés par l'axe vertical: Coefficient d'autocorrélation où C h est la fonction d'autocovariance et C 0 est la fonction de variance Notez que R h est compris entre -1 et 1. Notez que certaines sources peuvent utiliser le Formule suivante pour la fonction d'autocovariance Bien que cette définition ait moins de biais, la formulation (1 N) présente certaines propriétés statistiques souhaitables et est la forme la plus couramment utilisée dans la littérature statistique. Voir les pages 20 et 49-50 dans Chatfield pour plus de détails. Axe horizontal: Décalage h (h 1, 2, 3.) La ligne ci-dessus contient également plusieurs lignes de référence horizontales. La ligne médiane est à zéro. Les quatre autres lignes sont 95 et 99 bandes de confiance. Notez qu'il existe deux formules distinctes pour générer les bandes de confiance. Si le graphe d'autocorrélation est utilisé pour tester le caractère aléatoire (c'est-à-dire qu'il n'y a pas de dépendance temporelle dans les données), on recommande la formule suivante: où N est la taille de l'échantillon, z est la fonction de distribution cumulative de la distribution normale normale et ) Est le niveau de signification. Dans ce cas, les bandes de confiance ont une largeur fixe qui dépend de la taille de l'échantillon. C'est la formule qui a servi à générer les bandes de confiance dans le graphique ci-dessus. Les diagrammes d'autocorrélation sont également utilisés dans l'étape d'identification du modèle pour l'ajustement des modèles ARIMA. Dans ce cas, un modèle de moyenne mobile est supposé pour les données et les bandes de confiance suivantes doivent être générées: où k est le lag, N est la taille de l'échantillon, z est la fonction de distribution cumulative de la distribution normale standard et (alpha) est Le niveau de signification. Dans ce cas, les bandes de confiance augmentent à mesure que le décalage augmente. Le diagramme d'autocorrélation peut fournir des réponses aux questions suivantes: Les données aléatoires Est-ce une observation liée à une observation adjacente Est-ce une observation liée à une observation à deux reprises (etc.) Est la série chronologique observée le bruit blanc Est-ce que la série chronologique observée est sinusoïdale Est-ce que la série chronologique observée est autorégressive Qu'est-ce qu'un modèle approprié pour les séries temporelles observées? Le modèle est-il valable et suffisant? La formule s sqqt est-elle valide? L'une des quatre hypothèses qui sous-tendent généralement tous les processus de mesure. L'hypothèse du hasard est d'une importance critique pour les trois raisons suivantes: La plupart des tests statistiques standard dépendent du caractère aléatoire. La validité des conclusions du test est directement liée à la validité de l'hypothèse de randomisation. De nombreuses formules statistiques couramment utilisées dépendent de l'hypothèse de randomisation, la formule la plus courante étant la formule pour déterminer l'écart-type de la moyenne de l'échantillon: où s est l'écart-type des données. Bien que fortement utilisé, les résultats de l'utilisation de cette formule n'ont aucune valeur à moins que l'hypothèse de l'aléatoire tient. Pour les données univariées, le modèle par défaut est Si les données ne sont pas aléatoires, ce modèle est incorrect et non valide, et les estimations pour les paramètres (comme la constante) deviennent non-sens et non valides. En bref, si l'analyste ne vérifie pas le caractère aléatoire, la validité de nombreuses conclusions statistiques devient suspecte. Le diagramme d'autocorrélation est un excellent moyen de vérifier cette aléatoire.


No comments:

Post a Comment