ARIMA – Wikipédia, a enciclopédia livre

Em estatística e econometria, particularmente em análise de séries temporais, um modelo auto-regressivo integrado de médias móveis (autoregressive integrated moving average ou ARIMA, na sigla em inglês) é uma generalização de um modelo auto-regressivo de médias móveis (ARMA). Ambos os modelos são ajustados aos dados da série temporal para entender melhor os dados ou para prever pontos futuros na série. Modelos ARIMA são aplicados em alguns casos em que os dados mostram evidências de não estacionariedade, em que um passo inicial de diferenciação (correspondente à parte "integrada" do modelo) pode ser aplicado uma ou mais vezes para eliminar a não estacionariedade.^[1]

A parte auto-regressiva (AR) do modelo ARIMA indica que a variável evoluinte de interesse é regressada em seus próprios valores defasados, isto é, anteriores. A parte de média móvel (MA) indica que o erro de regressão é na verdade uma combinação linear dos termos de erro, cujos valores ocorreram contemporaneamente e em vários momentos no passado. A parte integrada (I) indica que os valores de dados foram substituídos com a diferença entre seus valores e os valores anteriores e este processo diferenciador pode ter sido realizado mais de uma vez. O propósito da cada uma destas características é fazer o modelo se ajustar aos dados da melhor forma possível.^[2]

Modelos ARIMA não sazonais são geralmente denotados como ARIMA( $p,d,q$ ), em que os parâmetros $p$ , $d$ e $q$ são números inteiros não negativos, $p$ é a ordem (número de defasagens) do modelo auto-regressivo, $d$ é o grau de diferenciação (o número de vezes em que os dados tiveram valores passados subtraídos) e $q$ é a ordem do modelo de média móvel. Modelos ARIMA sazonais são geralmente denotados como ARIMA( $p,d,q$ )( $P,D,Q$ ) $_{m}$ , em que $m$ se refere ao número de períodos em cada temporada e $P$ , $D$ e $Q$ se referem aos termos de auto-regressão, diferenciação e média móvel para a parte sazonal do modelo ARIMA.^[3]^[4]

Quando dois dos três termos são iguais a zero, o modelo pode ser referido com base no parâmetro diferente de zero, retirando "AR", "I" ou "MA" do acrônimo que descreve o modelo. Por exemplo, ARIMA( $1,0,0$ ) é AR( $1$ ), ARIMA( $0,1,0$ ) é I( $1$ ) e ARIMA( $0,0,1$ ) é MA( $1$ ).

Modelos ARIMA podem ser estimados seguindo a abordagem de Box–Jenkins.^[5]

Definição

Dada uma série temporal de dados $X_{t}$ , em que $t$ é um índice representado por um número inteiro e $X_{t}$ são números reais, um modelo ARMA( $p,q$ ) é dado por:^[6]

$X_{t}-\alpha _{1}X_{t-1}-...-\alpha _{p'}X_{t-p'}=\varepsilon _{t}+\theta _{1}\varepsilon _{t-1}+...+\theta _{q}\varepsilon _{t-q},$

ou equivalentemente por

$\left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)X_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t},$

em que $L$ é operador de defasagem, $\alpha _{i}$ são os parâmetros da parte auto-regressiva do modelo, $\theta _{i}$ são os parâmetros da parte de média móvel e $\varepsilon _{t}$ são os termos de erro. Os termos de erro $\varepsilon _{t}$ são geralmente assumidos como variáveis independentes e identicamente distribuídas amostradas a partir de uma distribuição normal com média zero. Assuma agora que o polinômio $\textstyle \left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)$ tem uma raiz unitária (um fator $(1-L)$ ) de multiplicidade $d$ . Então, isto pode ser rescrito como:

$\left(1-\sum _{i=1}^{p'}\alpha _{i}L^{i}\right)=\left(1-\sum _{i=1}^{p'-d}\phi _{i}L^{i}\right)\left(1-L\right)^{d}.$

Um processo ARIMA( $p,d,q$ ) expressa a propriedade de fatoração deste polinômio com $p=p'-d$ , sendo dado por:

$\left(1-\sum _{i=1}^{p}\phi _{i}L^{i}\right)(1-L)^{d}X_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t},$

e assim pode ser pensado como um caso particular de um processo ARMA( $p+d,q$ ) que tem o polinômio auto-regressivo com $d$ raízes unitárias. Por esta razão, nenhum modelo ARIMA com $d>0$ é estacionário em sentido amplo. O que foi descrito acima pode ser generalizado como:

$\left(1-\sum _{i=1}^{p}\phi _{i}L^{i}\right)(1-L)^{d}X_{t}=\delta +\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}.$

Isto define um processo ARIMA( $p,d,q$ ) com deriva $\delta /(1-\Sigma \phi _{1})$ .

Outras formas especiais

A identificação explícita da fatoração do polinômio de auto-regressão em fatores como descrita acima pode ser estendida a outros casos, primeiramente para aplicar ao polinômio de média móvel e, em segundo lugar, para incluir outros fatores especiais. Por exemplo, ter um fator $(1-L^{s})$ em um modelo é uma forma de incluir uma sazonalidade não estacionária do período $s$ no modelo. Este fator tem o efeito de reexpressar os dados como mudanças a partir de $s$ períodos atrás. Outro exemplo é o fator $\left(1-{\sqrt {3}}L+L^{2}\right)$ , que inclui uma sazonalidade não estacionária de período igual a 2. O efeito do primeiro tipo de fator é permitir ao valor de cada temporada derivar separadamente ao longo tempo, enquanto os valores do segundo tipo para temporadas adjacentes se movem juntos.^[6]

A identificação e a especificação de fatores apropriados em um modelo ARIMA podem ser passos importantes na modelagem, já que permitem uma redução no número geral de parâmetros a serem estimados, enquanto autorizam a imposição de tipos de comportamento sugeridos pela lógica e pela experiência sobre o modelo.^[6]

Diferenciação

A diferenciação em estatística é uma transformação aplicada aos dados de uma série temporal a fim de tornar esta série estacionária. As propriedades de uma série temporal estacionária não dependem do tempo em que a série é observada.

A fim de diferenciar os dados, a diferença entre observações consecutivas é computada. Matematicamente, isto é mostrado como:^[7]

$y_{t}'=y_{t}-y_{t-1}.$

A diferenciação remove as mudanças no nível de uma série temporal, eliminando tendência e sazonalidade e consequentemente estabilizando a média da série temporal. Pode ser necessário às vezes diferenciar os dados uma segunda vez para obter uma série temporal estacionária, processo referido como diferenciação de segunda ordem:^[8]

${\begin{aligned}y_{t}^{*}&=y_{t}'-y_{t-1}'\\&=(y_{t}-y_{t-1})-(y_{t-1}-y_{t-2})\\&=y_{t}-2y_{t-1}+y_{t-2}.\end{aligned}}$

Outro método de diferenciar os dados é a diferenciação sazonal, que envolve computar a diferença entre uma observação e a observação correspondente no ano anterior. Isto é mostrado como:

$y_{t}'=y_{t}-y_{t-m}\quad {\text{em que }}m={\text{quantidade de temporadas}}.$

Os dados diferenciados são então usados para a estimação de um modelo ARMA.

Exemplos

Alguns casos especiais bem conhecidos surgem naturalmente ou são matematicamente equivalentes a outros modelos de previsão populares. Por exemplo:

Um modelo ARIMA( $0,1,0$ ) (ou modelo I( $1$ )) é dado por $X_{t}=X_{t-1}+\varepsilon _{t}$ — que é simplesmente um passeio aleatório;
Um modelo ARIMA( $0,1,0$ ) com uma constante é dado por $X_{t}=c+X_{t-1}+\varepsilon _{t}$ — que é um passeio aleatório com deriva;
Um modelo ARIMA( $0,0,0$ ) é um modelo de ruído branco;
Um modelo ARIMA( $0,1,2$ ) é um modelo de Holt amortecido;
Um modelo ARIMA( $0,1,1$ ) sem uma constante é um modelo básico de suavização exponencial;^[9]
Um modelo ARIMA( $0,2,2$ ) é dado por $X_{t}=2X_{t-1}-X_{t-2}+(\alpha +\beta -2)\varepsilon _{t-1}+(1-\alpha )\varepsilon _{t-2}+\varepsilon _{t}$ — que é equivalente ao método linear de Holt com erros aditivos ou suavização exponencial dupla.^[10]

Escolha da ordem

Para determinar a ordem de um modelo ARIMA não sazonal, um critério útil é o critério de informação de Akaike (AIC).^[9] É escrito como:

${\text{AIC}}=-2\log(L)+2(p+q+k+1),$

em que $L$ é verossimilhança dos dados, $p$ é a ordem da parte auto-regressiva e $q$ é a ordem da parte de média móvel. O parâmetro $k$ neste critério é definido como o número de parâmetros no modelo sendo ajustado aos dados. Para o AIC, se $k=1$ , então $c\neq 0$ , e se $k=0$ , então $c=0$ . O AIC corrigido para modelos ARIMA pode ser escrito como:

$AICc=AIC+(2(p+q+k+1)(p+q+k+2))/(T-p-q-k-2).$

O critério de informação bayesiano (BIC) pode ser escrito como:

$BIC=AIC+(\log(T)-2)(p+q+k+1).$

O objetivo é o minimizar os valores de AIC, AICc e BIC para um bom modelo. Quanto menor o valor de um destes critérios para uma gama de modelos investigados, melhor o modelo se adequará aos dados. Deve-se notar entretanto que o AIC e o BIC são usados para dois propósitos completamente diferentes. Enquanto o AIC tenta aproximar modelos da realidade da situação, o BIC tenta encontrar o ajuste perfeito. A abordagem do BIC é frequentemente criticada, já que nunca há um ajuste perfeito aos dados complexos da vida real. No entanto, ainda é um método útil para seleção, já que penaliza mais intensamente modelos por terem mais parâmetros do que o AIC faria.

O AICc pode ser usado apenas para comparar modelos ARIMA com as mesmas ordens de diferenciação. Para modelos ARIMA como ordens distintas de diferenciação, a raiz do erro quadrático médio pode ser usada para comparação de modelos.

Previsões com modelos ARIMA

O modelo ARIMA pode ser visto como uma "cascata" de dois modelos. O primeiro é não estacionário:

$Y_{t}=(1-L)^{d}X_{t},$

enquanto o segundo é estacionário em sentido amplo:

$\left(1-\sum _{i=1}^{p}\phi _{i}L^{i}\right)Y_{t}=\left(1+\sum _{i=1}^{q}\theta _{i}L^{i}\right)\varepsilon _{t}.$

Agora, previsões podem ser feitas para o processo $Y_{t}$ , usando uma generalização do método de previsão auto-regressiva.^[11]

Intervalos de previsão

Os intervalos de previsão (intervalos de confiança para previsões) para modelos ARIMA são baseados no pressuposto de que os resíduos são não correlacionados e normalmente distribuídos. Se um destes dois pressupostos não se aplicar, então, os intervalos de previsão podem estar incorretos. Por esta razão, pesquisadores mapeiam a função autocorrelação e o histograma dos resíduos para checar os pressupostos antes de produzirem os intervalos de previsão.

No caso de intervalo de previsão de 95%, tem-se:

${\hat {y}}_{T+h|T}\pm 1.96{\sqrt {v_{T+h|T}}}$ ,

em que $v_{T+h|T}$ é a variância de $y_{T+h}|y_{1},...,y_{T}$ .

Para $h=1$ , $v_{T+h|T}={\hat {\sigma }}^{2}$ para todos os modelos ARIMA, independentemente dos parâmetros e das ordens.

No caso de um modelo ARIMA( $0,0,q$ ), $y_{t}=e_{t}+\sum _{i=1}^{q}\theta _{i}e_{t-i}$ , temos:

$v_{T+h\mid T}={\hat {\sigma }}^{2}\left[1+\sum _{i=1}^{h-1}\theta _{i}e_{t-i}\right],{\text{para }}h=2,3,\dots .$

Em geral, intervalos de previsão de modelos ARIMA aumentarão conforme o horizonte de previsão aumenta.

Variações e extensões

Uma quantidade de variações sobre o modelo ARIMA é comumente empregada. Se séries temporais múltiplas forem usadas, então, $X_{t}$ podem ser pensados como vetores e um modelo auto-regressivo integrado de médias móveis vetorial (VARIMA).^[12] Algumas vezes, suspeita-se de um efeito sazonal no modelo. Neste caso, geralmente é melhor usar um modelo auto-regressivo integrado de médias móveis sazonal (SARIMA) do que aumentar a ordem das partes AR ou MA do modelo.^[13] Se se suspeitar que a série temporal exibe dependência de longo intervalo, então, pode-se permitir ao parâmetro $d$ ter valores não inteiros em um modelo auto-regressivo fracionariamente integrado de médias móveis, que também é chamado de modelo ARIMA fracionário (FARIMA ou ARFIMA).^[14]

Ver também

Referências

↑ «8.1 Stationarity and differencing | OTexts». www.otexts.org (em inglês). Consultado em 3 de agosto de 2017
↑ Greene, William H. (1997). Econometric Analysis (em inglês). [S.l.]: Prentice Hall. ISBN 9780023466021
↑ «SAS/ETS(R) 9.3 User's Guide». support.sas.com (em inglês). Consultado em 3 de agosto de 2017
↑ «8.9 Seasonal ARIMA models | OTexts». www.otexts.org (em inglês). Consultado em 3 de agosto de 2017
↑ Asteriou, Dimitrios; Hall, Stephen G. (12 de outubro de 2015). Applied Econometrics (em inglês). [S.l.]: Palgrave Macmillan. ISBN 9781137415479
↑ ^a ^b ^c Vu, Ky M. (2007). The ARIMA and VARIMA Time Series: Their Modelings, Analyses and Applications (em inglês). [S.l.]: AuLac Technologies Inc. ISBN 9780978399610
↑ TIME SERIES PROPERTIES OF ECONOMETRIC MODELS AND THEIR IMPLIED ARIMA REPRESENTATION. (em inglês). [S.l.]: University of MICHIGAN. 1982
↑ Mills, Terence C. (13 de junho de 1991). Time Series Techniques for Economists (em inglês). [S.l.]: Cambridge University Press. ISBN 9780521405744
↑ ^a ^b Business, Fuqua School of. «Introduction to ARIMA models». people.duke.edu. Consultado em 3 de agosto de 2017
↑ TimeModels.jl: Modeling time series in Julia, Julia Statistics, 2 de maio de 2017, consultado em 3 de agosto de 2017
↑ Forecasting with limited information: ARIMA models of the trailer on flatcar transportation market (em inglês). [S.l.: s.n.] 1974
↑ Pawlowsky-Glahn, Vera; Buccianti, Antonella (19 de setembro de 2011). Compositional Data Analysis: Theory and Applications (em inglês). [S.l.]: John Wiley & Sons. ISBN 9780470711354
↑ Valipour, Mohammad (1 de julho de 2015). «Long-term runoff study using SARIMA and ARIMA models in the United States». Meteorological Applications (em inglês). 22 (3): 592–598. ISSN 1469-8080. doi:10.1002/met.1491
↑ Shu, Yantai; Jin, Zhigang; Wang, Jidong; Yang, O. W. W. (2000). «Prediction-based admission control using FARIMA models». 2000 IEEE International Conference on Communications. ICC 2000. Global Convergence Through Communications. Conference Record. 3: 1325–1329 vol.3. doi:10.1109/icc.2000.853713

[1] «8.1 Stationarity and differencing | OTexts». www.otexts.org (em inglês). Consultado em 3 de agosto de 2017

[2] Greene, William H. (1997). Econometric Analysis (em inglês). [S.l.]: Prentice Hall. ISBN 9780023466021

[3] «SAS/ETS(R) 9.3 User's Guide». support.sas.com (em inglês). Consultado em 3 de agosto de 2017

[4] «8.9 Seasonal ARIMA models | OTexts». www.otexts.org (em inglês). Consultado em 3 de agosto de 2017

[5] Asteriou, Dimitrios; Hall, Stephen G. (12 de outubro de 2015). Applied Econometrics (em inglês). [S.l.]: Palgrave Macmillan. ISBN 9781137415479

[:0-6] Vu, Ky M. (2007). The ARIMA and VARIMA Time Series: Their Modelings, Analyses and Applications (em inglês). [S.l.]: AuLac Technologies Inc. ISBN 9780978399610

[7] TIME SERIES PROPERTIES OF ECONOMETRIC MODELS AND THEIR IMPLIED ARIMA REPRESENTATION. (em inglês). [S.l.]: University of MICHIGAN. 1982

[8] Mills, Terence C. (13 de junho de 1991). Time Series Techniques for Economists (em inglês). [S.l.]: Cambridge University Press. ISBN 9780521405744

[:1-9] Business, Fuqua School of. «Introduction to ARIMA models». people.duke.edu. Consultado em 3 de agosto de 2017

[10] TimeModels.jl: Modeling time series in Julia, Julia Statistics, 2 de maio de 2017, consultado em 3 de agosto de 2017

[11] Forecasting with limited information: ARIMA models of the trailer on flatcar transportation market (em inglês). [S.l.: s.n.] 1974

[12] Pawlowsky-Glahn, Vera; Buccianti, Antonella (19 de setembro de 2011). Compositional Data Analysis: Theory and Applications (em inglês). [S.l.]: John Wiley & Sons. ISBN 9780470711354

[13] Valipour, Mohammad (1 de julho de 2015). «Long-term runoff study using SARIMA and ARIMA models in the United States». Meteorological Applications (em inglês). 22 (3): 592–598. ISSN 1469-8080. doi:10.1002/met.1491

[14] Shu, Yantai; Jin, Zhigang; Wang, Jidong; Yang, O. W. W. (2000). «Prediction-based admission control using FARIMA models». 2000 IEEE International Conference on Communications. ICC 2000. Global Convergence Through Communications. Conference Record. 3: 1325–1329 vol.3. doi:10.1109/icc.2000.853713

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

v d e Econometria
Regressão linear	Método dos mínimos quadrados · R² · Teste t · Teste F · Valor-p
Regressão não-linear	Modelo linear generalizado · Máxima verossimilhança · Método dos momentos generalizados
Ajustes nos modelos	Correlação serial · Endogeneidade · Heteroscedasticidade · Mínimos quadrados de dois estágios · Multicolinearidade · Variável dummy · Variáveis instrumentais · Regressão quantílica · Teste de especificação de Hausman
Variável dependente limitada	Modelo probit · Regressão logística · Regressão de Poisson
Série temporal	Autocorrelação · Ruído branco · Operador de defasagem · ARMA · ARIMA · GARCH · Dados em painel · Teste de Chow · Teste de Dickey-Fuller aumentado
Softwares	EViews · Gretl · LIMDEP & NLOGIT · IGEst · MATLAB · R · Shazam software · Stata · Octave · JMulTi · PSPP
Pessoas	Adrien-Marie Legendre · Carl Friedrich Gauss · David Dickey · George Box · Gwilym Jenkins · George Chow · Lars Peter Hansen · Ronald Fisher · Wayne Fuller

v d e Processos estocásticos
Tempo discreto	Cadeias de Markov Passeio aleatório Autoevitante Processo de Bernoulli Processo de Galton–Watson Processo de Moran Variáveis aleatórias independentes e identicamente distribuídas
Tempo contínuo	Processo de Bessel Movimento browniano Ponte Excursão Fracionário Geométrico Meander Processo de Cauchy Processo de Cox Processo de Feller Processo de Fleming–Viot Processo de Hunt Difusão de Itô Processo de Itô Processo Lévy Tempo local Processo aditivo de Markov Processo de McKean–Vlasov Processo Ornstein–Uhlenbeck Processo de Poisson Evolução de Schramm–Loewner Processo de Wiener Processo de nascimento e morte Processo de contato Passeio aleatório de tempo contínuo Processo empírico Difusão de salto
Ambos	Processo gaussiano Modelo Galves-Löcherbach Cadeias estocásticas com memória de alcance variável Modelo oculto de Markov Processo de Markov Martingale Ruído branco Processo regenerativo
Campos e outros	Processo de Dirichlet Medida de Gibbs Modelo de Hopfield Modelo de Ising Modelo de Potts Campo aleatório de Markov Processo de Pitman–Yor Grafo aleatório
Modelos de série temporal	Modelos ARCH ARIMA ARMA
Modelos financeiros	Black–Derman–Toy Black–Karasinski Chen Cox–Ingersoll–Ross (CIR) Garman–Kohlhagen Heath–Jarrow–Morton (HJM) Heston Ho–Lee Hull–White LIBOR market Rendleman–Bartter SABR volatility Vašíček Wilkie
Modelos atuariais	Bühlmann Cramér–Lundberg Sparre–Anderson
Modelos de filas	Fila M/M/1
Propriedades	Càdlàg Processo contínuo de Feller Gauss–Markov Markov Contínuo Reversível no tempo
Teoremas limites	Teorema central do limite Teorema de Donsker Teoria ergódica Teorema de Fisher–Tippett–Gnedenko Lei dos grandes números Lei do logaritmo iterado Teorema de Sanov
Desigualdades	Burkholder–Davis–Gundy Kunita–Watanabe Martingale de Doob
Ferramentas	Fórmula de Cameron–Martin Convergência de variáveis aleatórias Exponencial de Doléans-Dade Teorema da decomposição de Doob–Meyer Fórmula de Dynkin Fórmula de Feynman–Kac Teorema de Girsanov Integral de Itô Lema de Itō Teorema da continuidade de Kolmogorov Teorema da extensão de Kolmogorov Métrica de Lévy–Prokhorov Teorema de Prokhorov Integral de Skorokhod Teorema da representação de Skorokhod Espaço de Skorokhod Equação diferencial estocástica Tanaka Integral de Stratonovich Espaço de Wiener Clássico Abstrato Princípio da reflexão
Disciplinas	Ciências atuariais Econometria Teoria ergódica Matemática financeira Teoria das probabilidades Teoria das filas Estatística Cálculo estocástico Série temporal Aprendizado de máquina
Categoria:Processos estocásticos