class: center, middle, inverse, title-slide .title[ # Análisis exploratorio de datos espaciales (ESDA) ] .author[ ### Gustavo A. García
ggarci24@eafit.edu.co
] .date[ ###
Econometría Espacial
PhD/Maestría en Economía
Universidad EAFIT
] --- <style> .notbold{ font-weight:normal } body { text-align: justify; } h1{ margin-top: -1px; margin-bottom: -3px; } .small-code pre{ margin-bottom: -10px; } .medium-code pre{ margin-bottom: 2px; } p.comment { background-color: #E1E1FF; padding: 10px; border: 1px solid white; margin-left: 25px; border-radius: 15px; text-align: justify; } div.block { background-color: #E1E1FF; padding: 10px; border: 1px solid white; margin-left: 25px; border-radius: 15px; text-align: justify; } </style> <font size = "5"> <br> <br> <br> <br> <br> Link slides en formato [html](https://gusgarciacruz.github.io/EconometriaEspacial/ESDA/ESDA.html) Link slides en formato [PDF](https://gusgarciacruz.github.io/EconometriaEspacial/ESDA/ESDA.pdf) --- # <span style="font-size:80%">En este tema</span> - <span style="font-size:150%">[<span style="color:black">Motivación](#motivacion)</span> <br> - <span style="font-size:150%">[<span style="color:black">Contrastes globales de autocorrelación espacial](#globales)</span> <br> - <span style="font-size:150%">[<span style="color:black">Contrastes locales de autocorrelación espacial - LISA](#lisa)</span> <br> - <span style="font-size:150%">[<span style="color:black">Ejercicio aplicado en R](#r)</span> --- # <span style="font-size:80%">Lecturas</span> <font size = "5"> - Getis, A. y Ord, J.K. (1992). "The analysis of spatial association by use of distance statistics", *Geographical Analysis*, 24(3):189-206. - Ord, J.K. y Getis A. (1995), "Local Spatial Autocorrelation Statistics: distributional issues and an application", *Geographical Analysis*, 27(4):286-306. - Anselin, L. (1995). "Local Indicators of Spatial Association-LISA", *Geographical Analysis*, 27(2):93-115. - Moreno, R. y Vay , E. (2002). "Econometría Espacial: Nuevas técnicas para el análisis regional. Una aplicación a las regiones europeas". *Investigaciones Regionales*, 1:83-106. --- name: motivacion # <span style="font-size:80%">Motivación</span> <font size = "5"> El ESDA se centra de forma explícita en los efectos espaciales y consiste en un conjunto de técnicas que permiten describir: <p style="margin-bottom: -1em"> - distribuciones espaciales - identificar localizaciones atípicas (*outliers* espaciales) - describir esquemas de asociación espacial (*cluster* espacial) - sugerir diferentes regímenes espaciales u otras formas de inestabilidad espacial El ESDA sigue dos dimensiones: <p style="margin-bottom: -1em"> - indicadores globales de asociación espacial - indicadores locales de asociación espacial --- # <span style="font-size:80%">Motivación</span> <font size = "5"> <p style="margin-bottom: -1em"> - Indicadores globales <p style="margin-bottom: -1em"> - Constituyen la aproximación más tradicional para detectar dependencia espacial, por el que un esquema general de dependencia se resume en un indicador único o una función: <span style="color:blue">la I de Moran</span> y <span style="color:blue">la C de Geary</span> o <span style="color:blue">el variograma</span> - Estas medidas suelen utilizarse para conocer el rango de interacción espacial en los datos - Indicadores locales <p style="margin-bottom: -1em"> - Indicadores LISA (*Local Indicator of Spatial Association*) <p style="margin-bottom: -1em"> - Objetivos del LISA: - el valor del estadístico obtenido para cada observación suministra información acerca de la relevancia de una agrupación espacial de valores similares alrededor de la misma - la suma del valor del estadístico para todas las observaciones es igual al indicador global de asociación espacial - Los LISA resultan fáciles de interpretar mediante la visualización en un mapa --- name: globales # <span style="font-size:80%">Contrastes globales de autocorrelación espacial</span> <spam style="font-size:107%"> Ahora pasamos a estudiar cómo contrastar la presencia o ausencia de un esquema de dependencia espacial a nivel univariante. Entre los estadísticos que destacan se encuentran la I de Moran, la C de Geary y la G(d) de Getis y Ord <span style="color:blue">El contraste `\(I\)` de Moran (Moran, 1948)</span> <p style="margin-top: -2.5em"> El estadísitico presenta la siguiente expresión: `$$I=\frac{N}{S_{0}}\frac{\sum_{ij}^{N}w_{ij}(x_{i}-\overline{x})(x_{j}-\overline{x})}{\sum_{i=1}^{N}(x_{i}-\overline{x})^2} \text{ } i\neq j$$` donde `\(x_{i}\)` refleja el valor de la variable analizada en la región `\(i\)`, `\(\overline{x}\)` es su media muestral, `\(w_{ij}\)` son los pesos de la matrix `\(W\)`, `\(N\)` es el tamaño muestral y `\(S_{0}=\sum_{i}\sum_{j}w_{ij}\)` Cuando el tamaño muestral es suficientemente grande la `\(I\)` de Moran estandarizada sigue una distribución asintótica normal: `$$Z(I)=\frac{I-E(I)}{[V(I)]^{1/2}}\sim N(0,1)$$` donde `\(E(I)\)` y `\(V(I)\)` son la esperanza y la varianza de `\(I\)`, respectivamente. Un valor no significativo de `\(Z(I)\)` lleva a no rechazar la hipótesis nula de no autocorrelación espacial, mientras que un valor significativo positivo (negativo) muestra presencia un esquema de autocorrelación espacial positiva (negativa) --- # <span style="font-size:80%">Contrastes globales de autocorrelación espacial</span> <spam style="font-size:115%"> <span style="color:blue">El contraste `\(C\)` de Geary (1954)</span> <p style="margin-top: -1em"> La `\(C\)` de Geary (1954) presenta la siguiente expresión: `$$C=\frac{N-1}{2S_{0}}\frac{\sum_{ij}^{N}w_{ij}(x_{i}-x_{j})}{\sum_{i=1}^{N}(x_{i}-\overline{x})^2}i\neq j$$` donde el significado de sus elementos es equivalente al definido para la I de Moran Nuevamente a nivel asintótico se puede asumir que tras su estandarización se distribuye normal `\(N(0,1)\)` Al igual que antes, la hipótesis nula del estadístico `\(C\)` de Geary es la inexistencia de autocorrelación espacial frente a la hipótesis alternativa de presencia de un esquema de dependencia espacial Sin embargo en este caso, al contrario de lo ocurrido con la `\(I\)` de Moran, un valor negativo (positivo) y significativo de la `\(C\)` de Geary estandarizada, `\(Z(C)\)`, indicar la existencia de un esquema de dependencia espacial positiva (negativa) --- # <span style="font-size:80%">Contrastes globales de autocorrelación espacial</span> <spam style="font-size:115%"> <span style="color:blue">El contraste `\(G(d)\)` de Getis y Ord (1992)</span> <p style="margin-top: -1em"> El test `\(G(d)\)` definido por Getis y Ord (1992) como una medida de concentración espacial de una variable `\(x\)`, presenta la siguiente expresión: `$$G(d)=\frac{\sum_{i=1}^{N}\sum_{j=1}^{N}w_{ij}(d)x_{i}x_{j}}{\sum_{i=1}^{N}\sum_{j=1}^{N}x_{i}x_{j}}i\neq j$$` donde dos pares de regiones `\(i\)` y `\(j\)` son considerados vecinas siempre que se encuentren dentro de una distancia `\(d\)` determinada (tomando, en este caso, `\(w_{ij}(d)\)` un valor igual a 1, o 0 en caso contrario Tras la estandarización de `\(G(d)\)`, este estadístico se distribuye como una normal `\(N(0,1)\)` La hipótesis nula asociada al contraste ya estandarizado, `\(Z(G)\)`, es la ausencia de asociación espacial, mientras que un valor positivo (negativo) y significativo indica la existencia de una tendencia a la concentración de valores elevados (bajos) de `\(x\)` en el espacio analizado --- # <span style="font-size:80%">Contrastes globales de autocorrelación espacial</span> <spam style="font-size:115%"> - Los resultados obtenidos por los diferentes contrates pueden variar, a veces dramáticamente, en función de la matriz `\(W\)` especificada - En caso de utilizar una matriz de contigüidad física, es habitual replicar el cálculo del contraste `\(I\)` de Moran para matrices de contigüidad de ordenes superiores, con tal de contrastar si el esquema de autocorrelación espacial detectado entre regiones vecinas es extensible a regiones alejadas en el espacio - Todos los contrastes de forma conjunta suministran información complementaria, lo cual se debe a la distinta transformación efectuada sobre la variable `\(x\)` y al diferente significado en el signo de los estadísticos - La `\(I\)` de Moran puede considerarse como una medida de la correlación de cada `\(x_{i}\)` con el resto de regiones con las que se encuentra vinculada, dado que en dicho contraste las variables son introducidas en desviaciones - La `\(G(d)\)` se basa en una suma de productos de la variable no normalizada, siendo por tanto utilizada como una medida del grado de asociación o concentración de la variable en el espacio - Cabe destacar que un valor positivo (negativo) de la `\(I\)` de Moran indica la presencia de una asociación entre valores similares (disímiles), mientras que un valor positivo (negativo) de la `\(G(d)\)` indica la existencia de una concentración de valores similares elevados (bajos) de `\(x\)` --- # <span style="font-size:80%">Contrastes globales de autocorrelación espacial</span> <spam style="font-size:115%"> .pull-left-50[ - Otro instrumento útil en el análisis del grado de dependencia espacial de una variable es la observación del denominado <span style="color:blue">*scatterplot* de Moran</span> - En el eje de las abscisas va las observaciones de la variable `\(Y\)` normalizada y en el de ordenadas el retardo espacial de dicha variable - Si la nube de puntos está dispersa en los cuatros cuadrantes es indicio de ausencia de correlación espacial - Si los valores se encuentran concentrados sobre la diagonal que cruza el cuadrante I (derecha superior) y III (izquierda inferior), existe una correlación espacial positiva. Su pendiente es igual al valor obtenido por el contraste de la I de Moran - La dependencia espacial es negativa si los valores se concentran en los dos cuadrantes restantes ] .pull-right-50[ <img src="f1.png" width="60%" style="display: block; margin: auto;" /> ] --- name: lisa # <span style="font-size:80%">Contrastes locales de autocorrelación espacial - LISA</span> <spam style="font-size:120%"> - Los anteriores test son válidos para contrastar la presencia de un esquema de autocorrelación espacial global, dado que analizan todas las regiones de la muestra de forma style="color:blue">conjunta</span> - Por ello, dichos tests no son sensibles a situaciones donde predomina una importante inestabilidad en la distribución espacial de la variable analizada - Los tests globales no son capaces de captar situaciones donde existen style="color:blue">clusters o agrupaciones de regiones</span> localizados en áreas específicas del territorio que concentrasen valores más elevados o bajos de lo que cabría esperar - Por tanto, no contemplan la posibilidad de que el esquema de dependencia detectado a nivel global pueda no mantenerse en todas las unidades del espacio analizado - Esta limitación es superada por los tests locales de asociación espacial: Moran local (`\(I_{i}\)`), el `\(G_{i}(d)\)` y `\(G_{i}^{*}(d)\)` de Getis y Ord - A partir de estos test se obtiene un valor de dichos estadísticos para cada región, pudiendo así analizar la situación de cada unidad espacial por separado --- # <span style="font-size:80%">Contrastes locales de autocorrelación espacial - LISA</span> <spam style="font-size:120%"> <span style="color:blue">El contraste local `\(I_{i}\)` de Moran (Anselin, 1995)</span> <p style="margin-top: -1em"> El estadístico tiene la siguiente forma: `$$I_{i}=\frac{z_{i}}{\sum\limits_{i}z_{i}^2/N}\sum_{j\in J_{i}}w_{ij}z_{j}\sim N(0,1)$$` donde `\(z_{i}\)` es el valor correspondiente a la región `\(i\)` de la variable normalizada y `\(J_{i}\)` el conjunto de regiones vecinas a `\(i\)` Tras su estandarización, un valor <span style="color:blue">positivo</span> (negativo) del contraste de `\(I_{i}\)` indica existencia de un <span style="color:blue">cluster de valores similares</span> (disímiles) de la variable analizada alrededor de la región `\(i\)` --- # <span style="font-size:80%">Contrastes locales de autocorrelación espacial - LISA</span> <spam style="font-size:115%"> <span style="color:blue">La `\(G_{i}(d)\)` de Getis y Ord (1992 y 1995)</span> <p style="margin-top: -1em"> Tiene la siguiente expresión: `$$G_{i}(d)=\frac{\sum\limits_{j=1}^{N}w_{ij}(d)x_{j}}{\sum\limits_{j=1}^{N}x_{j}} i\neq j$$` donde `\(x\)` es la variable de interés (no normalizada) y `\(w_{ij}(d)\)` son los elementos de la matriz de contactos `\(W\)` para una distancia dada Getis y Ord construyeron un estadístico similar al anterior, el contraste `\(G_{i}^{*}(d)\)`, pero con la diferencia de que no incorpora la restricción presente en el estadístico `\(G_{i}(d)\)` anterior de `\(j\neq i\)`, permitiendo a su vez que `\(w_{ii}\)` sea diferente de 0: `$$G_{i}^{*}(d)=\frac{\sum\limits_{j=1}^{N}w_{ij}(d)x_{j}}{\sum\limits_{j=1}^{N}x_{j}}$$` --- # <span style="font-size:80%">Contrastes locales de autocorrelación espacial - LISA</span> <spam style="font-size:115%"> <span style="color:blue">La `\(G_{i}(d)\)` de Getis y Ord (1992 y 1995)</span> <p style="margin-top: -1em"> No obstante, los estadísticos locales construidos por Getis y Ord (1992) en un principio únicamente podían ser aplicados al caso de variables positivas y para matrices de contactos simétricas (binarias o de distancias) Para solucionar dichas limitaciones, Ord y Getis (1995) reespecifican ligeramente los estadísticos anteriores, obteniendo los denominados `\(New-G_{i}\)` y `\(New-G_{i}^{*}\)`, cuyas expresiones generales son las siguientes (expresiones ya estandarizadas): `$$New-G_{i} = \frac{\sum\limits_{j=1}^{N}w_{ij}x_{j} - W_{i}\overline{x}(i)}{s(i)\left\{\left[((N-1)S_{1i})-W_{i}^{*2} \right]/(N-2)\right\}^{1/2}} \text{ con } j\neq i$$` `$$New-G_{i}^{*} = \frac{\sum\limits_{j=1}^{N}w_{ij}x_{j} - W_{i}^{*}\overline{x}}{s\left\{\left[(NS_{1i}^{*}-W_{i}^{*2} \right]/(N-1)\right\}^{1/2}}$$` donde `\(s(i)^{2}= \frac{\sum_{j} x_{j}^{2}}{N-1}-(\overline{x}(i))^{2}\)`, `\(\overline{x}(i)=\frac{\sum_{j} x_{j}}{N-1}\)`, `\(S_{1i}=\sum_{j}w_{ij}^{2}\)` para `\(j\neq i\)`, `\(S_{1i}^{*}=\sum_{j} w_{ij}^{2}\)`, `\(W_{i}^{*}=W_{i}+w_{ii}\)` y `\(W_{i}=\sum\limits_{j\neq i}w_{ij}(d)\)` Con independencia de la expresión finalmente utilizada, tras la estandarización de los estadísticos locales de Getis y Ord (distribuyéndose todos los casos asintíticamente según una normal `\(N(0,1)\)`), un valor significativo y positivo (negativo) de los mismos indica la existencia de un *cluster* alrededor de la región `\(i\)` de valores similares elevados (bajos) de la variable `\(x\)` --- # <span style="font-size:80%">Contrastes locales de autocorrelación espacial - LISA</span> <spam style="font-size:115%"> <span style="color:blue">Algunas consideraciones de los contrastes locales</span> <p style="margin-top: -1em"> - La `\(I_i\)` de Moran y los `\(G_{i}\)` y `\(G_{i}^{*}\)` son estadísticos que suministran información complementaria derivada del diferente significado de sus signos - Si bien el estadístico `\(G_{i}(d)\)` informa acerca de si los <span style="color:blue">*clusters* de valores similares</span> detectados por el estadístico `\(I_{i}\)` concentran valores elevados o bajos de la variable analizada, <span style="color:blue">no son útiles para conocer las agrupaciones detectadas de valores disímiles</span> (signo negativo de la `\(I_{i}\)` estandarizada) - A partir de la `\(I_{i}\)` es posible conocer la contribución exacta que presenta cada región al valor del estadístico global de dependencia `\(I\)` de Moran, pudiéndose de esta forma detectar observaciones `\(outliers\)`, es decir, observaciones con una contribución excepcional al mismo - A diferencia de la `\(G(d)\)`, la `\(I\)` de Moran puede ser expresada como la suma de las diferentes `\(I_{i}\)` multiplicadas por un factor de proporcionalidad `\(\gamma\)`: `$$I=\sum\limits_{i}I_{i}\gamma=\sum\limits_{i}I_{i}\left[S_{0}\left(\sum\limits_{i}(x_{i}-\bar{x})^{2}/N\right)\right]^{-1}$$` --- name: r # <span style="font-size:80%">Ejercicio aplicado en R</span> <font size = "5"> En este ejercicio se utilizan datos del censo de los Estados Unidos para el año 2000, en particular, la información de Manhattan en la ciudad de New York. Se tiene 297 census tracks (o manzanas) y se va a analizar la variable de porcentaje de personas desempleadas (*T0P_UEMP*). En los siguientes links se encuentran los datos, el shapefile y el código utilizado en R: - [Shapefile](https://gusgarciacruz.github.io/EconometriaEspacial/ESDA/NewYork.zip) - [Código en R](https://gusgarciacruz.github.io/EconometriaEspacial/ESDA/L5_2.R)