Análisis exploratorio de datos espaciales (ESDA)

class: center, middle, inverse, title-slide

.title[
# Análisis exploratorio de datos espaciales (ESDA)
]
.author[
### Gustavo A. García <a href="mailto:ggarci24@eafit.edu.co" class="email">ggarci24@eafit.edu.co</a> 
]
.date[
### Econometría Espacial PhD/Maestría en Economía Universidad EAFIT
]

---

body {
text-align: justify;
}

h1{
      margin-top: -1px;
      margin-bottom: -3px;
}

.small-code pre{
  margin-bottom: -10px;
  
}

.medium-code pre{
  margin-bottom: 2px;
  
}

p.comment {
background-color: #E1E1FF;
padding: 10px;
border: 1px solid white;
margin-left: 25px;
border-radius: 15px;
text-align: justify;
}

div.block { 
background-color: #E1E1FF;
padding: 10px;
border: 1px solid white;
margin-left: 25px;
border-radius: 15px;
text-align: justify;
}

</style>

Link slides en formato [html](https://gusgarciacruz.github.io/EconometriaEspacial/ESDA/ESDA.html)

Link slides en formato [PDF](https://gusgarciacruz.github.io/EconometriaEspacial/ESDA/ESDA.pdf)

---
# En este tema

- [Motivación](#motivacion)

- [Contrastes globales de autocorrelación espacial](#globales)

- [Contrastes locales de autocorrelación espacial - LISA](#lisa) 
 
- [Ejercicio aplicado en R](#r)

---
# Lecturas

- Getis, A. y Ord, J.K. (1992). "The analysis of spatial association by use of distance statistics",  *Geographical Analysis*,  24(3):189-206.

- Ord, J.K. y Getis A. (1995), "Local Spatial Autocorrelation Statistics: distributional issues and an application", *Geographical Analysis*,  27(4):286-306.

- Anselin, L. (1995). "Local Indicators of Spatial Association-LISA", *Geographical Analysis*, 27(2):93-115.

- Moreno, R. y Vay , E. (2002). "Econometría Espacial: Nuevas técnicas para el análisis regional. Una aplicación a las regiones europeas". *Investigaciones Regionales*, 1:83-106.

---
name: motivacion
# Motivación

El ESDA se centra de forma explícita en los efectos espaciales y consiste en un conjunto de técnicas que permiten describir:

- distribuciones espaciales

- identificar localizaciones atípicas (*outliers* espaciales)

- describir esquemas de asociación espacial (*cluster* espacial)

- sugerir diferentes regímenes espaciales u otras formas de inestabilidad espacial

El ESDA sigue dos dimensiones:

- indicadores globales de asociación espacial

- indicadores locales de asociación espacial

---
# Motivación

- Indicadores globales

 - Constituyen la aproximación más tradicional para detectar dependencia espacial, por el que un esquema general de dependencia se resume en un indicador único o una función: la I de Moran y la C de Geary o el variograma
	- Estas medidas suelen utilizarse para conocer el rango de interacción espacial en los datos

- Indicadores locales

	- Indicadores LISA (*Local Indicator of Spatial Association*)
	
	- Objetivos del LISA:
 - el valor del estadístico obtenido para cada observación suministra información acerca de la relevancia de una agrupación espacial de valores similares alrededor de la misma
 - la suma del valor del estadístico para todas las observaciones es igual al indicador global de asociación espacial
 - Los LISA resultan fáciles de interpretar mediante la visualización en un mapa

---
name: globales
# Contrastes globales de autocorrelación espacial
<spam style="font-size:107%">

Ahora pasamos a estudiar cómo contrastar la presencia o ausencia de un esquema de dependencia espacial a nivel univariante. Entre los estadísticos que destacan se encuentran la I de Moran, la C de Geary y la G(d) de Getis y Ord
	
El contraste `$I$` de Moran (Moran, 1948)
	
El estadísitico presenta la siguiente expresión:
`$$I=\frac{N}{S_{0}}\frac{\sum_{ij}^{N}w_{ij}(x_{i}-\overline{x})(x_{j}-\overline{x})}{\sum_{i=1}^{N}(x_{i}-\overline{x})^2} \text{ } i\neq j$$`
donde `$x_{i}$` refleja el valor de la variable analizada en la región `$i$`, `$\overline{x}$` es su media muestral, `$w_{ij}$` son los pesos de la matrix `$W$`, `$N$` es el tamaño muestral y `$S_{0}=\sum_{i}\sum_{j}w_{ij}$`

Cuando el tamaño muestral es suficientemente grande la `$I$` de Moran estandarizada sigue una distribución asintótica normal:

`$$Z(I)=\frac{I-E(I)}{[V(I)]^{1/2}}\sim N(0,1)$$`
donde `$E(I)$` y `$V(I)$` son la esperanza y la varianza de `$I$`, respectivamente.

Un valor no significativo de `$Z(I)$` lleva a no rechazar la hipótesis nula de no autocorrelación espacial, mientras que un valor significativo positivo (negativo) muestra presencia un esquema de autocorrelación espacial positiva (negativa)

---
# Contrastes globales de autocorrelación espacial
<spam style="font-size:115%">

El contraste `$C$` de Geary (1954)

La `$C$` de Geary (1954) presenta la siguiente expresión:
`$$C=\frac{N-1}{2S_{0}}\frac{\sum_{ij}^{N}w_{ij}(x_{i}-x_{j})}{\sum_{i=1}^{N}(x_{i}-\overline{x})^2}i\neq j$$`
donde el significado de sus elementos es equivalente al definido para la I de Moran

Nuevamente a nivel asintótico se puede asumir que tras su estandarización se distribuye normal `$N(0,1)$`

Al igual que antes, la hipótesis nula del estadístico `$C$` de Geary es la inexistencia de autocorrelación espacial frente a la hipótesis alternativa de presencia de un esquema de dependencia espacial

Sin embargo en este caso, al contrario de lo ocurrido con la `$I$` de Moran, un valor negativo (positivo) y significativo de la `$C$` de Geary estandarizada, `$Z(C)$`, indicar la existencia de un esquema de dependencia espacial positiva (negativa)

---
# Contrastes globales de autocorrelación espacial
<spam style="font-size:115%">

El contraste `$G(d)$` de Getis y Ord (1992)

El test `$G(d)$` definido por Getis y Ord (1992) como una medida de concentración espacial de una variable `$x$`, presenta la siguiente expresión:
`$$G(d)=\frac{\sum_{i=1}^{N}\sum_{j=1}^{N}w_{ij}(d)x_{i}x_{j}}{\sum_{i=1}^{N}\sum_{j=1}^{N}x_{i}x_{j}}i\neq j$$`
donde dos pares de regiones `$i$` y `$j$` son considerados vecinas siempre que se encuentren dentro de una distancia `$d$` determinada (tomando, en este caso, `$w_{ij}(d)$` un valor igual a 1, o 0 en caso contrario

Tras la estandarización de `$G(d)$`, este estadístico se distribuye como una normal `$N(0,1)$`

La hipótesis nula asociada al contraste ya estandarizado, `$Z(G)$`, es la ausencia de asociación espacial, mientras que un valor positivo (negativo) y significativo indica la existencia de una tendencia a la concentración de valores elevados (bajos) de `$x$` en el espacio analizado

---
# Contrastes globales de autocorrelación espacial
<spam style="font-size:115%">

- Los resultados obtenidos por los diferentes contrates pueden variar, a veces dramáticamente, en función de la matriz `$W$` especificada

- En caso de utilizar una matriz de contigüidad física, es habitual replicar el cálculo del contraste `$I$` de Moran para matrices de contigüidad de ordenes superiores, con tal de contrastar si el esquema de autocorrelación espacial detectado entre regiones vecinas es extensible a regiones alejadas en el espacio

- Todos los contrastes de forma conjunta suministran información complementaria, lo cual se debe a la distinta transformación efectuada sobre la variable `$x$` y al diferente significado en el signo de los estadísticos

- La `$I$` de Moran puede considerarse como una medida de la correlación de cada `$x_{i}$` con el resto de regiones con las que se encuentra vinculada, dado que en dicho contraste las variables son introducidas en desviaciones

- La `$G(d)$` se basa en una suma de productos de la variable no normalizada, siendo por tanto utilizada como una medida del grado de asociación o concentración de la variable en el espacio

- Cabe destacar que un valor positivo (negativo) de la `$I$` de Moran indica la presencia de una asociación entre valores similares (disímiles), mientras que un valor positivo (negativo) de la `$G(d)$` indica la existencia de una concentración de valores similares elevados (bajos) de `$x$`

---
# Contrastes globales de autocorrelación espacial
<spam style="font-size:115%">

.pull-left-50[
- Otro instrumento útil en el análisis del grado de dependencia espacial de una variable es la observación del denominado *scatterplot* de Moran

- En el eje de las abscisas va las observaciones de la variable `$Y$` normalizada y en el de ordenadas el retardo espacial de dicha variable

- Si la nube de puntos está  dispersa en los cuatros cuadrantes es indicio de ausencia de correlación espacial

- Si los valores se encuentran concentrados sobre la diagonal que cruza el cuadrante I (derecha superior) y III (izquierda inferior), existe una correlación espacial positiva. Su pendiente es igual al valor obtenido por el contraste de la I de Moran

- La dependencia espacial es negativa si los valores se concentran en los dos cuadrantes restantes
]

.pull-right-50[
<img src="f1.png" width="60%" style="display: block; margin: auto;" />
]

---
name: lisa 
# Contrastes locales de autocorrelación espacial - LISA
<spam style="font-size:120%">

- Los anteriores test son válidos para contrastar la presencia de un esquema de autocorrelación espacial global, dado que analizan todas las regiones de la muestra de forma style="color:blue">conjunta

- Por ello, dichos tests no son sensibles a situaciones donde predomina una importante inestabilidad en la distribución espacial de la variable analizada

- Los tests globales no son capaces de captar situaciones donde existen style="color:blue">clusters o agrupaciones de regiones localizados en áreas específicas del territorio que concentrasen valores más elevados o bajos de lo que cabría esperar

- Por tanto, no contemplan la posibilidad de que el esquema de dependencia detectado a nivel global pueda no mantenerse en todas las unidades del espacio analizado

- Esta limitación es superada por los tests locales de asociación espacial: Moran local (`$I_{i}$`), el `$G_{i}(d)$` y `$G_{i}^{*}(d)$` de Getis y Ord

- A partir de estos test se obtiene un valor de dichos estadísticos para cada región, pudiendo así analizar la situación de cada unidad espacial por separado

---
# Contrastes locales de autocorrelación espacial - LISA
<spam style="font-size:120%">

El contraste local `$I_{i}$` de Moran (Anselin, 1995)

El estadístico tiene la siguiente forma:
	
`$$I_{i}=\frac{z_{i}}{\sum\limits_{i}z_{i}^2/N}\sum_{j\in J_{i}}w_{ij}z_{j}\sim N(0,1)$$`
donde `$z_{i}$` es el valor correspondiente a la región `$i$` de la variable normalizada y `$J_{i}$` el conjunto de regiones vecinas a `$i$`

Tras su estandarización, un valor positivo (negativo) del contraste de `$I_{i}$` indica existencia de un cluster de valores similares (disímiles) de la variable analizada alrededor de la región `$i$`

---
# Contrastes locales de autocorrelación espacial - LISA
<spam style="font-size:115%">

La `$G_{i}(d)$` de Getis y Ord (1992 y 1995)

Tiene la siguiente expresión:
	
`$$G_{i}(d)=\frac{\sum\limits_{j=1}^{N}w_{ij}(d)x_{j}}{\sum\limits_{j=1}^{N}x_{j}} i\neq j$$`
donde `$x$` es la variable de interés (no normalizada) y `$w_{ij}(d)$` son los elementos de la matriz de contactos `$W$` para una distancia dada

Getis y Ord construyeron un estadístico similar al anterior, el contraste `$G_{i}^{*}(d)$`, pero con la diferencia de que no incorpora la restricción presente en el estadístico `$G_{i}(d)$` anterior de `$j\neq i$`, permitiendo a su vez que `$w_{ii}$` sea diferente de 0:
		
`$$G_{i}^{*}(d)=\frac{\sum\limits_{j=1}^{N}w_{ij}(d)x_{j}}{\sum\limits_{j=1}^{N}x_{j}}$$`

---
# Contrastes locales de autocorrelación espacial - LISA
<spam style="font-size:115%">
La `$G_{i}(d)$` de Getis y Ord (1992 y 1995)

No obstante, los estadísticos locales construidos por Getis y Ord (1992) en un principio únicamente podían ser aplicados al caso de variables positivas y para matrices de contactos simétricas (binarias o de distancias)

Para solucionar dichas limitaciones, Ord y Getis (1995) reespecifican ligeramente los estadísticos anteriores, obteniendo los denominados `$New-G_{i}$` y `$New-G_{i}^{*}$`, cuyas expresiones generales son las siguientes (expresiones ya estandarizadas):

`$$New-G_{i} = \frac{\sum\limits_{j=1}^{N}w_{ij}x_{j} - W_{i}\overline{x}(i)}{s(i)\left\{\left[((N-1)S_{1i})-W_{i}^{*2} \right]/(N-2)\right\}^{1/2}} \text{ con } j\neq i$$`
`$$New-G_{i}^{*} = \frac{\sum\limits_{j=1}^{N}w_{ij}x_{j} - W_{i}^{*}\overline{x}}{s\left\{\left[(NS_{1i}^{*}-W_{i}^{*2} \right]/(N-1)\right\}^{1/2}}$$`
donde `$s(i)^{2}= \frac{\sum_{j} x_{j}^{2}}{N-1}-(\overline{x}(i))^{2}$`, `$\overline{x}(i)=\frac{\sum_{j} x_{j}}{N-1}$`, `$S_{1i}=\sum_{j}w_{ij}^{2}$` para `$j\neq i$`, `$S_{1i}^{*}=\sum_{j} w_{ij}^{2}$`, `$W_{i}^{*}=W_{i}+w_{ii}$` y `$W_{i}=\sum\limits_{j\neq i}w_{ij}(d)$`

Con independencia de la expresión finalmente utilizada, tras la estandarización de los estadísticos locales de Getis y Ord (distribuyéndose todos los casos asintíticamente según una normal `$N(0,1)$`), un valor significativo y positivo (negativo) de los mismos indica la existencia de un *cluster* alrededor de la región `$i$` de valores similares elevados (bajos) de la variable `$x$`

---
# Contrastes locales de autocorrelación espacial - LISA
<spam style="font-size:115%">

Algunas consideraciones de los contrastes locales

- La `$I_i$` de Moran y los `$G_{i}$` y `$G_{i}^{*}$` son estadísticos que suministran información complementaria derivada del diferente significado de sus signos

- Si bien el estadístico `$G_{i}(d)$` informa acerca de si los *clusters* de valores similares detectados por el estadístico `$I_{i}$` concentran valores elevados o bajos de la variable analizada, no son útiles para conocer las agrupaciones detectadas de valores disímiles (signo negativo de la `$I_{i}$` estandarizada)

- A partir de la `$I_{i}$` es posible conocer la contribución exacta que presenta cada región al valor del estadístico global de dependencia `$I$` de Moran, pudiéndose de esta forma detectar observaciones `$outliers$`, es decir, observaciones con una contribución excepcional al mismo

- A diferencia de la `$G(d)$`, la `$I$` de Moran puede ser expresada como la suma de las diferentes `$I_{i}$` multiplicadas por un factor de proporcionalidad `$\gamma$`:

`$$I=\sum\limits_{i}I_{i}\gamma=\sum\limits_{i}I_{i}\left[S_{0}\left(\sum\limits_{i}(x_{i}-\bar{x})^{2}/N\right)\right]^{-1}$$`

---
name: r
# Ejercicio aplicado en R

En este ejercicio se utilizan datos del censo de los Estados Unidos para el año 2000, en particular, la información de Manhattan en la ciudad de New York. Se tiene 297 census tracks (o manzanas) y se va a analizar la variable de porcentaje de personas desempleadas (*T0P_UEMP*).

En los siguientes links se encuentran los datos, el shapefile y el código utilizado en R:

- [Shapefile](https://gusgarciacruz.github.io/EconometriaEspacial/ESDA/NewYork.zip)
- [Código en R](https://gusgarciacruz.github.io/EconometriaEspacial/ESDA/L5_2.R)