Análisis de datos espaciales

class: center, middle, inverse, title-slide

.title[
# Análisis de datos espaciales
]
.author[
### Gustavo A. García <a href="mailto:ggarci24@eafit.edu.co" class="email">ggarci24@eafit.edu.co</a> 
]
.date[
### Econometría Espacial PhD/Maestría en Economía Universidad EAFIT
]

---

body {
text-align: justify;
}

h1{
      margin-top: -1px;
      margin-bottom: -3px;
}

.small-code pre{
  margin-bottom: -10px;
  
}

.medium-code pre{
  margin-bottom: 2px;
  
}

p.comment {
background-color: #E1E1FF;
padding: 10px;
border: 1px solid white;
margin-left: 25px;
border-radius: 15px;
text-align: justify;
}

div.block { 
background-color: #E1E1FF;
padding: 10px;
border: 1px solid white;
margin-left: 25px;
border-radius: 15px;
text-align: justify;
}

</style>

Link slides en formato [html](https://gusgarciacruz.github.io/EconometriaEspacial/AnalisisDatosEspaciales/AnalisisDatosEspaciales.html)

Link slides en formato [PDF](https://gusgarciacruz.github.io/EconometriaEspacial/AnalisisDatosEspaciales/AnalisisDatosEspaciales.pdf)

---
# En este tema

- [Principios básicos en el tratamiento de datos espaciales](#principios)

- [Efectos espaciales](#espaciales)

- [Heterogeneidad espacial](#heterogeneidad)

- [Autocorrelación o dependencia espacial](#autocorrelacion)

- [Matriz de pesos espaciales](#w)

- [Análisis exploratorio de datos en el espacio](#exploratorio)

- [Análisis confirmatorio de datos espaciales](#confirmatorio)

- [Ejercicio aplicado en R](#r)

---
# Lecturas

- Elhorst, J.P. (2010). "Applied Spatial Econometrics: Raising the Bar". *Spatial Economic Analysis*, 5(1):9–28

- Millo, G. y Piras, G. (2012). "splm: Spatial Panel Data Models in R". *Journal of Statistical Software*, 47(1):1–37

- Elhorst, J.P. (2014). *Spatial Econometrics from Cross-Sectional Data to Spatial Panels*, Springer

- LeSage, J. y Pace, R. (2014). "Interpreting spatial econometrics models". En Fischer, M. y Nijkamp, P. (Eds.), *Handbook of Regional Science*, Springer

- Halleck Vega, S. y Elhorst, J.P. (2015). "The SLX model",  *Journal of Regional Science*,  55(3):339-363

- Golgher, A. y Voss, P. (2016). "How to interpret the coefficients of spatial models: spillovers, direct and indirect Effects". *Spatial Demography*, 4:175–205

- Belotti, F., Hughes, G. y Mortari, A. (2017). "Spatial panel-data models using Stata",  *The Stata Journal*,  17(1):139-180.

---
name: principios
# Principios básicos en el tratamiento de datos espaciales
<spam style="font-size:115%">

Paelinck y Klaassen (1979) destacan cinco principios básicos en el campo de la econometría espacial y el tratamiento de datos de corte transversal en general:

- Interdependencia: todo modelo espacial ha de caracterizarse por su interdependencia, es decir, deben incorporarse relaciones mutuas entre las observaciones de las variables económicas, sociales, demográficas, etc.

- Asimetría: las relaciones espaciales son, en principio, asimétricas

- Alotopía: se ha de buscar a priori "la causa" de un fenómeno espacial en otro lugar

- No linealidad: la no linealidad de soluciones espaciales óptimas *ex-ante* conduce a modelos econométricos *ex-post* que requieren una atención particular en lo que respecta a su especificación, lo cual generalmente será no lineal

- Inclusión de variables topológicas: dado que la vida económica se desarrolla necesariamente en el espacio geográfico, un modelo espacial debe incorporar variables topológicas: coordenadas, distancias, superficies, densidades, etc.

De acuerdo a Paelink y Klaassen (1979), no siempre será posible observar estos cinco principios de construcción de modelos espaciales y probablemente pueden haber otros además de los aquí especificado

---
name: espaciales
# Efectos espaciales

Causas de la dependencia espacial:

- la delimitación arbitraria de las unidades espaciales de observación (ejemplo, zonas censales, limites municipales, departamentales...)
- problemas de agregación espacial
- la presencia de externalidades y efectos de desbordamiento

Causa de la heterogeneidad espacial:

- falta de estabilidad en el espacio del comportamiento u otras relaciones bajo estudio
- esto implica que la forma funcional y los parámetros varían con la localización y no son homogéneos en los datos
- puede ocurrir al estimar modelos econométricos con datos de sección cruzada de unidades espaciales diferentes, como regiones ricas y pobres

La heterogeneidad espacial se puede tratar con la econometría estándar que tenga en cuenta la inestabilidad estructural

---
name: heterogeneidad
# Heterogeneidad espacial

- Definición: se refiere a la variación en las relaciones en el espacio

- Aspectos de la heterogeneidad espacial:
	- <ins>la inestabilidad estructural</ins>: falta de estabilidad en el espacio del comportamiento de la variables bajo estudio. La forma funcional y los parámetros de una regresión pueden variar según la localización, por tanto, no son homogéneos en toda la muestra
	
 - <ins>la heterocedasticidad</ins>: proviene de la omisión de variables u otras formas de error de especificación que llevan a la aparición de errores de medida 
	
- La heterogeneidad espacial puede tratarse por medio de las técnicas econométricas estándar, en concreto:
	- parámetros variantes, coeficientes aleatorios (Hildreth y Houck, 1968)
	- *Switching regressions* (Quant, 1958)
	- técnicas de filtraje adaptativo espacial (Foster y Gorr, 1983)
	- expansión espacial de parámetros (Casetti, 1972)
	- regresiones ponderadas geográficamente (Fotheringham et al., 1998)
	
---
name: autocorrelacion
# Autocorrelación o dependencia espacial
<spam style="font-size:128%">

- Definición: aparece como consecuencia de la existencia de una relación funcional entre lo que ocurre en un punto determinado del espacio y lo que ocurre en otro lugar

- El valor que toma una variable en una región no viene explicado únicamente por condicionantes internos sino también por el valor de esa misma variable en otras regiones vecinas, incumpliéndose por tanto el supuesto de independencia entre las observaciones muestrales

- La autocorrelación espacial puede ser positiva o negativa
- <ins>Positiva</ins>: la presencia de un fenómeno determinado en una región lleva a que se extienda ese mismo fenómeno hacia el resto de regiones que la rodean, favoreciendo así la concentración del mismo

- <ins>Negativa</ins>: cuando la presencia de un fenómeno en una región impida o dificulte su aparición en las regiones vecinas a ella, es decir, cuando unidades geográficas cercanas sean netamente más disímiles entre ellas que entre regiones alejadas en el espacio (tablero de ajedrez)

- Cuando la variable analizada se distribuye de forma aleatoria, no existirá autocorrelación espacial

---
# Autocorrelación o dependencia espacial
<spam style="font-size:115%">

Causas: la existencia de errores de medida y fenómenos de interacción espacial
	
<ins>Errores de medida</ins>: pueden surgir, entre otros aspectos, como consecuencia de una escasa correspondencia entre la extensión espacial del fenómeno económico bajo estudio y las unidades espaciales de observación

Ejemplo: 
La correcta delimitación espacial de una variables `$x$` corresponde a las áreas ABC 
Las observaciones disponibles de `$x$` son agregadas a nivel espacial en dos niveles: 1 y 2 
Consecuencias: `$x_{1}$` observada contendrá a `$x_{A}$` y parte de `$x_{B}$`, al tiempo que `$x_{2}$` contendrá a `$x_{C}$` y parte de `$x_{B}$`
		
<img src="g1.png" width="70%" style="display: block; margin: auto;" />

Resultado: `$x$` estará correlacionada espacialmente aunque de forma espuria

<ins>Interacción espacial</ins>: también entendido como efectos de desbordamiento y de jerarquías espaciales. La existencia de efectos desbordamiento de las infraestructuras de transporte o la difusión tecnológica entre economías son ejemplos claros de fenómenos que favorecen la aparición de interdependencias entre unidades espaciales

---
# Autocorrelación o dependencia espacial

- Es posible detectar cierta similitud entre los conceptos de autocorrelación espacial y temporal en la medida en que, en ambos casos, se produce un incumplimiento de la hipótesis de independencia entre las observaciones muestrales
- Diferencias entre estos dos tipos de autocorrelaciones: 

	- la dependencia temporal es únicamente unidireccional `$\Longrightarrow$` el pasado explica el presente
	- la dependencia espacial es multidireccional `$\Longrightarrow$` una región puede no sólo estar afectada por otra región contigua a ella sino por otras muchas que la rodean, al igual que ella puede influir sobre aquéllas

- La multidireccionalidad de la dependencia espacial imposibilita la utilización del operador de retardos `$L$`, `$L^{p}x_{t}=x_{t-p}$`, ya que recoge sólo únicamente una relación unidireccional

---
name: w
# Matriz de pesos espaciales (W)
<spam style="font-size:120%">

La solución al problema de la multidireccionalidad en el contexto espacial para por la definición de la denominada matriz de pesos espaciales, de retardos o de contactos `$\textbf{W}$`:

`$$\textbf{W} = \left[ \begin{array}{cccc}
0      & w_{12} & ... & w_{1N}\\
w_{21} & 0      & ... & w_{2N}\\
\vdots & \vdots & \vdots & \vdots\\
w_{N1} & w_{N2} & ... & 0 \end{array} \right]$$`

una matriz cuadrada no estocástica cuyos elementos `$w_{ij}$` reflejan la intensidad de la interdependencia existente entre cada par de regiones `$i$` y `$j$`

No existe una definición de `$\textbf{W}$` unánimemente aceptada, si bien se ha de cumplir que dichos pesos sean no negativos y finitos (Anselin, 1980)

De forma habitual se recurre al concepto de congüidad física de primer orden, donde `$w_{ij}$` es igual a 1 si las regiones `$i$` y `$j$` son físicamente adyacentes o a 0 en caso contrario (se asume por definición que `$w_{ii}=0$`)

---
# Matriz de pesos espaciales (W)

Existen diversos criterios para la identificación de las regiones vecinas:

---
# Matriz de pesos espaciales (W)

Limitaciones de la matriz `$\textbf{W}$`:
- es simétrica, no siendo posible incorporar influencias no recíprocas, violando el segundo de los cinco principios básicos de la econometría espacial

- considera la adyacencia física como único determinante de las interdependencias regionales, descuidando con ello, por ejemplo, posibles influencias mutuas entre regiones, que, aun estando alejadas, mantienen estrechas relaciones comerciales

---
# Matriz de pesos espaciales (W)
<spam style="font-size:90%">

Definiciones de `$\textbf{W}$` basadas en la utilización de la distancia entre regiones:
- Cliff y Ord (1973, 1981): `$w_{ij}=d_{ij}^{-a}\beta_{ij}^{b}$`  
	`$d_{ij}$`: distancia entre `$i$` y `$j$`   
	`$\beta_{ij}$`: longitud relativa de la frontera común entre `$i$` y `$j$` con relación al perámetro de `$i$`  
	`$a$` y `$b$`: parámetros a estimar
- Dacey (1968): `$w_{ij}=\gamma_{ij}\beta_{ij}\alpha_{i}$`  
	`$\beta_{ij}$`: igual que antes  
	`$\gamma_{ij}$`: es un factor de contgüidad binario  
	`$\alpha_{i}$`: es el área de la región `$i$` en relación al área total del sistema
	
- Anselin (1980): matriz inversa de distancias al cuadrado, de manera que la intensidad de la interdependencia entre dos regiones disminuye con la distancia que separa sus respectivos centros

- Bodson y Peeters (1975): función logística que mide la influencia de varios canales de comunicación entre regiones como podrían ser las carreteras, el ferrocarril y otros medios de transporte

`$$w_{ij}=\sum_{n=1}^{N} K_{N}\left\{\frac{a}{1+b e^{-c_{j}d_{ij}}}\right\}$$`
`$K_{N}$`: la importancia relativa del medio de comunicación `$n$` 
`$d_{ij}$`: la distancia entre dos regiones `$i$` y `$j$`
`$N$`: el número de medios de comunicación 
`$a$`, `$b$` y `$c_{j}$`: parámetros a estimar
	
---
# Matriz de pesos espaciales (W)
<spam style="font-size:105%">

Definiciones de `$\textbf{W}$` basadas en la utilización de la distancia entre regiones:

- Case et al. (1993): `$\textbf{W}$` basada en distancias económicas, `$w_{ij}=\frac{1}{\left|x_{i}-x_{j}\right|}$`
	`$x_{i}$` y `$x_{j}$`: observaciones de características socioeconómicas, tales como la renta per capita
- Vayá et al. (1998a, 1998b) y López-Bazo et al. (1999): `$\textbf{W}$` recoge el grado de intercambio comercial entre regiones analizadas

Otras consideraciones sobre `$\textbf{W}$`:

- La matriz de pesos debe ser exógena
- Estandarización de la matriz `$\textbf{W}$`
	- se divide cada elemento `$w_{ij}$` por la suma total de la fila a la que pertenece, de forma que la suma de cada fila será igual a la unidad
`$$w_{ij}^{*}=\frac{w_{ij}}{\sum_{j}^{n} w_{ij}}$$`
	- la posibilidad de ponderar por igual la influencia total que recibe cada región de sus vecinas, con independencia del número total de vecinos de cada una de ellas, explicaría dicha transformación
	- Anselin (1988) plantea que la estandarización de `$\textbf{W}$` no es siempre adecuada, especialmente cuando ésta se basa en un concepto de distancia dado que, en este caso, la matriz estandarizada carecería de significado 
	
---
# Matriz de pesos espaciales (W)

Matriz de pesos como instrumento para recoger las interdependencias

Un ejemplo de la matriz `$\textbf{W}$`:

---
# Matriz de pesos espaciales (W)

El operador de retardo espacial

El retardo espacial de una variable resulta del producto de la matriz `$W$` y la varaible que se quiere retardar espacialmente:
`$$L(y)=\textbf{W}^{*}y=\sum_{j}^{n} w_{ij}^{*}y_{j}$$`

---
name: exploratorio
# Análisis exploratorio de datos en el espacio

- El análisis exploratorio de datos espaciales (ESDA por sus siglas en inglés) se centra de forma explícita en los efectos espaciales:
	- identificar localizaciones atípicas (*outliers* espaciales)
	- descubrir esquemas de asociación espacial (*cluster* espacial)
	- sugerir diferentes regímenes espaciales u otras formas de inestabilidad espacial

- El centro de este concepto lo ocupa la noción de autocorrelación espacial, es decir, el fenómeno por el cual la similitud locacional (observaciones con proximidad espacial) se une con la similitud de valores (correlación de atributos)

- Dimensiones del ESDA:

 - distinción entre indicadores globales y locales de asociación espacial
 - distinción entre los estadísticos basados en la vecindad y la distancia
 
---
# Análisis exploratorio de datos en el espacio

<ins>Indicadores globales de asociación espacial</ins>

- La dependencia espacial se resume en un sólo indicador
- Suelen utilizarse para conocer el rango de interacción espacial en los datos
- Estadísticos: I de Moran y C de Geary

<ins>Indicadores locales de asociación espacial (LISA por sus siglas en inglés)</ins>

- Un LISA es un indicador que consigue dos objetivos:

 - que el valor del estadístico obtenido para cada observación suministre información acerca de la relevancia de una agrupación espacial de valores similares alrededor de la misma
 - que la suma del valor del estadístico para todas las observaciones sea proporcional a un indicador global de asociación espacial

- Los LISA resultan fáciles de interpretar mediante la visualización en un mapa

---
# Análisis exploratorio de datos en el espacio

Modelos de datos en los cuales la autocorrelación espacial puede ser analizada:
- datos geoestadísticos

	- datos puntuales como una muestra de una distribución continua subyacente
	- se asume que la interacción espacial es una función suave de la distancia entre pares de observaciones
	
- datos *lattice*

 - una colección fija de localizaciones espaciales discretas (puntos o políginos)
 - la interacción espacial se entiende como una función a pasos según la cual una localización interactúa con un grupo dado de vecinos
 - esta perspectiva es la más comúnmente seguida en la estadísitca espacial y ciencias sociales 
 
---
name: confirmatorio
# Análisis confirmatorio de datos espaciales
<spam style="font-size:125%">

- El análisis confirmatorio trata los datos espaciales desde una perspectiva de modelización y está constituido por los distintos métodos de estimación, contrastes de especificación y procedimientos de validación necesarios para implementar modelos multivariantes en los que las observaciones son de corte transversal y están georeferenciados

- Tradicionalmente, el modelo suele estimarse en un primer momento sin incorporar ningún tipo de efecto espacial, de forma que los resultados de la estimación del mismo (y especialmente los residuos) sean el punto de partida de los diagnósticos de dependencia espacial

- Idealmente estos diagnósticos apuntan hacia la dirección correcta en que debe introducirse dicha dependencia espacial en el modelo

- Autocorrelación espacial residual: cuando se deduce la existencia de autocorrelación residual, se reespecifica el término de error con el objetivo de incorporar dicha estructura de dependencia espacial en el mismo

- Autocorrelación espacial sustantiva: en este caso se procede a incorporar la variable dependiente retardada espacialmente como una variable explicativa más en el modelo

---
# Análisis confirmatorio de datos espaciales

- La estimación de tales modelos debe realizarse mediante métodos basados en el principio máximo verosímil o en el método genral de los momentos, entre otros

- Una vez hecha la estimación se utilizan diagnósticos y otros procedimientos de validación a fin de seleccionar el más adecuado

- Este conjunto de estadísticos y métodos crean el cuerpo de lo que se conoce como econometría espacial

---
name: r
# Ejercicio aplicado en R

En este ejercicio se hace una aplicación de la construcción de la matrix `$W$` utilizando los datos espaciales del United Kingdom (UK), analizando la contiguidad enter las 12 regiones que la compone. En los siguientes links se encuentran los datos, el shapefile y el código utilizado en R:

- [Datos](https://gusgarciacruz.github.io/EconometriaEspacial/Taller1/data.csv)
- [Shapefile](https://gusgarciacruz.github.io/EconometriaEspacial/Taller1/UK12RS.zip)
- [Código en R](https://gusgarciacruz.github.io/EconometriaEspacial/AnalisisDatosEspaciales/L2.R)