class: center, middle, inverse, title-slide .title[ # Modelos lineales de datos panel ] .author[ ### Gustavo A. García
ggarci24@eafit.edu.co
] .date[ ###
Econometría avanzada II
PhD/Maestría en Economía
Universidad EAFIT
] --- <style> .notbold{ font-weight:normal } body { text-align: justify; } h1{ margin-top: -1px; margin-bottom: -3px; } .small-code pre{ margin-bottom: -10px; } .medium-code pre{ margin-bottom: 2px; } </style> <font size = "5"> <br> <br> <br> <br> <br> Link slides en formato [html](https://gusgarciacruz.github.io/EconometriaAvanzadaII/ModelosPanel/ModelosPanel.html) Link slides en formato [PDF](https://gusgarciacruz.github.io/EconometriaAvanzadaII/ModelosPanel/ModelosPanel.pdf) --- # <span style="font-size:80%">En este tema</span> - <span style="font-size:150%">[<span style="color:black">Motivación](#motivacion)</span> <br> <br> - <span style="font-size:150%">[<span style="color:black">El problema de variables omitidas](#omitidas)</span> <br> <br> - <span style="font-size:150%">[<span style="color:black">Algunas consideraciones](#consideraciones)</span> <br> <br> - <span style="font-size:150%">[<span style="color:black">Naturaleza de los efectos inobservables](#naturaleza)</span> <br> <br> - <span style="font-size:150%">[<span style="color:black">Estimando modelos de efectos inobservables](#estimando)</span> <br> <br> - <span style="font-size:150%">[<span style="color:black">Test de Hausman](#hausman)</span><br> <br> - <span style="font-size:150%">[<span style="color:black">Qué dice Wooldridge entre RE y FE?](#wooldridge)</span><br> <br> - <span style="font-size:150%">[<span style="color:black">Ejercicio aplicado en R: determinantes de los salarios con un panel de datos](#ejercicio)</span> --- # <span style="font-size:80%">Lecturas</span> - <span style="font-size:150%">Wooldridge, J. (2010). *Econometric Analysis of Cross Section and Panel Data*. 2a edición. MA: MIT Press. <span style="color:blue">Cap 10 <br> <br> --- name: motivacion # <span style="font-size:80%">Motivación</span> <font size = "5"> - El uso de métodos de regresión de datos de panel se ha vuelto cada vez más popular a medida que la disponibilidad de datos longitudinales ha aumentado - Los datos panel contienen observaciones repetidas de series de tiempo `\((T)\)` para un gran número `\((N)\)` de unidades transversales (por ejemplo, individuos, hogares o empresas) - Una importante ventaja de utilizar datos panel es que permiten a los investigadores controlar la heterogeneidad no observable, esto es, <span style="color:blue">las diferencias sistemáticas entre las unidades de sección transversal</span> - <span style="color:blue">Omitiendo esta heterogeneidad no observable en los modelos de regresión que tiene parte temporal y transversal, la inferencia estadística podría ser sesgada</span> --- # <span style="font-size:80%">Motivación</span> <font size = "5"> - Cuando los datos de panel son disponibles, los <span style="color:blue">modelos de error de componentes</span> pueden ser usados para controla por estas diferencias individuales `\(\Longrightarrow\)` estos modelos asumen que el término de error estocástico tiene dos componentes: - un efecto individual invariante en el tiempo que captura la heterogeneidad individual inobservable - un término de error usual - Los efectos individuales invariantes en el tiempo son tratados como <span style="color:blue">variables aleatorias</span>, extraídas de la población junto con las variables explicativas, en oposición a la idea de parámetros a ser estimados - Bajo este marco, la cuestión clave es si el efecto individual no observado está o no correlacionado con las variables explicativas - Los modelos de datos panel también permiten mirar la <span style="color:blue">dinámica de las relaciones</span>, algo que no se puede en una sola sección cruzada --- name: omitidas # <span style="font-size:80%">El problema de variables omitidas</span> <font size = "5"> <spam style="font-size:90%"> - Cuando existen variables omitidas en un modelo de regresión, la estructura de datos panel puede ser usada para obtener estimadores consistentes - El interés es estimar el efecto parcial de las variables explicativas observables `\(x_j\)` sobre la variable dependiente `\(y\)`, esto es `$$E(y|x_1, x_2,...,x_K,c)$$` `\(c\)` es una variable aleatoria inobservable y nos gustará mantenerla constante cuando se obtienen los efectos parciales de las variables explicativas. <span style="color:blue">Es importante resaltar que esta variable inobservable `\(c\)` es aleatoria y no un parámetro a estimar</span> - Asumiendo un modelo lineal, se tiene `$$E(y|\textbf{x},c)=\beta_0 + \textbf{x}\pmb{\beta} + c$$` - Si `\(c\)` no se encuentra correlacionado con cada `\(x_j\)`, entonces `\(c\)` será otro factor inobservable afectando `\(y\)` y cuyo efecto es de interés - Si `\(Cov(x_j,c)\neq0\)` para alguna `\(j\)`, poniendo `\(c\)` en el término de error puede causar problemas y estimar inconsistentemente a `\(\pmb{\beta}_{K\times1}\)` --- # <span style="font-size:80%">El problema de variables omitidas</span> <font size = "5"> - Cuando se tiene panel de datos es posible lidiar con `\(Cov(\textbf{x},c)\neq\textbf{0}\)` - Por ejemplo, supongamos que observamos `\(y\)` y `\(\textbf{x}\)` en dos periodo, con lo cual tenemos `\(y_t\)` y `\(\textbf{x}_t\)`, y se supone que `\(c\)` no varia en le tiempo, entonces el modelo será `$$E(y_t | \textbf{x}_t, c)=\beta_0 + \textbf{x}_t\pmb{\beta} + c, t=1,2$$` - `\(c\)` entonces es un <span style="color:blue">efecto inobservable</span> al tener el mismo efecto sobre `\(y\)` en cada periodo y ser constante a través del tiempo - Este efecto inobservable es a menudo interpretado como características individuales inobservables, como habilidades cognitivas, motivación o educación familiar temprana --- # <span style="font-size:80%">El problema de variables omitidas</span> <font size = "5"> Surge entonces un supuesto adicional para estimar `\(\pmb{\beta}\)`. Reecribiendo el modelo tenemos `$$y_t = \beta_0 + \textbf{x}_t\pmb{\beta} + c + u_t$$` donde por definición el supuesto de <span style="color:blue">estricta exogeneidad</span> de las variables explicativas indica `$$E(u_t|\textbf{x}_t,c)=0, t=1,2$$` Lo que implica que `$$E(\textbf{x}_t^{'}u_t)=\textbf{0}, t=1,2$$` Dos consideraciones para estimar el model - si se asume que `\(E(\textbf{x}_t^{'}c)=\textbf{0}\)`, se podrá aplicar *pooled OLS* - si `\(c\)` está correlacionado con cualquier elemento de `\(\textbf{x}_t\)`, entonces *pooled OLS* es sesgado e inconsistente `\(\Longrightarrow\)` <span style="color:blue">es necesario métodos de estimación para eliminar el componente inobservable que es constante a tráves del tiempo, `\(c\)`: modelo en diferencias o el estimador *within*</span> --- name: consideraciones # <span style="font-size:80%">Algunas consideraciones</span> <font size = "5"> - Se asume un <span style="color:blue">panel balanceado</span>: se tiene el mismo número de periodos en cada unidad de corte transversal. En paneles no-balanceados se debe tener cuidado el sesgo de selección y el *attrition* - Nos centramos en las propiedades asintóticas de los estimadores, por tanto <span style="color:blue"> `\(T\)` es fijo y `\(N\)` crece sin límite</span>, así <span style="color:blue"> `\(N \geq T\)`</span>. Con un `\(N\)` grande es posible ver a las observaciones de seccón cruzada como independientes, idénticamente distribuidas tomadas de la población --- name: naturaleza # <span style="font-size:80%">Naturaleza de los efectos inobservables</span> <font size = "5"> Surge entonces una primera inquietud sobre la naturaleza de los efectos inobservables: <span style="color:blue">efectos fijos o aleatorios?</span> El modelo de efectos inobservables puede plantearse de la siguiente forma `$$y_{it} = \textbf{x}_{it}\pmb{\beta} + c_i + u_{it}, t=1,2,...,T$$` `\(c_i\)` entonces representa el <span style="color:blue">efecto individual</span> o la <span style="color:blue">heterogeneidad individual</span> La discusión entonces se centra en saber si `\(c_i\)` es tratado como un efecto aleatorio o como un efecto fijo `\(\Longrightarrow\)` <span style="color:blue">es una variable aleatoria o un parámetro a ser estimado</span> Bajo este enfoque, lo principal es saber si `\(c_i\)` está o no correlacionado con las variables explicativas `\(\textbf{x}_{it}\)` --- # <span style="font-size:80%">Naturaleza de los efectos inobservables</span> <font size = "5"> <p style="margin-bottom: -1em"> <span style="color:blue">Efectos aleatorios</span> - `\(Cov(\textbf{x}_{it},c_i)=\textbf{0}\)` - En la literatura cuando `\(c_i\)` es referenciado como <span style="color:blue">efecto aleatorio individual</span> se está asumiendo que no se encuentra correlacionado con `\(\textbf{x}_{it}\)` <p style="margin-bottom: -1em"> <span style="color:blue">Efectos fijos</span> - `\(Cov(\textbf{x}_{it},c_i)\neq\textbf{0}\)` - En este caso `\(c_i\)` es llamado <span style="color:blue">efecto fijo individual</span> --- name: estimando # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <font size = "5"> <spam style="line-height: 2em;"> - *Pooled OLS* - Modelo de efectos aleatorios - Modelo de efectos fijos - Modelo de variables dummy --- # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <spam style="font-size:115%"> **<span style="color:blue"><ins> Pooled OLS</ins> </span>** Bajo ciertos supuestos, el estimador *Pooled OLS* puede ser usado para obtener estimadores consistentes de `\(\pmb{\beta}\)`. Reescribiendo el modelo `$$y_{it} = \textbf{x}_{it}\pmb{\beta} + \upsilon_{it}$$` donde `\(\upsilon_{it}=c_i + u_{it}\)`, es lo que se llama <span style="color:blue">los errores compuestos</span>, que es la suma del efecto inobservable y un error idiosincrático La estimación *Pooled OLS* es consistente si <span style="color:blue"> `\(E(\textbf{x}_{it}^{'}\upsilon_{it})=\textbf{0}\)`</span>, es decir si <p style="margin-bottom: -1em"> <span style="color:blue"> `$$E(\textbf{x}_{it}^{'}u_{it})=\textbf{0}$$`</span> <span style="color:blue"> `$$E(\textbf{x}_{it}^{'}c_{i})=\textbf{0}$$`</span> Si los anteriores supuestos se cumplen, los errores compuestos serán serialmente correlacionados debido a la presencia de `\(c_i\)` en cada periodo de tiempo. Por tanto, la inferencia usando *Pooled OLS* requiere un estimador robusto de la matriz de varianzas y tests estadísticos robustos Es importante tener un `\(N\)` grande y un `\(T\)` fijo cuando se utilice *Pooled OLS*, para evitar que la correlación serial afecte las estimaciones --- # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <spam style="font-size:100%"> **<span style="color:blue"><ins>Modelo de efectos aleatorios</ins> </span>** Como en el caso de *Pooled OLS*, un análisis de efectos aleatorios pone a `\(c_i\)` en el término de error. Se imponen más supuestos que en el caso de *Pooled OLS* <p style="margin-bottom: -1em"> **<span style="color:blue">Supuesto RE.1</span>**: - <span style="color:blue"> `\(E(u_{it}|\textbf{x}_{i},c_i)=0\)`</span> `\(\Longrightarrow\)` exogeneidad estricta ( `\(\Longrightarrow\)` `\(E(c_i u_{it})=0\)`, `\(E(\textbf{x}_{it}^{'} u_{it})=0\)`) <p style="margin-bottom: -1em"> - <span style="color:blue"> `\(E(c_{i}|\textbf{x}_{i})=E(c_{i})=0\)`</span> `\(\Longrightarrow\)` ortogonalidad entre `\(c_i\)` y cada `\(\textbf{x}_{it}\)` La superioridad de un enfoque de efectos aleatorios sobre *Pooled OLS*, es que el primero tiene en cuenta la correlación serial en los errores compuestos, `\(\upsilon_{it}=c_i + u_{it}\)`, en un marco de <span style="color:blue">mínimos cuadrados generalizados (GLS)</span> Escribiendo el modelo para todo `\(T\)` como `$$\textbf{y}_i = \textbf{X}_i\pmb{\beta}+\textbf{v}_i$$` `\(\textbf{v}_i = c_i \textbf{j}_T + \textbf{u}_i\)`, donde `\(\textbf{j}_T\)` es un vector de unos de `\(T\times 1\)` La matriz de varianza de `\(\textbf{v}_i\)` es `$$\pmb{\Omega}=E(\textbf{v}_i\textbf{v}_i^{'})_{T\times T}$$` Para consistencia de los GLS, es necesario la usual condición de rango para GLS <center> **<span style="color:blue">Supuesto RE.2</span>**: <span style="color:blue">rango `\(E(\textbf{X}_i^{'}\pmb{\Omega}^{-1}\textbf{X}_i)=K\)`</span> --- # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <spam style="font-size:100%"> **<span style="color:blue"><ins>Modelo de efectos aleatorios</ins> </span>** Un análisis general de mínimos cuadrados generalizados factibles (FGLS), usando un estimador de `\(\pmb{\Omega}\)` es consistente y asintóticamente normal cuando `\(N\rightarrow\infty\)` Hasta este punto no se está explotando la estructura de efectos inobservables de `\(\upsilon_{it}\)`, así que es necesario adicionar supuestos sobre el error idiosincrático que da a `\(\pmb{\Omega}\)` una forma especial. Los supuestos son - <span style="color:blue"> `\(E(u_{it}^2)=\sigma_u^2\)`</span> `\(\Longrightarrow\)` Homoscedaticidad <p style="margin-bottom: -1em"> - <span style="color:blue"> `\(E(u_{it}u_{is})=0\)`</span> `\(\Longrightarrow\)` No autocorrelación Bajo estos supuestos ya es posible construir la matriz de varianzas y covarianzas de `\(\textbf{v}_i\)` `\((\pmb{\Omega})\)` <p style="margin-bottom: -1em"> Varianza: `\(E(\upsilon_{it}^2)=\sigma_c^2 + \sigma_u^2\)` Covarianza `\((t\neq s)\)`: `\(E(\upsilon_{it}^2\upsilon_{is}^2)=\sigma_c^2\)` `$$\pmb{\Omega} = E(\textbf{v}_i\textbf{v}_i^{'})= \left[ \begin{array}{cccc} \sigma_c^2 + \sigma_u^2 & \sigma_c^2 & \ldots & \sigma_c^2 \\ \sigma_c^2 & \sigma_c^2 + \sigma_u^2 & \ldots & \vdots\\ \vdots & & \ddots & \sigma_c^2\\ \sigma_c^2 & & & \sigma_c^2 + \sigma_u^2 \end{array} \right]_{T\times T} = \sigma_u^2 \textbf{I}_T + \sigma_c^2 \textbf{j}_T \textbf{j}_T^{'}$$` --- # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <spam style="font-size:100%"> **<span style="color:blue"><ins>Modelo de efectos aleatorios</ins> </span>** La correlación entre `\(\upsilon_{is}\)` y `\(\upsilon_{it}\)` es `$$Corr(\upsilon_{is},\upsilon_{it})=\frac{\sigma_c^2}{\sigma_c^2 + \sigma_u^2}\geq 0$$` Esta correlación es también el ratio de la varianza de `\(c_i\)` a la varianza del error compuesto, y es útil como <span style="color:blue">una medida de la importancia relativa del efecto inobservable `\(c_i\)`</span> Un tercer supuesto que surge es <p style="margin-bottom: -1em"> **<span style="color:blue">Supuesto RE.3</span>**: - <span style="color:blue"> `\(E(\textbf{u}_{i}\textbf{u}_{i}^{'}|\textbf{x}_{it},c_i)=\sigma_{u}^{2}\textbf{I}_T\)` - <span style="color:blue"> `\(E(c_{i}^{2}|\textbf{x}_{i})=\sigma_{c}^{2}\)`</span> El primer supuesto es más fuerte que el supuesto visto de `\(e(u_{it}^{2})=\sigma_{u}^{2}\)` de homoscedasticidad, ya que asume que <span style="color:blue">las varianzas condicionales son constantes y las covarianzas condicionales son cero</span> El segundo supuesto plantea que la `\(Var(c_{i}|\textbf{x}_{i})=Var(c_{i})\)`, que es el <span style="color:blue">supuesto de homoscedasticidad sobre el efecto inobservable `\(c_i\)`</span> --- # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <spam style="font-size:100%"> **<span style="color:blue"><ins>Modelo de efectos aleatorios</ins> </span>** Asumiendo que se tienen estimadores consistentes de `\(\sigma_c^2\)` y `\(\sigma_u^2\)`, se tendrá un estimador para `\(\pmb{\Omega}\)` `$$\pmb{\widehat{\Omega}} = \widehat{\sigma}_u^2\textbf{I}_T + \widehat{\sigma}_c^{2}\textbf{j}_T \textbf{j}_{T}^{'}$$` El estimador FGLS que usa la anterior matriz de varianza es conocido como el <span style="color:blue">estimador de efectos aleatorios</span> <span style="color:blue"> `$$\pmb{\widehat{\beta}}_{RE} =\left(\sum_{i=1}^{N}\textbf{X}_{i}^{'}\pmb{\widehat{\Omega}}^{-1}\textbf{X}_{i} \right)^{-1} \left(\sum_{i=1}^{N}\textbf{X}_{i}^{'}\pmb{\widehat{\Omega}}^{-1}\textbf{y}_i \right)$$`</span> <spam style="line-height: 3em;"> - `\(\pmb{\widehat{\beta}}_{RE}\)` es claramente motivado por el supuesto RE.3 - `\(\pmb{\widehat{\beta}}_{RE}\)` es consistente si se cumple o no el supuesto RE.3 - Si los supuestos RE.1 y RE.2 se cumplen, `\(\pmb{\widehat{\beta}}_{RE} \xrightarrow{p} \pmb{\beta}\)` cuando `\(N\rightarrow\infty\)` - Bajo el supuesto RE.3, `\(\pmb{\widehat{\beta}}_{RE}\)` es eficiente --- # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <spam style="font-size:100%"> **<span style="color:blue"><ins>Modelo de efectos aleatorios</ins> </span>** Con el fin de implementar el procedimiento de efectos aleatorios, es necesario obtener `\(\widehat{\sigma}_{c}^{2}\)` y `\(\widehat{\sigma}_{u}^{2}\)`. Sin embargo, una estrategia más fácil es encontrar un estimador para `\(\sigma_{\upsilon}^{2}\)`, así que un estimador consistente es `$$\widehat{\sigma}_{\upsilon}^{2} = \frac{1}{(NT-K)}\sum_{i=1}^{N}\sum_{t=1}^{T} \widehat{\widehat{\upsilon}}_{it}^{2}$$` donde `\(\widehat{\widehat{\upsilon}}_{it}^{2}\)` son los residuales del *Pooled OLS* Un estimador consistente para `\(\sigma_{c}^{2}\)` es `$$\widehat{\sigma}_{c}^{2} = \frac{1}{[NT(T-1)/2-K]}\sum_{i=1}^{N}\sum_{t=1}^{T-1}\sum_{s=t+1}^{T} \widehat{\widehat{\upsilon}}_{it}^{2}\widehat{\widehat{\upsilon}}_{is}^{2}$$` Dado `\(\widehat{\sigma}_{\upsilon}^{2}\)` y `\(\widehat{\sigma}_{c}^{2}\)` se puede calcular `\(\widehat{\sigma}_{u}^{2}=\widehat{\sigma}_{\upsilon}^{2}-\widehat{\sigma}_{c}^{2}\)` --- # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <spam style="font-size:100%"> **<span style="color:blue"><ins>Modelo de efectos aleatorios</ins> </span>** <p style="margin-bottom: 1em"> - `\(\widehat{\sigma}_{c}^{2}\)` puede ser negativo, aunque en la mayorí de los ejercicios empíricos tiende a ser positivo. Implicaciones que sea negativo <p style="margin-bottom: -1em"> - correlación negativa en `\(u_{it}\)`, lo que significa que el primer supuesto en RE.3 se viola - otros supuestos también pueden ser violados - se deben incluir variables dummies de tiempo en el modelo si son significativas, su omisión puede llevar a correlación serial en `\(u_{it}\)` - FGLS no restringido puede ser utilizado <p style="margin-bottom: 2em"> - Probando por la existencia de efectos inobservables <p style="margin-bottom: -1em"> - Si los supuestos del modelo de efectos aleatorios (RE.1-RE.3) se cumplen pero modelo contiene un efecto inobservable, el *Pooled OLS* es más eficiente - `\(H_0\)`: `\(\sigma_{c}^{2}=0\)` vs `\(H_a\)`: `\(\sigma_{c}^{2}\neq 0\)` - Si no rechazamos H$_0$ se concluye que efectos aleatorios no es apropiado. Esto es, no existe evidencia de diferencias significativas a través de las unidades de corte transversal, por tanto se puede correr un *Pooled OLS* - Existen dos test: <span style="color:blue">Breusch-Pagan (1980)</span> y <span style="color:blue">Wooldridge (2010)</span> --- # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <spam style="font-size:100%"> **<span style="color:blue"><ins>Modelo de efectos fijos</ins> </span>** - En muchas aplicaciones el punto central al usar panel de datos es permitir que `\(c_i\)` este correlacionado con `\(\textbf{x}_{it}\)` y el modelo de efectos fijos permite esto - El modelo de efectos fijos se escribe como `$$\textbf{y}_i = \textbf{X}_i \pmb{\beta} + c_i \textbf{j}_T + \textbf{u}_i$$` donde `\(\textbf{j}_T\)` es un vector de unos de `\(T \times 1\)` - El primer supuesto del modelo de efectos fijos es <p style="margin-bottom: -0.8em"> <p style="margin-bottom: -1em"> **<span style="color:blue">Supuesto FE.1</span>** <span style="color:blue"> `\(E(u_{it}|\textbf{x}_{i},c_i)=0\)`</span> `\(\Longrightarrow\)` exogeneidad estricta `\((\Longrightarrow E(c_i u_{it})=0, E(\textbf{x}_{it}^{'} u_{it})=0)\)` <p style="margin-bottom: 2em"> - Note que FE.1 es similar a RE.1, pero en el primero no se incluye el supuesto que `\(E(c_i|\textbf{x}_i)\)`=0. Relajando este último supuesto (presencia de variable omitidas invariantes en el tiempo que se encuentran relacionadas con `\(\textbf{x}_{it}\)`) se puede estimar consistentemente `\(\pmb{\beta}\)` - Entonces FE es más robusto que RE. Sin embargo, esta ventaja de FE tiene un costo: <span style="color:blue">no se pueden incluir factores invariantes en el tiempo en `\(\textbf{x}_{it}\)`</span> (género o raza) --- # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <spam style="font-size:100%"> **<span style="color:blue"><ins>Modelo de efectos fijos</ins> </span>** Para estimar `\(\pmb{\beta}\)` bajo el supuesto FE.1 se debe transformar la ecuación para eliminar el efecto inobservable `\(c_i\)` `\(\Longrightarrow\)` <span style="color:blue">la transformación *within*</span> permite tal eliminación <span style="color:blue">La transformation *within*</span> - Promedie la ecuación `\(y_{it} = \textbf{x}_{it} \pmb{\beta} + c_i + u_{it}\)` sobre `\(t=1,...,T\)` para obtener la ecuación de sección cruzada `$$\overline{y}_{i} = \overline{\textbf{x}}_{i} \pmb{\beta} + c_i + \overline{u}_{i}$$` donde `\(\overline{y}_{i} = T^{-1} \sum_{t=1}^T y_{it}\)`, `\(\overline{\textbf{x}}_{i} = T^{-1} \sum_{t=1}^T \textbf{x}_{it}\)` y `\(\overline{u}_{i} = T^{-1} \sum_{t=1}^T u_{it}\)` - Restando el modelo original con este anterior en medias <span style="color:blue"> `$$y_{it} - \overline{y}_{i} = (\textbf{x}_{it} - \overline{\textbf{x}}_{i})\pmb{\beta} + u_{it} - \overline{u}_{i}$$`</span> o lo que es lo mismo <span style="color:blue"> `$$\ddot{y}_{it} = \ddot{\textbf{x}}_{it}\pmb{\beta} + \ddot{u}_{it}$$`</span> Se observa que el efecto inobservable `\(c_i\)` se ha eliminado La anterior ecuación podría ser estimada por *Pooled OLS*, sin embargo, es necesario determinar si en este modelo se cumple el supuesto `\(E(\ddot{\textbf{x}}_{it}' \ddot{u}_{it})=\textbf{0}\)` para obtener estimadores consistentes --- # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <spam style="font-size:100%"> **<span style="color:blue"><ins>Modelo de efectos fijos</ins> </span>** Entonces la pregunta es: <span style="color:blue">¿Es posible aplicar OLS al modelo *within* y obtener estimadores consistentes?</span> En otras palabras <span style="color:blue">¿se mantiene el supuesto `\(E(\ddot{\textbf{x}}_{it}' \ddot{u}_{it})=\textbf{0}\)` bajo el supuesto FE.1, con lo cual es posible aplicar OLS al modelo *within* y obtener estimadores consistentes?</span> `$$E(\ddot{\textbf{x}}_{it}' \ddot{u}_{it})= E[(\textbf{x}_{it} - \overline{\textbf{x}}_{i})^{'}(\textbf{u}_{it} - \overline{\textbf{u}}_{i})]$$` <p style="margin-bottom: -1em"> Bajo el supuesto FE.1 `\(E(u_{it} | \textbf{x}_{it},c_i) = 0\)` se tiene que <p style="margin-bottom: -0.8em"> `$$E(\textbf{x}_{it}^{'}\textbf{u}_{it})=0$$` <p style="margin-bottom: -0.8em"> `$$E(\textbf{x}_{it}^{'}\overline{\textbf{u}}_{i})=0$$` <p style="margin-bottom: -0.8em"> `$$E(\overline{\textbf{x}}_{i}^{'}\textbf{u}_{it})=0$$` <p style="margin-bottom: -0.8em"> `$$E(\overline{\textbf{x}}_{i}^{'}\overline{\textbf{u}}_{i})=0$$` Con lo cual `$$E(\ddot{\textbf{x}}_{it}' \ddot{u}_{it})= E[(\textbf{x}_{it} - \overline{\textbf{x}}_{i})^{'}(\textbf{u}_{it} - \overline{\textbf{u}}_{i})]=0$$` <span style="color:blue">Entonces aplicar OLS al modelo *within* genera estimadores consistentes de `\(\pmb{\beta}\)`</span> --- # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <spam style="font-size:100%"> **<span style="color:blue"><ins>Modelo de efectos fijos</ins> </span>** De lo anterior hay otras dos implicaciones - `\(E(\ddot{u}_{it} | \textbf{x}_i) = E(u_{it} | \textbf{x}_i) - E(\overline{u}_{i} | \textbf{x}_i) = 0\)` - `\(E(\ddot{u}_{it} | \ddot{\textbf{x}}_{i1},...,\ddot{\textbf{x}}_{iT}) = 0\)` <span style="color:blue">Lo que implica que `\(\ddot{\textbf{x}}_{it}\)` satisface la condición de exogeneidad estrictia y el estimador de efectos fijos o *within* de `\(\pmb{\beta}\)` será insesgado bajo el supuesto FE.1</span> En resumen el <span style="color:blue">estimador de efectos fijos (FE)</span> `\(\pmb{\beta}_{FE}\)` es el estimador *Pooled OLS* de la regresión `$$\ddot{y}_{it} = \ddot{\textbf{x}}_{it}\pmb{\beta} + \ddot{u}_{it}$$` Con el fin de asegurar que el estimador FE tenga un buen comportamiento en términos asintóticos, es necesario la condición rango esténdar sobre la matriz de variables explicatorias descontando la parte temporal, esto es <center> **<span style="color:blue">Supuesto FE.2</span>**: <span style="color:blue">rango `\(\sum_{t=1}^T E(\ddot{\textbf{x}}_{it}^{'}\ddot{\textbf{x}}_{it})=\)` rango `\(E(\ddot{\textbf{X}}_i^{'}\ddot{\textbf{X}}_i)=K\)` --- # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <spam style="font-size:100%"> **<span style="color:blue"><ins>Modelo de efectos fijos</ins> </span>** El estimador de efectos fijos o estimador *within* (usa la variación temporal entre cada unidad de corte transversal) puede expresarse como `$$\pmb{\beta}_{FE} = \left(\sum_{i=1}^{N}\sum_{t=1}^{T} \ddot{\textbf{x}}_{it}^{'}\ddot{\textbf{x}}_{it}\right)^{-1} \left(\sum_{i=1}^{N}\sum_{t=1}^{T}\ddot{\textbf{x}}_{it}^{'}\ddot{\textbf{y}}_{it} \right)$$` El siguiente supuesto asegura que el anterior estimador sea eficiente <center> **<span style="color:blue">Supuesto FE.3</span>**: <span style="color:blue"> `\(E(\textbf{u}_{i}\textbf{u}_{i}^{'}|\textbf{x}_i , c_i)=\sigma_u^2\textbf{I}_T\)`</span> --- # <span style="font-size:80%">Estimando modelos de efectos inobservables</span> <spam style="font-size:100%"> **<span style="color:blue"><ins>Modelo de variables *dummy*</ins> </span>** - Hasta ahora se ha visto a `\(c_i\)` como una variable aleatoria inobservada. Sin embargo, en enfoques tradicionales `\(c_i\)` es un parámetro a estimar junto con `\(\pmb{\beta}\)`. La pregunta que surge entonces es cómo estimar `\(c_i\)`? - Una posibilidad es definir `\(N\)` variables *dummy*, una para cada para unidad de sección cruzada: `\(d_i=1\)` si `\(n=i\)`, `\(d_i=0\)` si `\(n\neq i\)` y estimar una regresión *Pooled OLS* de la forma `$$y_{it} = d_i + \textbf{x}_{it}\pmb{\beta} + u_{it}$$` Entonces, por ejemplo, `\(\widehat{c}_1\)` es el coeficiente de `\(d_1\)`, y así se estiman los `\(c_i\)`. Recordar evitar la tramapa de las variables dummy excluyendo una `\(d_i\)` --- name: hausman # <span style="font-size:80%">Test de Hausman (1978)</span> La principal consideración para seleccionar entre el modelo de efectos aleatorios y el modelo de efectos fijos es determinar si `\(c_i\)` y `\(\textbf{x}_{it}\)` están correlacionados `\(\Longrightarrow\)` El <span style="color:blue">test de Hausman</span> proporciona esta prueba entre estos dos modelos La idea del test de Hausman es que, FE es consistente cuando `\(c_i\)` y `\(\textbf{x}_{it}\)` están correlacionados, pero RE es incosistente, así que <span style="color:blue">si existe una diferencia estadísticamente significativa entre FE y RE es evidencia en contra del supuesto RE.1 `\(E(c_i|\textbf{x}_{it})=0\)`</span> El estadístico de Hausman tiene la siguiente forma `$$H = (\widehat{\pmb{\delta}}_{FE} - \widehat{\pmb{\delta}}_{RE})^{'} [Av\widehat{a}r(\widehat{\pmb{\delta}}_{FE}) - Av\widehat{a}r(\widehat{\pmb{\delta}}_{RE})]^{-1} (\widehat{\pmb{\delta}}_{FE} - \widehat{\pmb{\delta}}_{RE}) \sim \chi_{M}^{2}$$` donde `\(\widehat{\pmb{\delta}}_{FE}\)` es el vector de estimaciones del modelo de efectos fijos, `\(\widehat{\pmb{\delta}}_{RE}\)` son las estimaciones del modelo de efectos aleatorios (ambos de `\(M \times 1\)`) y `\(Av\widehat{a}r(\widehat{\pmb{\delta}}_{FE})\)` y `\(Av\widehat{a}r(\widehat{\pmb{\delta}}_{RE})\)` son las varianzas asintóticas de los estimadores para cada modelo <center> `\(H_0\)`: RE `\((Cov(c_i,\textbf{x}_{it})=0)\)` `\(H_a\)`: FE `\((Cov(c_i,\textbf{x}_{it})\neq 0)\)` --- name: wooldridge # <span style="font-size:80%">Qué dice Wooldridge entre RE y FE?</span> <img src="Wooldridge.png" width="60%" style="display: block; margin: auto;" /> [Link al tweet](https://twitter.com/jmwooldridge/status/1365746478183047172) --- name: ejercicio # <span style="font-size:70%">Ejercicio aplicado en R: determinantes de los salarios con un panel de datos</span> En este ejercicio vamos a estudiar los derterminantes de los salarios teniendo en cuenta la heterogeneidad inobservable. Los datos para este ejercicio proviene de la *National Longitudinal Survey of Young Working Women* de los Estados Unidos. En los siguientes links se encuentran los datos, la descripción dellada de los datos y el código utilizado en R: - [Datos](https://www.stata-press.com/data/r17/nlswork.dta) - [Descripción de la información](https://rdrr.io/rforge/sampleSelection/man/nlswork.html) - [Código en R](https://gusgarciacruz.github.io/EconometriaAvanzadaII/ModelosPanel/L1.R) --- # <span style="font-size:70%">Ejercicio aplicado en R: determinantes de los salarios con un panel de datos</span> .small-code[ Cargando las librerías ```r library(haven); library(plm); library(tidyverse); library(summarytools) library(gt); library(knitr); library(kableExtra); library(tibble); library(modelsummary) ``` Leyendo los datos y procesando la información ```r nlswork <- read_dta("http://www.stata-press.com/data/r17/nlswork.dta") |> # leemos la base de datos select(idcode, year, ln_wage, age, not_smsa, south) # seleccionando variables View(nlswork) head(nlswork) # take a quick peak at the data ``` ``` # A tibble: 6 x 6 idcode year ln_wage age not_smsa south <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> 1 1 70 1.45 18 0 0 2 1 71 1.03 19 0 0 3 1 72 1.59 20 0 0 4 1 73 1.78 21 0 0 5 1 75 1.78 23 0 0 6 1 77 1.78 25 0 0 ``` ```r names(nlswork) ``` ``` [1] "idcode" "year" "ln_wage" "age" "not_smsa" "south" ``` ] --- # <span style="font-size:70%">Ejercicio aplicado en R: determinantes de los salarios con un panel de datos</span> Estadísticas descriptivas .small-code[ ```r summary(nlswork) ``` ``` idcode year ln_wage age Min. : 1 Min. :68.00 Min. :0.000 Min. :14.00 1st Qu.:1327 1st Qu.:72.00 1st Qu.:1.361 1st Qu.:23.00 Median :2606 Median :78.00 Median :1.641 Median :28.00 Mean :2601 Mean :77.96 Mean :1.675 Mean :29.05 3rd Qu.:3881 3rd Qu.:83.00 3rd Qu.:1.964 3rd Qu.:34.00 Max. :5159 Max. :88.00 Max. :5.264 Max. :46.00 NA's :24 not_smsa south Min. :0.0000 Min. :0.0000 1st Qu.:0.0000 1st Qu.:0.0000 Median :0.0000 Median :0.0000 Mean :0.2824 Mean :0.4096 3rd Qu.:1.0000 3rd Qu.:1.0000 Max. :1.0000 Max. :1.0000 NA's :8 NA's :8 ``` ```r st_options(lang = "es", footnote=NA, headings = FALSE) print(dfSummary(nlswork[,c("ln_wage","south")], valid.col = FALSE, silent=FALSE), method = "render", varnumbers=F) ```
Variable
Etiqueta
Estadísticas / Valores
Frec. (% sobre válidos)
Gráfico
Perdidos
ln_wage [numeric]
ln(wage/GNP deflator)
Media (d-s) : 1.7 (0.5)
min ≤ mediana ≤ max:
0 ≤ 1.6 ≤ 5.3
RI (CV) : 0.6 (0.3)
8173 valores distintos
0 (0.0%)
south [numeric]
1 if south
Min : 0
Media : 0.4
Max : 1
0
:
16843
(
59.0%
)
1
:
11683
(
41.0%
)
8 (0.0%)
] --- # <span style="font-size:70%">Ejercicio aplicado en R: determinantes de los salarios con un panel de datos</span> <font size = "3"> .small-code[ Número de idcode y años <p style="margin-bottom: -0.8em"> ```r length(unique(nlswork$idcode)) ``` ``` [1] 4711 ``` ```r length(unique(nlswork$year)) ``` ``` [1] 15 ``` <br> Determinando si el panel se encuentra balanceado <p style="margin-bottom: -0.8em"> ```r pdim(nlswork)$balanced ``` ``` [1] FALSE ``` ```r is.pbalanced(nlswork) ``` ``` [1] FALSE ``` <br> Balanceando el panel <p style="margin-bottom: -0.8em"> ```r nlswork_balanced <- make.pbalanced(nlswork, balance.type = "shared.individuals", index = c("idcode","year")) pdim(nlswork_balanced)$balanced ``` ``` [1] TRUE ``` <br> Dando estructura panel a los datos <p style="margin-bottom: -0.8em"> ```r nlswork_balanced <- pdata.frame(nlswork_balanced, c("idcode","year")) ``` ] --- # <span style="font-size:70%">Ejercicio aplicado en R: determinantes de los salarios con un panel de datos</span> .medium-code[ Utilizamos el paquete [```modelsummary```](https://vincentarelbundock.github.io/modelsummary/articles/modelsummary.html) para generar tablas editadas (Word, tex, text, png, html...) ```r modelos <- list("Pool" = plm(ln_wage ~ age + I(age^2) + not_smsa + south + factor(year), data = nlswork_balanced, model = "pooling"), "RE" = plm(ln_wage ~ age + I(age^2) + not_smsa + south + factor(year), data = nlswork_balanced, model = "random"), "FE" = plm(ln_wage ~ age + I(age^2) + not_smsa + south, data = nlswork_balanced, model = "within", effect = "twoway")) cm <- c('(Intercept)' = 'Constante', 'age' = 'Edad', 'I(age2)' = 'Edad2', 'not_smsa' = 'No SMSA (=1)', 'south' = 'Sur (=1)') modelsummary(modelos, output = 'gt', coef_map = cm, stars = c('*'=.1, '**'=.05, '***'=.01), statistic = "std.error", title = 'Tabla 1. Determinantes de los salarios', gof_omit = "R2 Adj", coef_omit = "[^age|not_smsa|south]") |> tab_style(style = cell_text(size = 'small'), locations = cells_body(rows = 1:8)) |> tab_style(style = cell_text(color = 'red'), locations = cells_body(rows = 1)) |> tab_source_note(source_note = "Nota: Errores estándar en paréntesis") |> tab_style(style = cell_text(color = "black", size = "x-small"), locations = cells_source_notes()) ```
<caption>Tabla 1. Determinantes de los salarios</caption>
Pool
RE
FE
Edad
0.026
0.031
0.020
(0.023)
(0.020)
(0.036)
No SMSA (=1)
-0.201***
-0.091***
-0.055
(0.022)
(0.033)
(0.037)
Sur (=1)
-0.157***
-0.119***
-0.090**
(0.021)
(0.037)
(0.044)
Num.Obs.
1290
1290
1290
R2
0.233
0.298
0.007
AIC
1095.8
-178.3
-299.4
BIC
1199.1
-75.1
-273.5
RMSE
0.36
0.22
0.21
* p < 0.1, ** p < 0.05, *** p < 0.01
Nota: Errores estándar en paréntesis
] --- # <span style="font-size:70%">Ejercicio aplicado en R: determinantes de los salarios con un panel de datos</span> <font size = "3"> .small-code[ <p style="margin-bottom: -0.8em"> <span style="color:blue">Los modelos</span> ```r pool <- plm(ln_wage ~ age + I(age^2) + not_smsa + south + factor(year), data = nlswork_balanced, model = "pooling") re <- plm(ln_wage ~ age + I(age^2) + not_smsa + south + factor(year), data = nlswork_balanced, model = "random") fe <- plm(ln_wage ~ age + I(age^2) + not_smsa + south, data = nlswork_balanced, model = "within", effect = "twoway") ``` <br> <p style="margin-bottom: -0.8em"> <span style="color:blue">Test de efectos inobservables</span> El test de efectos inobservables *a la* Wooldridge (ver Wooldridge (2010) 10.4.4), es un test semiparamétrico con `\(H_{0}:\sigma^{2}_{c_i}=0\)`, es decir que no existen efectos inobservables en los residuales ```r pwtest(ln_wage ~ age + I(age^2) + not_smsa + south, data = nlswork_balanced) ``` ``` Wooldridge's test for unobserved individual effects data: formula z = 4.3892, p-value = 1.138e-05 alternative hypothesis: unobserved effect ``` <br> <p style="margin-bottom: -0.8em"> <span style="color:blue">Breusch-Pagan test</span> El test de BP es un test LM que ayuda a decidir entre RE y *pooled OLS*. La hipótesis nula es las varianzas a través de la unidades de sección cruzada son cero, esto es que no hay diferencias significativas enter unidades de corte transversal (es decir, no hay efectos panel) ```r plmtest(pool, type="bp") ``` ``` Lagrange Multiplier Test - (Breusch-Pagan) for balanced panels data: ln_wage ~ age + I(age^2) + not_smsa + south + factor(year) chisq = 3498.5, df = 1, p-value < 2.2e-16 alternative hypothesis: significant effects ``` ] --- # <span style="font-size:70%">Ejercicio aplicado en R: determinantes de los salarios con un panel de datos</span> <font size = "3"> .small-code[ <p style="margin-bottom: -0.8em"> <span style="color:blue">Test de *poolability*</span> `\(H_{0}\)`: todos los interceptos son iguales ```r pooltest(pool, fe) ``` ``` F statistic data: ln_wage ~ age + I(age^2) + not_smsa + south + factor(year) F = 26.251, df1 = 85, df2 = 1186, p-value < 2.2e-16 alternative hypothesis: unstability ``` <br> ```r pFtest(fe, pool) ``` ``` F test for twoways effects data: ln_wage ~ age + I(age^2) + not_smsa + south F = 26.251, df1 = 85, df2 = 1186, p-value < 2.2e-16 alternative hypothesis: significant effects ``` <br> <p style="margin-bottom: -0.8em"> <span style="color:blue">Test de Hausman</span> ```r phtest(fe, re) ``` ``` Hausman Test data: ln_wage ~ age + I(age^2) + not_smsa + south chisq = 5.4579, df = 4, p-value = 0.2435 alternative hypothesis: one model is inconsistent ``` ]