class: center, middle, inverse, title-slide # Tema 6. Formas funcionales del modelo de RLM y variables binarias o
dummies
### Gustavo A. García
ggarci24@eafit.edu.co
###
Econometría para la Toma de Decisiones
Maestría en Economía Aplicada
Escuela de Finanzas, Economía y Gobierno
Universidad EAFIT
--- <style> .notbold{ font-weight:normal } body { text-align: justify; } h1{ margin-top: -1px; margin-bottom: -3px; } .small-code pre{ margin-bottom: -10px; } .medium-code pre{ margin-bottom: 2px; } p.comment { background-color: #E1E1FF; padding: 10px; border: 1px solid white; margin-left: 25px; border-radius: 15px; text-align: center; } </style> <font size = "5"> <br> <br> <br> <br> <br> Link slides en formato [html](https://gusgarciacruz.github.io/EconometriaMEA/Tema6/Tema6.html) Link slides en formato [PDF](https://gusgarciacruz.github.io/EconometriaMEA/Tema6/Tema6.pdf) --- # <span style="font-size:80%">En este tema</span> - <span style="font-size:150%">[<span style="color:black">Formas funcionales del modelo de RLM](#formas)</span> <br> <br> - <span style="font-size:150%">[<span style="color:black">Variables binarias o *dummies*](#dummies)</span> <br> <br> - <span style="font-size:150%">[<span style="color:black">Modelación de factores y categorías](#factores)</span> <br> <br> - <span style="font-size:150%">[<span style="color:black">Ejercicio aplicado en R](#r)</span> --- # <span style="font-size:80%">Lecturas</span> <font size = "5"> - Wooldridge, Jeffrey (2013). *Introducción a la econometría*. 5a edición, Cengage Learning. <span style="color:blue">Cap. 2.4, 6, 7</span> - Gujarati, D. y Porter, D. (2010). *Econometría*. 5a edición, Mc Graw Hill. <span style="color:blue">Cap. 6 y 9</span> --- name: formas # <span style="font-size:80%">Formas funcionales del modelo de RLM</span> <font size = "5"> <br><br><br> <img src="Formasfun.png" width="80%" style="display: block; margin: auto;" /> --- name: dummies # <span style="font-size:80%">Variables binarias o *dummies*: conceptualización general</span> - La inclusión de variables binarias (también llamadas *dummy* o falsas) en los modelos de regresión, obedece a la necesidad de <span style="color:blue">incorporar factores de naturaleza cualitativa</span> que se traducen en cambios paramétricos. Uno de estos cambios puede ser: - La ecuación de Mincer o de ingresos laborales puede ser para hombres y mujeres (diferencias en el salario de reserva por discriminación) y el log del ingreso mínimo (o intercepto) puede ser diferente para cada género - La demanda por carne puede variar según los grupos religiosos, las elasticidades precio e ingreso de cada grupo pueden ser diferentes - Un cambio estructural en el tiempo puede ser el resultado de un factor cualitativo que induce el cambio paramétrico - Si se piensa en la función de consumo para Colombia de 1950 a 2000, es intuitivo afirmar que debido a migración campo-ciudad, transición demográfica o modernización del aparato financiero, la función de consumo de 1950 a 1970 no debe ser la misma que la correspondiente de 1971 a 2000 - El consumo autónomo (intercepto) y la propensión marginal a consumir (la pendiente) de los dos períodos puede haber cambiado. Igual sucedería con los parámetros de la función de importaciones antes y después de la apertura económica en 1990 --- # <span style="font-size:80%">Variables binarias o *dummies*: conceptualización general</span> <font size = "5"> - La forma de incluir estos factores cualitativos es usando una variables que sólo tomen el valor 0 y 1, y se denominan falsas, dicótomas binarias o *dummies* `\(\Longrightarrow\)` <span style="color:blue">variables indiciadores</span> - La escogencia de 0 y 1 no es arbitraria, proviene de la esencia del conteo. Cuando se esta contando algo, se suma 1 si ese algo esta y se suma 0 si ese algo no esta $$ \mbox{se puede asociar}= `\begin{cases} 0 & \text{Ausencia}\\ 1 & \text{Presencia} \end{cases}` $$ - Otro par de números (3 y 7 por ejemplo) no servirían para lo mismo, lo que puede ser arbitrario es la asignación del 0 y el 1 - Cuando se usan variables binarias en los modelos se producen cambios en - el intercepto - la pendiente - intercepto y pendiente --- name: factores # <span style="font-size:80%">Modelación de factores y categorías</span> <font size = "5"> **<ins><span style="color:blue">i. Un factor dos categorías</span>** Supóngase que se quiere incorporar al modelo de Mincer (ecuación salarial) el factor cualitativo género. Existen tres posibilidades según el efecto que se quiere modelar - cambio en el intercepto (en el log del salario mínimo) - cambio en la pendiente (en la tasa de retorno de la educación) - cambio de ambos, intercepto y pendiente Lo que se intenta incorporar es una hipótesis de diferenciación por género en la ecuación de ingresos. Se define una variable binaria de la forma $$ bsexo_{i} = `\begin{cases} 0 & \text{hombre} \\ 1 & \text{mujer} \end{cases}` $$ --- # <span style="font-size:80%">Modelación de factores y categorías</span> <font size = "4"> **<ins><span style="color:blue">i. Un factor dos categorías</span>** **<span style="color:blue">1.</span>** Cambio en el intercepto<br> Sea `\(lwage_{i}=\)` log de los salarios y `\(Educ_{i2}=\)` Años de educación aprobados En el modelo `\(lwage_{i}= \beta_{1} + \beta_{2}Educ_{i} + u_{i}\)` `\(\beta_{1}:\)` log tasa de salario mínima<br> `\(\beta_{2}:\)` tasa de retorno de la educación<br> `\(u_{i}:\)` perturbación aleatoria con supuestos estándar Al incorporar la variable binaria de género se tendría `$$lwage_{i} = \beta_{1} + \beta_{2}Educ_{i} + \beta_{3}bsexo_{i} + u_{i}$$` Es como si el modelo se convirtiese en dos submodelos Mujeres `\((bsexo_{i}=1)\Longrightarrow lwage_{i} = (\beta_{1}+\beta_{3}) + \beta_{2}Educ_{i} + u_{i}\)`<br> Hombres `\((bsexo_{i}=0\Longrightarrow lwage_{i} = \beta_{1} + \beta_{2}Educ_{i} + u_{i}\)` En esta situación<br> `\(\beta_{1}:\)` log de la tasa salaria mínima de los hombres<br> `\(\beta_{3}:\)` cambio en log de la tasa salarial mínima de las mujeres respecto a los hombres<br> `\(\beta_{1}+\beta_{3}:\)` log de la tasa salarial mínima de las mujeres --- # <span style="font-size:80%">Modelación de factores y categorías</span> <font size = "4"> **<ins><span style="color:blue">i. Un factor dos categorías</span>** **<span style="color:blue">1.</span>** Cambio en el intercepto<br> Gráficamente tenemos <img src="Caminterc1.png" width="45%" style="display: block; margin: auto;" /> Lo que se esta modelando es un cambio en el intercepto manteniendo constante la pendiente Lo que se hizo fue conservar el intercepto `\((\beta_{1})\)` y agregar una variable falsa `\((bsexo_{i})\)` --- # <span style="font-size:80%">Modelación de factores y categorías</span> <font size = "4"> **<ins><span style="color:blue">i. Un factor dos categorías</span>** **<span style="color:blue">1.</span>** Cambio en el intercepto<br> Alternativamente se puede eliminar el intercepto e incluir dos variables binarias .pull-left[ $$ bmujer_{i} = `\begin{cases} 0 & \text{Hombre} \\\ 1 & \text{Mujer} \end{cases}` $$ ] .pull-right[ $$ bhombre_{i} = `\begin{cases} 0 & \text{Mujer} \\ 1 & \text{Hombre} \end{cases}` $$ ] <br> Observe que `\(bhombre_{i}+bmujer_{i}=1\)` El modelo queda de la forma `$$lwage_{i} = \gamma_{2}Educ_{i2}+\gamma_{3}bhombre_{i}+\gamma_{4}bmujer_{i}+u_{i}$$` Nuevamente se tienen dos modelos<br> Mujeres `\((bhombre_{i}=0, bmujer_{i}=1)\Longrightarrow lwage_{i} = \gamma_{4} + \gamma_{2}Educ_{i2} + u_{i}\)`<br> Hombres `\((bhombre_{i}=1, bmujer_{i}=0)\Longrightarrow lwage_{i} = \gamma_{3} + \gamma_{2}Educ_{i2} + u_{i}\)` En esta situación\\ `\(\gamma_{2}:\)` tasa de retorno de la educación, se supone igual para hombres y mujeres<br> `\(\gamma_{3}:\)` log de la tasa salarial mínima para hombres<br> `\(\gamma_{4}:\)` log de la tasa salarial mínima para mujeres<br> `\(\gamma_{4}-\gamma_{3}:\)` diferencial del log de la tasa mínima de salario de mujeres frente a hombres --- # <span style="font-size:80%">Modelación de factores y categorías</span> <font size = "4"> **<ins><span style="color:blue">i. Un factor dos categorías</span>** <p style="margin-bottom: -0.5em"> **<span style="color:blue">1.</span>** Cambio en el intercepto<br> Qué sucede si se utilizan las dos opciones anteriores al mismo tiempo: conservar el intercepto e incluir las dos variables binarias <p style="margin-bottom: -1em"> `$$lwage_{i} = \gamma_{1} + \gamma_{2}Educ_{i} + \gamma_{3}bhombre_{i} + \gamma_{4}bmujer_{i} + u_{i}$$` La matriz `\(\textbf{X}\)` del modelo tendría la siguiente estructura (suponemos primero mujeres `\((M)\)` y después hombres `\((N-M)\)`) $$ \textbf{X}\_{N\mbox{x}4} = \left[ \begin{array}{cccc} 1 & Educ\_{1} & 0 & 1 \\\ 1 & \vdots & 0 & 1 \\\ 1 & Educ\_{M} & 0 & 1 \\\ \ldots & \ldots & \ldots & \ldots \\\ 1 & Educ\_{M+1} & 1 & 0 \\\ 1 & \vdots & 1 & 0 \\\ 1 & Educ\_{N} & 1 & 0 \\\ \end{array}\right]$$ <p style="margin-bottom: -1em"> Se observa que Col(1)=Col(3)+Col(4), lo cual implica que rango de la matriz `\(\textbf{X}\)` no es de 4 sino de 3, así que hay un problema de <span style="color:blue">multicolinealidad perfecta</span>: `$$(X'X)_{4\mbox{x}4} \mbox{ es singular}$$` `$$(X'X)_{4\mbox{x}4}^{-1} \mbox{ no existe}$$` Este caso se conoce como **<span style="color:blue">la trampa de las variables *dummies*</span>** --- # <span style="font-size:80%">Modelación de factores y categorías</span> <font size = "5"> **<ins><span style="color:blue">i. Un factor dos categorías</span>** **<span style="color:blue">2.</span>** Cambio en pendiente<br> La manera de incorporar cambios en la pendiente es agregar el producto de la variable binaria por la correspondiente variable explicativa. Por ejemplo, modelando diferentes tasas de retornos a la educación por género, el modelo queda de la forma: `$$lwage_{i}=\beta_{1}+\beta_{2}Educ_{i}+\beta_{3}Educ_{i}bsexo_{i}+u_{i}$$` Nuevamente es un modelo que contiene dos<br> Hombres `\((bsexo_{i}=0)\Longrightarrow lwage_{i} = \beta_{1} + \beta_{2}Educ_{i} + u_{i}\)`<br> Mujeres `\((bsexo_{i}=1)\Longrightarrow lwage_{i} = \beta_{1} + (\beta_{2}+\beta_{3})Educ_{i} + u_{i}\)` En esta situación<br> `\(\beta_{1}:\)` log de la tasa salarial mínima, se supone igual para hombres y mujeres<br> `\(\beta_{2}:\)` tasa de retorno de la educación de las mujeres<br> `\(\beta_{3}:\)` cambio en la tasa de retorno de la educación de hombres respecto a mujeres<br> `\(\beta_{2}+\beta_{3}:\)` tasa de retorno de la educación de los hombres --- # <span style="font-size:80%">Modelación de factores y categorías</span> <font size = "4"> **<ins><span style="color:blue">i. Un factor dos categorías</span>** **<span style="color:blue">3.</span>** Cambio en el intercepto y la pendiente<br> La intuición indica que se debe reunir los dos casos anteriores: agregar una variable binaria (o eliminar el intercepto y agregar dos binarias) y la binaria multiplicada por la variable independiente. El modelo queda de la forma: `$$lwage_{i}=\beta_{1}+\beta_{2}Educ_{i}+\beta_{3}bsexo_{i}+\beta_{4}Educ_{i}bsexo_{i}+u_{i}$$` Hombres `\((bsexo_{i}=0)\Longrightarrow Y_{i} = \beta_{1} + \beta_{2}X_{i2} + u_{i}\)`<br> Mujeres `\((bsexo_{i}=1)\Longrightarrow Y_{i} = (\beta_{1}+\beta_{3}) + (\beta_{2}+\beta_{4})X_{i2} + u_{i}\)` En esta situación<br> `\(\beta_{1}:\)` log de la tasa salarial mínima de las mujeres<br> `\(\beta_{2}:\)` tasa de retorno de la educación de las mujeres<br> `\(\beta_{3}:\)` cambio en log de la tasa salarial mínima de hombres respecto a mujeres<br> `\(\beta_{4}:\)` cambio en la tasa de retorno de la educación de hombres respecto a mujeres<br> `\(\beta_{1}+\beta_{3}:\)` log de la tasa salarial mínima de los hombres<br> `\(\beta_{2}+\beta_{4}:\)` Tasa de retorno de la educación de los hombres <span style="color:blue">El modelo conjunto es equivalente a estimar dos regresiones por separado --- # <span style="font-size:80%">Modelación de factores y categorías</span> <font size = "4"> **<ins><span style="color:blue">ii. Un factor varias categorías</span>**<br> Se tienen tres niveles educatiovs, así que se definen las siguientes variables binarias .pull-left[ $$ bpri_{i} = `\begin{cases} 1 & \text{primaria } \\\ 0 & \text{otro caso } \end{cases}` $$ ] .pull-left[ $$ bsec_{i} = `\begin{cases} 1 & \text{secundaria } \\ 0 & \text{otro caso } \end{cases}` $$ ] .pull-left[ $$ bsup_{i} = `\begin{cases} 1 & \text{superior } \\ 0 & \text{otro caso } \end{cases}` $$ ] En el modelo de RLM se conserva el intercepto y al haber 3 categorías se incluyen 2 variables binarias. La categoría a la cual no se le incluye la variable binaria se vuelve el patrón de referencia del modelo. El modelo queda de la forma: `$$lwage_{i}=\beta_{1}+\beta_{2}Exper_{i}+\beta_{3}bsec_{i}+\beta_{4}bsup_{i}+u_{i}$$` El modelo incluye 3 submodelos:<br> Secundaria `\((bsec_{i}=1, bsup_{i}=0)\Longrightarrow lwage_{i} = (\beta_{1}+\beta_{3}) + \beta_{2}Exper_{i} + u_{i}\)`<br> Superior `\((bsec_{i}=0, bsup_{i}=1)\Longrightarrow lwage_{i} = (\beta_{1}+\beta_{4}) + \beta_{2}Exper_{i2} + u_{i}\)`<br> Primaria `\((bsec_{i}=0, bsup_{i}=0)\Longrightarrow lwage_{i} = \beta_{1} + \beta_{2}Exper_{i2} + u_{i}\)` En esta situación<br> `\(\beta_{1}:\)` log de la tasa salarial mínima de los individuos con primaria<br> `\(\beta_{2}:\)` tasa de retorno de la experiencia, asumida igual independiente del nivel educativo<br> `\(\beta_{3}:\)` diferencia en log de la tasa salarial mínima de individuos con secundaria respecto a los de primaria<br> `\(\beta_{4}:\)` diferencia en log de la tasa salarial mínima de individuos con superior respecto a los de primaria<br> `\(\beta_{1}+\beta_{3}:\)` log de la tasa salarial mínima de los individuos con secundaria<br> `\(\beta_{1}+\beta_{4}:\)` log de la tasa salarial mínima de los individuos con superior --- # <span style="font-size:80%">Ejemplo aplicado en R</span> <font size = "4"> Se tiene una base de datos de corte transversal de 526 trabajadores correspondientes a 1976 para los Estados unidos. `\(wage\)` son los salarios en dólares por hora y `\(educ\)` los años de educación **<ins><span style="color:blue">i. Un factor dos categorías</span>**<br> <span style="color:blue">1.</span> Cambio en el intercepto (intercepto + una binaria) `$$lwage = \beta_{1} + \beta_{2}educ + \beta_{3}female + u$$` $$ female_{i} = `\begin{cases} 1 & \text{mujer} \\ 0 & \text{hombre} \end{cases}` $$ ```r library(haven); library(tidyverse); library(summarytools) data <- read_stata("http://fmwww.bc.edu/ec-p/data/wooldridge/wage1.dta") modelo1 <- lm(lwage ~ educ + female, data=data) summary(modelo1) ``` ``` Call: lm(formula = lwage ~ educ + female, data = data) Residuals: Min 1Q Median 3Q Max -2.02672 -0.27470 -0.03731 0.26219 1.34738 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.826269 0.094054 8.785 <2e-16 *** educ 0.077203 0.007047 10.955 <2e-16 *** female -0.360865 0.039024 -9.247 <2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.4455 on 523 degrees of freedom Multiple R-squared: 0.3002, Adjusted R-squared: 0.2975 F-statistic: 112.2 on 2 and 523 DF, p-value: < 2.2e-16 ``` --- # <span style="font-size:80%">Ejemplo aplicado en R</span> <font size = "4"> **<ins><span style="color:blue">i. Un factor dos categorías</span>**<br> <span style="color:blue">1.</span> Cambio en el intercepto (no intercepto y dos binarias) .pull-left[ $$ female_{i} = `\begin{cases} 1 & \text{mujer} \\\ 0 & \text{hombre} \end{cases}` $$ ] .pull-left[ $$ male_{i} = `\begin{cases} 1 & \text{hombre} \\ 0 & \text{mujer} \end{cases}` $$ ] <br><br><br><br> ```r data <- read_stata("http://fmwww.bc.edu/ec-p/data/wooldridge/wage1.dta") |> mutate(male = case_when(female==1~0, female==0~1)) modelo2 <- lm(lwage ~ 0 + educ + female + male , data=data) summary(modelo2) ``` ``` Call: lm(formula = lwage ~ 0 + educ + female + male, data = data) Residuals: Min 1Q Median 3Q Max -2.02672 -0.27470 -0.03731 0.26219 1.34738 Coefficients: Estimate Std. Error t value Pr(>|t|) educ 0.077203 0.007047 10.955 < 2e-16 *** female 0.465404 0.091227 5.102 4.72e-07 *** male 0.826269 0.094054 8.785 < 2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.4455 on 523 degrees of freedom Multiple R-squared: 0.9323, Adjusted R-squared: 0.932 F-statistic: 2403 on 3 and 523 DF, p-value: < 2.2e-16 ``` --- # <span style="font-size:80%">Ejemplo aplicado en R</span> <font size = "4"> **<ins><span style="color:blue">i. Un factor dos categorías</span>**<br> <span style="color:blue">2.</span> Cambio en pendiente `$$lwage = \beta_{1} + \beta_{2}educ + \beta_{3}educ*female + u$$` ```r modelo3 <- lm(lwage ~ educ + educ:female, data=data) summary(modelo3) ``` ``` Call: lm(formula = lwage ~ educ + educ:female, data = data) Residuals: Min 1Q Median 3Q Max -2.04030 -0.28526 -0.03285 0.27044 1.36353 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.680021 0.091277 7.450 3.88e-13 *** educ 0.088045 0.007071 12.451 < 2e-16 *** educ:female -0.027595 0.003063 -9.008 < 2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.4471 on 523 degrees of freedom Multiple R-squared: 0.2952, Adjusted R-squared: 0.2925 F-statistic: 109.5 on 2 and 523 DF, p-value: < 2.2e-16 ``` --- # <span style="font-size:80%">Ejemplo aplicado en R</span> <font size = "4"> **<ins><span style="color:blue">i. Un factor dos categorías</span>**<br> <span style="color:blue">2.</span> Cambio en intercepto y pendiente `$$lwage = \beta_{1} + \beta_{2}educ + \beta_{3}female + \beta_{4}educ*female + u$$` ```r modelo4 <- lm(lwage ~ educ + educ*female, data=data) summary(modelo4) ``` ``` Call: lm(formula = lwage ~ educ + educ * female, data = data) Residuals: Min 1Q Median 3Q Max -2.02673 -0.27468 -0.03721 0.26221 1.34740 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 8.260e-01 1.181e-01 6.997 8.08e-12 *** educ 7.723e-02 8.988e-03 8.593 < 2e-16 *** female -3.601e-01 1.854e-01 -1.942 0.0527 . educ:female -6.408e-05 1.450e-02 -0.004 0.9965 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.4459 on 522 degrees of freedom Multiple R-squared: 0.3002, Adjusted R-squared: 0.2962 F-statistic: 74.65 on 3 and 522 DF, p-value: < 2.2e-16 ``` --- # <span style="font-size:80%">Ejemplo aplicado en R</span> <font size = "4"> **<ins><span style="color:blue">i. Un factor dos categorías</span>**<br> <span style="color:blue">2.</span> Cambio en intercepto y pendiente Lo anterior es equivalente a estimar dos regresiones por separado, una cuando `\(female=1\)` y otra cuando `\(female=0\)` .pull-left-50[ ```r modelo5 <- lm(lwage ~ educ, data=subset(data,female==1)) summary(modelo5) ``` ``` Call: lm(formula = lwage ~ educ, data = subset(data, female == 1)) Residuals: Min 1Q Median 3Q Max -2.02673 -0.24397 -0.06163 0.21415 1.21924 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.46589 0.12890 3.614 0.000364 *** educ 0.07716 0.01026 7.520 9.82e-13 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.402 on 250 degrees of freedom Multiple R-squared: 0.1845, Adjusted R-squared: 0.1812 F-statistic: 56.55 on 1 and 250 DF, p-value: 9.824e-13 ``` ] .pull-right-50[ ```r modelo6 <- lm(lwage ~ educ, data=subset(data,female==0)) summary(modelo6) ``` ``` Call: lm(formula = lwage ~ educ, data = subset(data, female == 0)) Residuals: Min 1Q Median 3Q Max -1.11585 -0.34240 -0.01708 0.32659 1.34740 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.825955 0.127813 6.462 4.75e-10 *** educ 0.077228 0.009731 7.936 5.47e-14 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.4828 on 272 degrees of freedom Multiple R-squared: 0.188, Adjusted R-squared: 0.185 F-statistic: 62.99 on 1 and 272 DF, p-value: 5.471e-14 ``` ] --- # <span style="font-size:80%">Ejemplo aplicado en R</span> <font size = "4"> **<ins><span style="color:blue">ii. Un factor varias categorías</span>** `$$lwage = \beta_{1} + \beta_{2}exper + \beta_{3}bsec + \beta_{4}bsup + u$$` .pull-left[ $$ bpri_{i} = `\begin{cases} 1 & \text{primaria } \\\ 0 & \text{otro caso } \end{cases}` $$ ] .pull-left[ $$ bsec_{i} = `\begin{cases} 1 & \text{secundaria } \\ 0 & \text{otro caso } \end{cases}` $$ ] .pull-left[ $$ bsup_{i} = `\begin{cases} 1 & \text{superior } \\ 0 & \text{otro caso } \end{cases}` $$ ] .pull-left-50[ ```r freq(data$educ, headings=F) ``` ``` Freq % Valid % Valid Cum. % Total % Total Cum. ----------- ------ --------- -------------- --------- -------------- 0 2 0.38 0.38 0.38 0.38 2 1 0.19 0.57 0.19 0.57 3 1 0.19 0.76 0.19 0.76 4 3 0.57 1.33 0.57 1.33 5 1 0.19 1.52 0.19 1.52 6 6 1.14 2.66 1.14 2.66 7 4 0.76 3.42 0.76 3.42 8 22 4.18 7.60 4.18 7.60 9 17 3.23 10.84 3.23 10.84 10 30 5.70 16.54 5.70 16.54 11 29 5.51 22.05 5.51 22.05 12 198 37.64 59.70 37.64 59.70 13 39 7.41 67.11 7.41 67.11 14 53 10.08 77.19 10.08 77.19 15 21 3.99 81.18 3.99 81.18 16 68 12.93 94.11 12.93 94.11 17 12 2.28 96.39 2.28 96.39 18 19 3.61 100.00 3.61 100.00 <NA> 0 0.00 100.00 Total 526 100.00 100.00 100.00 100.00 ``` ] .pull-right-50[ ```r data <- data |> mutate(educ_n = case_when(educ>=0 & educ<=5 ~ 1, educ>=6 & educ<=13 ~ 2, educ>=14 & educ<=18 ~ 3)) freq(data$educ_n, headings=F) ``` ``` Freq % Valid % Valid Cum. % Total % Total Cum. ----------- ------ --------- -------------- --------- -------------- 1 8 1.52 1.52 1.52 1.52 2 345 65.59 67.11 65.59 67.11 3 173 32.89 100.00 32.89 100.00 <NA> 0 0.00 100.00 Total 526 100.00 100.00 100.00 100.00 ``` ] --- # <span style="font-size:80%">Ejemplo aplicado en R</span> <font size = "5"> **<ins><span style="color:blue">ii. Un factor varias categorías</span>** .pull-left-50[ ```r modelo7 <- lm(lwage ~ exper + factor(educ_n), data=data) summary(modelo7) ``` ``` Call: lm(formula = lwage ~ exper + factor(educ_n), data = data) Residuals: Min 1Q Median 3Q Max -1.99901 -0.31438 -0.07762 0.32933 1.55045 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.860162 0.180326 4.770 2.39e-06 *** exper 0.008099 0.001594 5.081 5.23e-07 *** factor(educ_n)2 0.479675 0.174428 2.750 0.00617 ** factor(educ_n)3 0.944581 0.177853 5.311 1.62e-07 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.479 on 522 degrees of freedom Multiple R-squared: 0.1926, Adjusted R-squared: 0.188 F-statistic: 41.51 on 3 and 522 DF, p-value: < 2.2e-16 ``` ] .pull-right-50[ ```r data <- data |> mutate(bpri = case_when(educ>=0 & educ<=5 ~ 1, TRUE ~ 0), bsec = case_when(educ>=6 & educ<=13 ~ 1, TRUE ~ 0), bsup = case_when(educ>=14 & educ<=18 ~ 1, TRUE ~ 0)) modelo8 <- lm(lwage ~ exper + bsec + bsup, data=data) summary(modelo8) ``` ``` Call: lm(formula = lwage ~ exper + bsec + bsup, data = data) Residuals: Min 1Q Median 3Q Max -1.99901 -0.31438 -0.07762 0.32933 1.55045 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.860162 0.180326 4.770 2.39e-06 *** exper 0.008099 0.001594 5.081 5.23e-07 *** bsec 0.479675 0.174428 2.750 0.00617 ** bsup 0.944581 0.177853 5.311 1.62e-07 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 0.479 on 522 degrees of freedom Multiple R-squared: 0.1926, Adjusted R-squared: 0.188 F-statistic: 41.51 on 3 and 522 DF, p-value: < 2.2e-16 ``` ]