Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore STAT300_M8

STAT300_M8

Published by Recinto Online, 2020-02-03 14:41:29

Description: M8

Search

Read the Text Version

Módulo 8: Correlación y regresion lineal simple STAT 300

Objetivos de aprendizaje En esta unidad aprenderemos a: 1. Cómo utilizar un análisis de regresión lineal simple para predecir el valor de una variable dependiente basada en una variable independiente. 2. El significado de los coeficientes de regresión lineal simple, b0 y b1. 3. Cómo evaluar los supuestos del análisis de regresión lineal simple y saber qué hacer si los supuestos se violentan. 4. A realizar inferencias sobre la pendiente y el coeficiente de correlación de una regresión lineal simple. 5. A estimar los valores medios y predecir valores individuales. 2

Correlación vs. Regresión ▪ Un diagrama de dispersión se puede utilizar para demostrar la relación entre 2 variables. ▪ Un análisis de correlación se utiliza para medir la fuerza de asociación entre 2 variables (relación lineal) o La correlación no necesariamente implica causalidad.

Análisis de regresión ▪ El análisis de regresión se utiliza para: o Predecir el valor de una variable dependiente a base del valor de al menos una variable independiente. o Explicar el impacto de los cambios en una variable independiente sobre la variable dependiente. ▪ Variable dependiente es aquella que se predice o explica. ▪ Variable independiente es la que se utiliza para predecir o explicar la variable dependiente. ▪ En el modelo de regresión lineal simple, o Existe una sola variable independiente, X o La relación entre X, Y se describe por una función lineal o Los cambios en Y se asumen están relacionados a los cambios en X

Tipos de relación Relaciones curvas Relaciones lineales Y Y X Y X Y X X

(cont.) Relaciones débiles No relación Tipos de relación Y Relaciones fuertes YY XX X Y YY XX X

Modelo de regresión lineal simple Variable Intercepto Y de Pendiente de Variable Error la población la población independiente aleatorio dependiente Yi = β0 + β1Xi + εi Componente lineal Componente de error aleatorio

(cont.) Modelo de regresión lineal simple Yi = β0 + β1Xi + εi Provee estimado de la línea de regresión de la población Y pendiente = β1 Valor observado εi Error aleatorio de Y para Xi para este valor Xi Valor predecido de Y para Xi Intercepto = β0 Xi X

Método de cuadrados mínimos b0 y b1 se obtienen al encontrar valores que minimizan la suma de las diferencias cuadradas entre Y y Y෡:  min (Yi −Yˆi )2 = min (Yi − (b0 + b1Xi ))2 ▪ b0 es el valor estimado de la media de Y cuando X = 0 ▪ b1 es el cambio estimado en el valor medio de Y como resultado del aumento de una unidad de X

Regresión lineal simple: ejemplo ▪ Un corredor de bienes raíces desea examinar la relación entre el precio de venta de una vivienda y su tamaño en pies cuadrados. ▪ Se selecciona una muestra aleatoria de 10 viviendas o Variable dependiente (Y) = precio de viviendas en $1000s o Variable independiente (X) = ft2

Datos para ejemplo de regresión lineal Precios de Ft2 (X) Precio de vivienda ($1000s) 450 Modelo de precio de vivienda: vivienda en 400 diagrama de dispersión $1000s (Y) 1400 350 1600 300 500 1000 1500 2000 2500 3000 245 1700 250 pie cuadrados 312 1875 200 279 1100 150 308 1550 100 199 2350 219 2450 50 405 1425 0 324 1700 0 319 255

Regresión lineal simple utilizando la Herramienta de Excel Data Analysis 1. Seleccione Data 2. Escoja Data Analysis 3. Escoja Regression

(cont.) Regresión lineal simple utilizando la Herramienta de Excel Data Analysis Seleccione rangos de Y, X y las opciones deseadas

Resultado de regresión lineal simple de Excel Data Analysis Ecuación de regresión: Precio de vivienda = 98.2438 + 0.1098 ft2

Regresión lineal simple: predicción Prediga el precio para una vivienda de ft2 Precio de vivienda = 98.2438 + 0.1098 ft2 = 98.2438+ 0.10977(2000) = 317.78 La predicción de precio para una vivienda de 2000 pies cuadrados es de $317,780. Nota importante: al utilizar un modelo de regresión lineal para predicción, solo puede predecir para datos que se encuentren en el rango Desarrollado por Profesora Sylvia Y. Cosme Montalvo, MBA

Medidas de variación La variación total del modelo consta de 2 partes: SST = SSR + SSE Suma total de Suma de Error de la cuadrados cuadrados de la suma de cuadrados regresión  SST = (Yi − Y)2 SSR = (Yˆi − Y)2 SSE = (Yi − Yˆi )2 Donde, Yഥ = valor medio de la variable dependiente Yi = valor observado de la variable dependiente Y෡i = valor de predicción de Y para un valor Xi dado Desarrollado por Profesora Sylvia Y. Cosme Montalvo, MBA

(cont.) Medidas de variación ▪ SST = suma total de cuadrados (Variación Y SSE = (Yi - Y෡i )2 Y෡i SSR = (Y෡i - Yഥ)2 total) Yi Xi ���ഥ��� X o Mide la variación de los valores Yi alrededor Y෡i SST = (Yi - ���ത���)2 de su media Yഥ. ���ത��� ▪ SSR = suma de cuadrados de la regresión (Variación explicada) o Variación atribuida a la relación entre X, Y ▪ SSE = error de la suma de cuadrados (Variación no explicada) o Variación en Y atribuible a otros factores diferentes a X

Coeficiente de Determinación, r2 ▪ El coeficiente de determinación es la porción de la proporción total en la variable dependiente que se explica por la variación en la variable independiente. ▪ También conocido como r-cuadrada y se denota como r2. Notar que 0 ≤ ������2 ≤ 1 r2 = SSR = suma de cuadrados de la regresión SST suma total de cuadrados ▪ Si r2 = 1, existe una relación lineal perfecta entre X,Y. 100% de la variación en Y, la explica la variación de X. Si r2 = 0, no existe relación lineal entre X,Y.

Coeficiente de determinación, r2 en Excel r 2 = SSR = 18934.9348 = 0.58082 58.08% de la SST 32600.5000 variación en los precios de vivienda, se explica por la variación en pies cuadrados SYX es una medida de variación de los valores observados Y de la línea de regresión. La magnitud del error siempre debe medirse en relación con el tamaño de los valores de Y en los datos muestrales. En este caso, SYX = $41.33K es moderadamente pequeño en relación con el rango de precios de viviendas $200K - $400K.

Supuestos de regresión L.I.N.I 1. Linealidad o Relación entre X, Y es linear 2. Independencia de errores o Los errores son estadísticamente independientes 3. Normalidad del error o Los errores están normalmente distribuidos para cualquier valor de X 4. Igual varianza (también conocida como homoscedasticidad) o Distribución de probabilidades de los errores tiene varianza constante

Análisis de residuales ei = Yi − Yˆi ▪ Diferencia entre valores observados y los de predicción ▪ Se verifican los supuestos de la regresión al examinar los residuales o Linealidad o Independencia o Normalidad de la distribución o Varianza constante para todos los niveles de X (homoscedasticidad) ▪ Análisis gráfico

Análisis de residuales: linealidad No lineal Lineal Y Y xx x x residuales residuales

Análisis de residuales: independencia No independiente Independiente residuales X residuales Xresiduales X

Análisis de residuales: normalidad Al analizar el gráfico de probabilidad normal en Excel, los errores se aproximarán a una recta % 100 0 3 -3 -2 -1 0 1 2 Residual

Análisis de residuales: igual varianza Varianza no constante Varianza constante Y Y xx xx residuales residuales

Resultado de residuales en Excel No presenta violar ninguno de los supuestos de la regresión

Dificultades en el análisis de regresión 1. Falta de conocimiento de los supuestos subyacentes en el análisis de regresión de mínimos cuadrados. 2. Desconocimiento de cómo evaluar los supuestos. 3. Desconocimiento de las opciones a la regresión de cuadrados mínimos si se viola alguno de los supuestos. 4. Utilizar el modelos de regresión lineal si el conocimiento adecuado de la materia. 5. Extrapolar fuera del rango relevante.

Estrategias para evitar las dificultades del análisis de regresión 1. Comenzar con un diagrama de dispersión de X vs. Y para observar una posible relación entre las variables. 2. Realizar un análisis de residuales para verificar los supuestos. ▪ Graficar los residuales vs. X para verificar violaciones a supuestos tales como homoscedasticidad. ▪ Utilice un gráfico de probabilidades normales de los residuales para verificar posible no normalidad. 3. Si hay alguna violación a los supuestos, utilizar métodos alternos. 4. Evite hacer proyecciones fuera del rango relevante.

Resumen En este taller, aprendió: 1. El modelo de regresión lineal simple. 2. Los supuestos de la regresión y correlación. 3. A desarrollar y analizar la ecuación de regresión lineal simple. 4. A describir las medidas de variación. 5. Análisis de residuales. 6. Posibles dificultades en el análisis de regresión y estrategias recomendadas para evitarlas.

Recursos para repaso de conceptos y prácticas ▪ Elorza, A. (2008). Estadística para Ciencias Sociales del comportamiento y de la salud. México: Cengage Leasing Editores https://www.uv.mx/rmipe/files/2015/09/Estadistica-para-las-ciencias-sociales-del-comportamiento-y-de-la-salud.pdf ▪ Pérez Juste, R. (2012). Estadística aplicada a las Ciencias Sociales. Madrid: Universidad Nacional de Educación a Distancia ▪ Berenson, Levine & Szabat, (2015). Basic Business Statistics. 13th Edition. Pearson. ISBN-10: 0133869466, ISBN-13: 978-0133869460 ▪ Regresión lineal simple o https://es.khanacademy.org/math/statistics-probability/describing-relationships-quantitative-data/more-on- regression/v/regression-line-example o https://www.youtube.com/watch?v=7R_169J0zIQ o https://www.youtube.com/watch?v=fIS5Xq6Jwek o https://www.youtube.com/watch?v=znzV1cyH5Gs

¡Felicitaciones ha revisado el resumen teórico del tema de esta semana! Recuerde que para construir exitosamente su aprendizaje es importante que: Repase cuantas veces requiera la información contenida en la carpeta de módulos (incluye esta presentación). Lea el material de referencia para aclarar dudas. Desarrolle todas las actividades según consta en las instrucciones. Envíe las tareas en la fecha indicada a través de la plataforma educativa. Participe activamente en las sesiones colaborativas.


Like this book? You can publish your book online for free in a few minutes!
Create your own flipbook