La Correlación de Pearson y el proceso de regresión por el Método de Mínimos Cuadrados

 

Germán Fiallos

[email protected]

Facultad de Jurisprudencia, Ciencias Políticas y Económicas

Carrera de Derecho

Universidad Tecnológica Indoamérica

Ambato – Ecuador

 

RESUMEN

Se realiza un breve análisis de las características de los gráficos de dispersión y la relación que existe entre las dos variables utilizando el proceso de análisis de correlación r de Pearson, sus características directas o indirectas y la verificación de su resultado con ayuda del Excel, posteriormente se utiliza el proceso de regresión por mínimos cuadrados que nos permite determinar la ecuación lineal de mejor ajuste que identifique a todos los datos de la información representada ente las variables del gráfico de dispersión, modelo matemático que nos permite inferir resultados del comportamiento entre las variables, de igual forma se realiza una verificación del modelo matemático de la ecuación lineal con ayuda del Excel.   

Palabras clave: Correlación; Dispersión; Regresión

 

 

 

 

 


 

Pearson's Correlation and the regression process by the

Least Squares Method

 

ABSTRACT

A brief analysis of the characteristics of the scatter charts and the relationship between the two variables is carried out using the Pearson r correlation analysis process, its direct or indirect characteristics and the verification of its result with the help of Excel, subsequently The least squares regression process is used that allows us to determine the linear equation of best fit that identifies all the data of the information represented between the variables of the scatter graph, a mathematical model that allows us to infer results of the behavior between the variables, in the same way, a verification of the mathematical model of the linear equation is carried out with the help of Excel.

Keywords:  Correlation; Dispersion; Regression

 

 

Artículo recibido: 05 de Abril 2021

Aceptado para publicación: 28 de Mayo 2021

Correspondencia[email protected]

    Conflictos de Interés: Ninguna que declarar

 

 

 

 

 

 

 

 

 


 

1.     INTRODUCCIÓN

El estudio de la función lineal, especialmente sus características como pendiente, gráfico y modelo matemático tiene su aplicación o evolución en el estudio de correlaciones y regresiones lineales, utilizando herramientas como Excel o procesos analíticos como el método de los mínimos cuadrados, podemos determinar las características de la relación que existe entre ellas; establecer un nexo entre estos dos temas que se estudian en matemática como son funciones lineales y en Estadística las correlaciones y regresiones por mínimos cuadrados, permitirá justificar la interdisciplinariedad en el estudio de estos capítulos que de no ser relacionados, se presentarían como totalmente independientes entre sí pero como vemos tienen un mismo objetivo. El obtener información del tipo de relación que existe entre dos variables utilizando las herramientas de la matemática como las funciones lineales o en estadística las correlaciones r de Pearson y el método de regresiones por el proceso de los mínimos cuadrados, con ayuda de Excel, nos permite verificar procesos analíticos, resultados y determinar los modelos matemáticos que nos permiten obtener conclusiones o inferir resultados con respaldo científico.

1.1.       Propósito

Compartir procesos matemáticos sobre el análisis de correlación entre 2 variables, realizar el análisis de regresión por procesos de mínimos cuadrados y verificar sus respuestas con ayuda de Excel, establecer las características de la función lineal aplicadas al estudio de correlaciones y regresiones lineales. 

1.2.       Resultado del aprendizaje

Aplica con probidad los algoritmos correspondientes para realizar el gráfico de dispersión y establecer el nivel de correlación entre variables mediante la utilización de coeficiente de r de Pearson; deduce la ecuación de regresión correspondiente utilizando el proceso de los mínimos cuadrados lo cual le permite inferir resultados, los cuales son verificados con ayuda de Excel.


 

1.3.       Diagrama de aprendizaje

Gráfico elaborado por Germán Fiallos

 

2.     ESTRATEGIAS METODOLÓGICAS O MATERIALES Y MÉTODOS

2.1. Diagrama de dispersión de puntos

§  Diagrama de dispersión o gráfico de dispersión es un tipo de diagrama matemático que utiliza un sistema de referencia bidimensional, para mostrar los valores y la relación que existe entre dos variables de un conjunto de datos obtenidos en una investigación​.

2.2. Características de los diagramas de dispersión de puntos

§     Tiene dos variables cuantitativas, siendo () la variable llamada independiente y () la variable dependiente

§  Los puntos no se unen entre si

§  No es tabla de frecuencias

2.3. Tipos de diagramas de dispersión de puntos

El modelo de los datos es indicativo del tipo de relación entre las dos variables:

 

 

§   Relación positiva entre las variables

 

§   Relación negativa entre las variables

§   No existe relación entre las variables

-         

2.4. Coeficiente de correlación r de Pearson

El índice numérico más común usado para medir una correlación es el “coeficiente de Pearson”. El coeficiente de Pearson (también llamado coeficiente de correlación del producto-momento), se representa con el símbolo r y proporciona una medida numérica de la correlación entre dos variables cuantitativas.

 

2.4.1. Características principales

También llamado correlación r Pearson`s, mide la naturaleza y fuerza entre dos variables cuantitativas, que permite describir la relación entre dos variables (correlación):

§  Características del coeficiente r de Pearson:

1)   Nos indica si dos variables están correlacionadas o no,

2)      El coeficiente r de Pearson indica la fuerza de la aparente relación

3)      El coeficiente r de Pearson nos indica si la aparente relación es positiva o negativa.

4)      El signo del coeficiente r de Pearson nos indica la naturaleza de la correlación entre las variables

5)      El valor del coeficiente r de Pearson denota la fuerza o intensidad la correlación entre las variables

6)      Si el signo de la correlación es positivo, significa que la relación es directa (Función creciente donde un incremento en una variable está asociado con el incremento de la otra variable; una disminución de una variable está asociado con la disminución de la otra variable).

7)      Si el signo de la correlación es negativo, significa una relación inversa o indirecta (Función decreciente significando que el incremento en una variable está asociado con una disminución de la otra variable).

8)      El valor del coeficiente r Pearson`s está entre ( -1) y (+1)

9)      El valor del coeficiente r Pearson`s denota la fuerza de la asociación como se ilustra en el siguiente diagrama.

Elaborado por Germán Fiallos

1.        Si    r = cero significa que no hay asociación o correlación entre las dos variables.

2.        Si    0 < r < 0.25 = débil correlación.

3.        Si    0.25 ≤ r < 0.75 = intermedia correlación.

4.        Si    0.75 ≤ r < 1 = fuerte correlación.

5.    Si    r =  = perfecta correlación.

6.        ¿Cómo calcular el coeficiente de correlación simple r Pearson`s  ?

ü  Utilizamos la ecuación de correlación lineal de Pearson

EJEMPLO 1:

Se realiza una investigación para establecer la relación que existe entre la edad de unos niños y su peso; se selecciona una muestra de 6 individuos, los datos de su edad en años y peso en kilogramos fue registrada como se muestra en la siguiente tabla. Se requiere elaborar un diagrama de dispersión y encontrar la correlación entre edad y peso. Utilice el coeficiente de correlación r Pearson´s

 

Edad

(años)

Peso

 (kg)

1

7

12

2

6

8

3

8

12

4

5

10

5

6

11

6

9

13

Tabla ejemplo 1

Gráfico elaborado por Germán Fiallos

Las dos variables son de tipo cuantitativo, una variable (edad) es llamada independiente; la otra (peso) es llamada dependiente con notación de variable y, para encontrar la relación entre edad y peso, calculamos el coeficiente de correlación simple, usando la siguiente ecuación:

 

Número

Edad(x)

Peso (y)

xy

1

7

12

84

49

144

2

6

8

48

36

64

3

8

12

96

64

144

4

5

10

50

25

100

5

6

11

66

36

121

6

9

13

117

81

169

n = 6

41

66

461

291

742

Tabla de datos ejemplo 1

Elaborado por Germán Fiallos

Reemplazamos los valores de la tabla en la ecuacion de Pearson

                                               r = + 0.759

Conclusión:  analizando la respuesta, podemos inferir:

1.        El signo positivo nos indica existe una correlación directa entre las variables peso y edad, esto es, a más edad más peso

2.        r = + 0.759 indica que la correlación entre las variables es fuerte

2. 5. Regresiones Lineales: Método de los mínimos cuadrados    

El proceso de Regresión nos indica como trazar la línea recta descrita en la correlación y en el gráfico de dispersión, que más se ajuste a los datos entregados; utilizaremos el método de regresión de los mínimos cuadrados para determinar las características de una recta de ajuste del tipo    de las variables independiente x, dependiente y, que pertenecen a una función lineal cuyo gráfico característico es una línea recta,  

Elaborado por Germán Fiallos

a.    Características del método de los mínimos cuadrados

§  Utiliza datos de la variable x para predecir el valor de la variable y

§    

§    

§  Nos indica la razón de cambio de y en función del cambio en los valores de x

§     Calcula el modelo matemático   de una línea recta que proporcione el mejor trazo o mejor ajuste para un grupo de datos dispersos

§  Utilizando el método de los mínimos cuadrados debemos formular la ecuación de regresión en la forma

Para lo cual debemos resolver el Sistema de ecuaciones siguiente:

donde   son las incógnitas a determinar.

3.    RESULTADOS Y DISCUSIÓN

Ejercicio 1.-

Un profesor de estadística realiza un estudio para investigar la relación que existe entre el rendimiento de sus estudiantes en los exámenes y su respectivo nivel de ansiedad. Elige a diez estudiantes de su clase para el experimento. Inmediatamente antes de presentar el examen, los diez estudiantes contestan un cuestionario sobre ansiedad. A continuación, presentamos las calificaciones de la prueba final y los datos de ansiedad para los diez estudiantes

Ansiedad

28

41

35

39

31

42

50

46

45

67

Examen final

82

58

63

89

92

64

55

70

51

72

El estudiante en base a esta información debe cumplir los siguientes objetivos:

a.          Elaborar un gráfico de dispersión de las parejas de calificaciones. Utilice la ansiedad como variable independiente. Sugerencia: trabaje en Excel

b.         Suponga que la relación es lineal y determine la intensidad de la correlación entre las variables. Debe indicar si es relación directa o inversa. - Utilice Pearson´s en forma analítica y verifique su respuesta con ayuda del Excel

c.          Determine la ecuación de la recta de mejor ajuste por el método de regresión por mínimos cuadrados, para predecir la calificación del examen final, dado el nivel de ansiedad. - realice el proceso analítico y verifique la respuesta de su ecuación con Excel

d.         Tomando como base los datos de los diez estudiantes, si un estudiante tiene un nivel de ansiedad de 38, prediga el valor de la calificación que obtendrá en el examen final.

SOLUCIÓN:

a.         El gráfico de dispersión correspondiente elaborado con ayuda de Excel queda de la siguiente forma:

Elaborado por Germán Fiallos

b.        Para determinar la correlación existente entre las variables completamos la tabla de datos en Excel, datos que serán utilizados para calcular r Pearson´s y mínimos cuadrados

 

x

y

xy

1

28

82

2296

784

6724

2

41

58

2378

1681

3364

3

35

63

2205

1225

3969

4

39

89

3471

1521

7921

5

31

92

2852

961

8464

6

42

64

2688

1764

4096

7

50

55

2750

2500

3025

8

46

70

3220

2116

4900

9

45

51

2295

2025

2601

10

67

72

4824

4489

5184

n = 10

424

696

28979

19066

50248

Tabla elaborada por Germán Fiallos

 

 

 

Análisis de la respuesta:

§  El coeficiente r de Pearson es negativo pertenece a una función decreciente

§  Hay relación débil entre las variables

c.         Para regresiones por el método de los mínimos cuadrados tenemos las dos ecuaciones con las cuales debemos encontrar el modelo matemático de la recta de mejor ajuste para las variables x e y, utilizando la tabla de datos anterior

;

 

Reemplazamos los valores:

 

Procedemos a determinar los valores de la pendiente  y el intercepto b con el eje y, para ello resolvemos el sistema de ecuaciones, podemos utilizar cualquier método, sugiero el de sustitución y empezamos eliminando b en las dos ecuaciones

Elaborado por Germán Fiallos

Calculamos el valor de b

Entonces como ya resolvimos el sistema de ecuaciones y encontramos las incógnitas  y b procedemos al reemplazo en el modelo de la ecuación lineal

Reemplazamos con las variables originales del problema y obtenemos:

 

Tomando como base los datos de los diez estudiantes, si un estudiante tiene un nivel de ansiedad de 38, prediga el valor de la calificación que obtendrá en el examen final

/100

Ejercicio 2.-

El propietario de una tienda artículos deportivos, lleva un registro de los costos mensuales de publicidad y ganancia (en miles de dólares), los cuales se presentan aquí.

Mes

enero

febrero

Marzo

abril

mayo

junio

julio

Costo mensual de la publicidad

10

14

11,4

15,6

16,8

11,2

13,2

Ganancia mensual

125

200

160

155

210

110

125

 

El estudiante en base a esta información debe cumplir los siguientes objetivos:

a.          Realice con ayuda de Excel el diagrama de dispersión correspondiente

b.         Suponga que la relación es lineal y determine la intensidad de la correlación entre las variables. Debe indicar si es relación directa o inversa. - Utilice Pearson´s en forma analítica y verifique su respuesta con ayuda del Excel

c.          Suponiendo que exista una relación lineal, obtenga analíticamente la recta de regresión por mínimos cuadrados para predecir las ganancias mensuales a partir de los costos mensuales de publicidad. Verifique la respuesta de su ecuación con ayuda de Excel

d.        En agosto, el gerente planea invertir 17 000 dólares en publicidad. Con base a estos datos, determine la ganancia probable del mes de agosto.

Desarrollo de la solución.

a.         Empezamos elaborando el diagrama de dispersión con ayuda de Excel

Elaborado por Germán Fiallos

b.        Para el cálculo del coeficiente r de Pearson completamos la tabla de datos cuyos resultados vamos a utilizar. Con el Excel podemos ya obtener el coeficiente r de Pearson sin necesidad de elaborar la tabla mostrada a continuación, pero ahora es necesario para verificar procesos y resultados, luego podríamos optar únicamente por las herramientas de Excel.  

 

x

y

xy

1

10

125

1250

100

15625

2

14

200

2800

196

40000

3

11.4

160

1824

129.96

25600

4

15.6

155

2418

243.36

24025

5

16.8

210

3528

282.24

44100

6

11.2

110

1232

125.44

12100

7

13.2

125

1650

174.24

15625

n = 7

92,2

1085

14702

1251,24

177075

 

a.       Elaboramos el diagrama de dispersión con ayuda del Excel

b.      Suponga que la relación es lineal y determine la intensidad de la correlación entre las variables. Debe indicar si es relación directa o inversa. - Utilice Pearson´s en forma analítica y verifique su respuesta con ayuda del Excel. Utilizamos los datos de la tabla anterior

 

;

 

 

  Por el signo positivo podemos deducir que entre las variables existe una fuerte correlación directa (FUNCIÓN CRECIENTE), dato que coincide con el obtenido en Excel

c.       Suponiendo que exista una relación lineal, obtenga analíticamente la recta de regresión por mínimos cuadrados para predecir las ganancias mensuales a partir de los costos mensuales de publicidad. Verifique la respuesta de su ecuación con ayuda de Excel

a.    Ecuación a obtener:        con el sistema de ecuaciones

En estas ecuaciones reemplazamos los datos obtenidos en la tabla de datos del ejercicio

;

 

El Sistema de ecuaciones queda de la siguiente forma:

 

Eliminamos b:

       

Realizamos las operaciones indicadas

Sumamos las dos ecuaciones miembros a miembro

Es el valor de la pendiente y lo reemplazamos en una de las dos ecuaciones originales para encontrar b

                                      

 

Realizamos las operaciones y calculamos b

Despejamos b

Por lo tanto nuestra ecuación de regresión es:

 

Elaborado por Germán Fiallos

Y para nuestros datos se convierte en su equivalente

Volviendo a nuestra pregunta del ejercicio tenemos:

En agosto, el gerente planea invertir 17 000 dólares en publicidad. Con base a estos datos, determine la ganancia probable del mes de agosto

Aplicamos la ecuación de regresión obtenida

Ganancia mensual en función del costo mensual de publicidad

  (en miles de dólares)

(Si observa el gráfico realizado en Excel, coincide con la respuesta obtenida por el proceso analítico de regresión por mínimos cuadrados)

4.    CONCLUSIÓN: 

§  Las características analíticas y gráficas de la función lineal se aplican en el estudio de Correlaciones r de Pearson y Regresiones lineales por el método de los mínimos cuadrados

§   El proceso analítico se verifica con las ecuaciones del Excel

5.    LISTA DE REFERENCIAS

Robert R. Pagano, (2006). Estadística para las ciencias del comportamiento (Séptima edición) Thomson Learning Inc

Remache, P., Zapata, M., Morales, T., Buenaño, N., Villacís, J., Cáceres, L., Fiallos, G., (2020). Estadística. Publicaciones de la Universidad Indoamérica

García Ramos, J. A., Ramos Gonzalez, C. D., & Ruiz Garzon, G. (2016). Estadística empresarial. Servicios de Publicaciones de la Universidad de Cádiz.

Mendenhall, W., Beaver, R., & Beaver, B. (2010). Introducción a la Probabilidad y estadística (Décima ter). Cengage Learning. http://latinoamerica.cengage.com

Johnson, R. A., & Miller, I. (2012). Miller y Freund probabilidad y estadística para ingenieros / (8th ed.). Pearson Educación,.

Levin, R., & Rubin, D. (2004). Estadística para administración económica. Pearson Educación, México.

Oteyza, E. de, Lam, E., Hernández, C., & Carrillo, Á. (2015). Probabilidad y estadística. Pearson Educación.

Ross, S. M., & Valdés Sánchez, T. (2008). Introducción a la estadística /. REVERTÉ, S.A.,.

Torres Huertas, J. (2019). Estadística aplicada a las Ciencias de la salud. Dextra Editorial. https://elibro.net/es/ereader/utiec/138492?page=78

Andrade, R., Gonzalez, E., & Caballero, E. (2014). Un sistema Lógico para el razonamiento y la toma de decisiones: La lógica difusa compensatoria basada en la media geométrica. Investigación operacional 32(3), 230-245.

 Cobo, B., & Díaz, C. (2003). MEDIA, MEDIA Y MODA. ¿QUÉ SIGNIFICA ESTO PARA LOS ESTUDIANTES DE SECUNDARIA? Congreso Nacional de Estadística e Investigación Operativa., 27.

Cortés, F.,& Rubalcava, R. (1991). Consideraciones sobre eluso de la estadística en las ciencias sociales. Estar a la moda o pensar un poco. Centro de estudios Sociológicos, El Colegio de México, México, DF.,18

Islas Salomón, C.A. Colin Uribe, M.P. y Morales Téllez, F. (2018). Probabilidad y Estadística.  Grupo editorial Éxodo. https://elibro.net/es/ereader/utieec/128557?page=66

Mayen, S.,Diaz, C., & Batanero, C. (2009). CONFLICTOS SEMIÓTICOS DE ESTUDIANTES CON EL CONCEPTO DE MEDIANA. Statistics Education Research Journal, 8(2).,8.

Merino, B., & Bernaube, C. (2004). Significado de la media en los libros de texto de secundaria. Enseñanza de las ciencias: Revista de investigación y experiencias didácticas, 5,18.

Gutiérrez Banegas, A. L. (2020). Cómo entender estadística fácilmente. Instituto Mexicano de Contadores públicos. https://elibro.net/es/erader/utiec/130922?page=128