Mediana (estadística)En el ámbito de la estadística, la mediana (del latín mediānus 'del medio'[1]) representa el valor de la variable de posición central en un conjunto de datos ordenados. Se le denota mediana. Si la serie tiene un número par de puntuaciones, la mediana es la media entre las dos puntuaciones centrales. Conjunto finito de númerosLa mediana de una lista finita de números es el número "medio", cuando esos números se enumeran en orden de menor a mayor. Si el conjunto de datos tiene un número impar de observaciones, se selecciona la del medio. Por ejemplo, la siguiente lista de siete números,
tiene como mediana 6, que es el cuarto valor. Si el conjunto de datos tiene un número par de observaciones, no hay un valor medio distinto y la mediana suele definirse como la media aritmética de los dos valores medios.[2][3] Por ejemplo, este conjunto de datos de 8 números
tiene un valor mediano de 4.5, es decir . (En términos más técnicos, esto interpreta la mediana como el estimador completamente recortado rango medio). En general, con esta convención, la mediana puede definirse como sigue: Para un conjunto de datos de elementos, ordenados de menor a mayor,
Conceptos generalesEn teoría de la probabilidad, se define la mediana de una variable aleatoria como un número tal que la variable tiene igual probabilidad de tomar valores menores o mayores que él. Finalmente, en inferencia estadística se estudia la mediana poblacional y la mediana muestral. La mediana se utiliza normalmente para dar un valor "típico" que caracteriza un conjunto de datos. En comparación con la media, la propiedad esencial de la mediana es que no se ve afectada si hay un grupo de datos mucho más pequeño o mucho más grandes que las otras, mientras que la media sí que puede quedar distorsionada. Un ejemplo de esta situación se da al analizar el tiempo que los estudiantes universitarios tardan en acabar una carrera, el hecho que haya algunos estudiantes que estén muchos años para acabar la carrera (porque se ponen a trabajar y retardan los estudios, u otros motivos) hace que la media no refleje bien los datos; al contrario, la mediana no es sensible a estos valores extremos, y proporciona un mejor valor representativo de la duración de los estudios. Definición formalFormalmente, una mediana de una población es cualquier valor tal que al menos la mitad de la población es menor o igual que la mediana propuesta y al menos la mitad es mayor o igual que la mediana propuesta. Como se ha visto anteriormente, las medianas pueden no ser únicas. Si cada conjunto contiene más de la mitad de la población, entonces parte de la población es exactamente igual a la mediana única. La mediana está bien definida para cualquier dato ordenado (unidimensional), y es independiente de cualquier espacio métrico. Por tanto, la mediana puede aplicarse a clases ordenadas pero no numéricas (por ejemplo, calcular la mediana de una nota cuando los alumnos se califican de A a F), aunque el resultado podría estar a medio camino entre las clases si hay un número par de casos. Una mediana geométrica, en cambio, se define en cualquier número de dimensiones. Un concepto relacionado, en el que se fuerza a que el resultado corresponda a un miembro de la muestra, es el medoide. No existe una notación estándar ampliamente aceptada para la mediana, pero algunos autores representan la mediana de una variable x bien como x͂ o como μ1/2[2] a veces también M.[4][5] En cualquiera de estos casos, el uso de estos u otros símbolos para la mediana debe definirse explícitamente cuando se introducen. La mediana es un caso especial de otras formas de resumir los valores típicos asociados a una distribución estadística: es el 2º cuartil, el 5º decil y el 50.º percentil. UsosLa mediana se puede utilizar como una medida de localización cuando uno concede poca importancia a los valores extremos, normalmente porque una distribución es skewed, los valores extremos no son conocidos, o outliers son poco fiables, es decir, pueden ser errores de medición/transcripción. Por ejemplo, consideremos el multiconjunto
La mediana es 2 en este caso, al igual que la moda, y podría verse como una mejor indicación de la centro que la media aritmética de 4, que es mayor que todos los valores menos uno. Sin embargo, la relación empírica ampliamente citada de que la media se desplaza "más hacia la cola" de una distribución que la mediana no suele ser cierta. Como mucho, se puede decir que las dos estadísticas no pueden estar "demasiado lejos".[6] Como la mediana se basa en los datos medios de un conjunto, no es necesario conocer el valor de los resultados extremos para calcularla. Por ejemplo, en una prueba de psicología en la que se investiga el tiempo necesario para resolver un problema, si un pequeño número de personas no consigue resolver el problema en absoluto en el tiempo dado, se puede calcular la mediana.[7] Debido a que la mediana es sencilla de entender y fácil de calcular, a la vez que una aproximación robusta a la media, la mediana es una estadística de resumen popular en estadística descriptiva. En este contexto, hay varias opciones para una medida de variabilidad: el rango, el rango intercuartílico, la desviación media y la desviación absoluta mediana. A efectos prácticos, las distintas medidas de localización y dispersión suelen compararse en función de lo bien que pueden estimarse los valores poblacionales correspondientes a partir de una muestra de datos. La mediana, estimada a partir de la mediana muestral, tiene buenas propiedades en este sentido. Aunque no suele ser óptima si se supone una distribución poblacional determinada, sus propiedades son siempre razonablemente buenas. Por ejemplo, una comparación de la eficiencia de los estimadores candidatos muestra que la media muestral es más eficiente estadísticamente cuando y sólo cuando- los datos no están contaminados por datos de distribuciones de colas pesadas o de mezclas de distribuciones. Incluso entonces, la mediana tiene una eficiencia del 64% en comparación con la media de varianza mínima (para muestras normales grandes), lo que equivale a decir que la varianza de la mediana será ~50% mayor que la varianza de la media.[8][9] Métodos de cálculoExisten dos métodos para el cálculo de la mediana:
Datos no agrupadosSean los datos de una muestra ordenada en orden creciente y designando la mediana como , distinguimos dos casos: a) Si n es impar, la mediana es el valor que ocupa la posición una vez que los datos han sido ordenados (en orden creciente o decreciente), porque este es el valor central. Es decir: . Por ejemplo, si tenemos 5 datos, que ordenados son: , , , , => El valor central es el tercero: . Este valor, que es la mediana de ese conjunto de datos, deja dos datos por debajo (, ) y otros dos por encima de él (, ). b) Si n es par, la mediana es la media aritmética de los dos valores centrales. Cuando es par, los dos datos que están en el centro de la muestra ocupan las posiciones y . Es decir: . Por ejemplo, si tenemos 6 datos, que ordenados son: , , , , , . Hay dos valores que están por debajo del y otros dos que quedan por encima del siguiente dato . Por tanto, la mediana de este grupo de datos es la media aritmética de estos dos datos: . Datos agrupadosAl tratar con datos agrupados en intervalos, si coincide con el valor de una frecuencia acumulada, el valor de la mediana coincidirá con la abscisa correspondiente. Si no coincide con el valor de ninguna abscisa, se calcula a través de semejanza de triángulos en el histograma o polígono de frecuencias acumuladas, utilizando la siguiente equivalencia: Donde y son las frecuencias absolutas acumuladas tales que , y son los extremos, interior y exterior, del intervalo donde se alcanza la mediana y es la abscisa a calcular, la mediana. Se observa que es la amplitud de los intervalos seleccionados para el diagrama. Ejemplos para datos agrupadosEjemplo 1: cantidad (N) impar de datos
Las calificaciones en la asignatura de Matemáticas de alumnos de una clase viene dada por la siguiente tabla:
Primero se hallan las frecuencias absolutas acumuladas . Así, aplicando la fórmula asociada a la mediana para n impar, se obtiene . Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar. En este ejemplo, (frecuencia absoluta acumulada para ) con lo que puntos, la mitad de la clase ha obtenido un o menos, y la otra mitad un o más. Ejemplo 2: cantidad (N) par de datos
Las calificaciones en la asignatura de Matemáticas de alumnos de una clase viene dada por la siguiente tabla (debajo):
Primero se hallan las frecuencias absolutas acumuladas . Así, aplicando la fórmula asociada a la mediana para par, se obtiene la siguiente fórmula: (Donde alumnos divididos entre dos). Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar. En el ejemplo el lugar decimonoveno lo ocupa el y el vigésimo el con lo que puntos, la mitad de la clase ha obtenido un o menos y la otra mitad un o más. Método de cálculo general
Consideramos: - x11 valor mínimo< Entonces: donde:
Véase también
Enlaces externosReferencias
Bibliografía adicional
|