lunes, 28 de mayo de 2018

Estadística descriptiva. Un ejercicio acerca de la determinación de los cuartiles y de la elaboración del diagrama de caja y bigotes

ENUNCIADO.

Ordenando los valores de menor a mayor,
47 52 52 57 58 58 60    65    66 66 71 71 72 73 96

Así que el segundo cuartil ( o mediana ) es $Q_2=65$. Veamos ahora cuáles son el primer y tercer cuartiles:

47 52 52    57    58 58 60    65    66 66 71    71    72 73 96

Es evidente pues que $Q_1=57$ y $Q_3=71$

Con ello, ya podemos dibujar la caja del diagrama de caja y bigotes. Para determinar la longitud de los bigotes, debemos ver primero si hay algún valor atípico. Recordemos que el criterio que empleamos para considerar como atípico un cierto valor, $X=k$, es el siguiente: si $k \succ Q_3+1,5\cdot \text{RIQ}$ o bien si $k\prec Q_1-1,5\cdot \text{RIQ}$ diremos que $X=k$ es atípico, siendo $\text{RIQ}$ el rango intercuartílico, que se define como $\text{RIQ}=|Q_3-Q_1|$. Desde luego, puede haber más de un valor atípico, y cada uno de ellos los señalaremos en el diagrama de caja y bigotes, individualmente, con una cruz o un asterisco en la posición correspondiente. Hecho ésto, ya podremos trazar los bigotes: desde la posición de $Q_3$ al mayor valor no atípico, y, desde $Q_1$ al menor valor no atípico.

Démonos cuenta de que $\text{RIQ}=|71-57|=14$ con lo cual $Q_3+1,5\cdot \text{RIQ}=71+1,5\cdot 14 = 92$; el único valor mayor que $92$ es $96$, así que éste es un valor atípico. Veamos ahora si hay valores atípico menores que $Q_1$; como $Q_1-1,5\cdot \text{RIQ}=57-1,5\cdot 14 = 36$ y como todos los valores de la distribución son mayores que esa cantidad, concluimos que no hay valores atípicos menores que $Q_1$. Así pues, sólo encontramos un valor atípico, que es $X=96$.

Ahora ya podemos dibujar el diagrama de caja y bigotes ( el aspa señala el valor atípico, $X=96$, que hemos encontrado ):


$\square$

martes, 22 de mayo de 2018

Valores atípicos en una distribución estadística unidimensional. Longitud de los bigotes del diagrama de caja y bigotes

Consideramos que un valor $X=k$ de una distribución estadística es atípico si se sitúa a mayor distancia que $1,5\cdot \text{RIQ}$ del tercer cuartil $Q_3$ o bien del primer cuartil $Q_1$, y se representa con un asterisco en el diagrama de caja y bigotes, siendo $\text{RIQ}$ el rango intercuartílico, $|Q_3-Q_1|$

Un valor $X=k$ es por tanto atípico si $k \succ Q_3+1,5 \cdot \text{RIQ}$ o bien si $k \prec Q_1-1,5\cdot \text{RIQ}$

Ejemplo:
ENUNCIADO. En una distribución estadística se sabe que el rango intercuartílico es $10$ y que el valor del tercer cuartil es $15$. Sea un cierto valor de la variable estadística, que es $31$. Justifíques el hecho de que dicho valor sea atípico.

SOLUCIÓN. Como $Q_3+1,5 \text{RIQ}=1,5\cdot 10+15=30 \prec 31$, $X=31$ es un valor atípico.


Observación:
Para dibujar los bigotes en un diagrama de caja y bigotes ( una vez dibujada la caja, con los cuartiles ) trazamos un segmento desde el tercer cuartil hasta el valor máximo no atípico, y otro segmento desde el primer cuartil hasta el valor mínimo no atípico, así quedan determinadas las longitudes de los bigotes.

$\square$

lunes, 21 de mayo de 2018

Reparto de escaños mediante el procedimiento d'Hondt

ENUNCIADO. En unas elecciones, cuatro partidos políticos han obtenido los siguintes votos:


VOTOS
---------------
|  A  |   900 |
---------------
|  B  |   600 |
--------------
|  C  |   300 |
--------------
|  D  |   100 |
--------------
Se desea repartir $7$ escaños empleando el procedimiento d'Hondt ( Fuente: Wikipedia ).

SOLUCIÓN.

Dividiendo sucesivamente por $1$, $2$, $3$, $4$, $5$, $6$ y $7$ el número de votos de cada partido y seleccionando los números mayores empezando por el vértice superior izquierdo ( que marcamos con un asterisco ) podremos contabilizar, fila a fila, el número de escaños que hay que asignar a cada partido.
SOLUCIÓN.
-----------------------------------
        divisores  consecutivos
-----------------------------------
   1    2   3   4   5   6   7
-----------------------------------
A 900  450* 300* 225* 180* 150 129
B 600  300* 200* 150  120  100  86
C 300  150* 100  75    60   50  43
D 100   50   33  25    20   17  14

Notas: Si en un cierto paso hubiese empate en los resultados de las divisiones, se asigna el escaño al partido que cuenta con mayor número de votos.

ESCAÑOS:
---------------
|  A  |     4 |
---------------
|  B  |     2 |
--------------
|  C  |     1 |
--------------
|  D  |     0 |
--------------

Otra manera de implementar el algoritmo d'Hondt consiste en: asignar el primer escaño al partido más votado en cada paso ( organizaremos dichos pasos por filas ) y dividir el número de votos de éste por el número de escaños que tiene asignados más una unidad, siendo este resultado el nuevo número de votos a tener en cuenta para dicho partido en el siguiente paso. Repetiremos estas operaciones hasta haber asignados todos los escaños (*), tal como se muestra en la siguiente tabla:

--------------------------------------------------------
      A      |      B      |      C      |      D      |
--------------------------------------------------------
     900 (*) |     600     |     300     |     100     |
--------------------------------------------------------
     450     |     600 (*) |     300     |     100     |
--------------------------------------------------------
     450 (*) |     300     |     300     |     100     |
--------------------------------------------------------
     300 (*) |     300     |     300     |     100     |
--------------------------------------------------------
     225     |     300 (*) |     300 (*) |     100     |
--------------------------------------------------------
     225 (*)    |  150     |     150     |     100     |
--------------------------------------------------------
$\square$

viernes, 18 de mayo de 2018

Estadística descriptiva de una variable. Agrupación de los valores de la variable estadística en intervalos con amplitudes desiguales.

Agrupación de los valores de la variable estadística en intervalos con distintas amplitudes:
Si decidimos agrupar el conjunto de valores de una variable estadística $X$ en clases o intervalos, debemos decidir cuántas en cuántas clases lo haremos y cuál ha de ser la amplitud de cada una de las mismas, $\ell_i$ ( $i=1,2,\ldots,c$, siendo $c$ dicho número de clases ). A la hora de representar los histogramas, será necesario calcular las alturas de los rectángulos correspondientes ( en el histograma ) de acuerdo a la escala gráfica del diagrama; para ello deberemos tener en cuenta que la frecuencia asociada a cada clase, $n_i$ ha de ser proporcional al área del rectángulo correspondiente ( del histograma ), esto es $n_i \propto \ell_i \cdot h_i$, donde $h_i$ denota dicha altura de $i$-ésimo rectángulo ( del histograma )

Ejemplo:
ENUNCIADO. Durante el mes de abril se han registrado ( en una estación meteorológica ) las siguientes temperaturas máximas:
15 15 13 17 18 19 14 12 11  9
13 15 16 18 20 18 16 15 15 14
17 15 12 13 15 16 15 17 18 15
Agrupar los valores en las siguientes clases ( intervalos ): $[9,13)$, $[13,17)$ y $[17,20]$, y elaborar una tabla de frecuencias absolutas

SOLUCIÓN.
Elaboremos, para empezar, una tabla de frecuencias
--------------------------------------------
--------------------------------------------
i   |intervalo  | amplitud_i | n_i |  N_i  |
--------------------------------------------
1   | [9,13)   |  13-9=4    |  4   |  4    |
--------------------------------------------
2   | [13,17)  |  17-13=4   | 17   | 21    |
--------------------------------------------
3   | [17,20)] | 20-17=3    |  9   | 30    |
--------------------------------------------
                            | N=30 |
                            -------
A continuación, deberemos dibujar los histogramas, aunque sólo calcularemos lo necesario, aquí, para elaborar el de frecuencias absolutas del recuento ( de manera similar procederíamos para dibujar el histograma de frecuencias acumuladas ). Provistos de una hoja de papel milimitrado ( para mayor comodidad ), calcularemos la altura y la anchura de los tres rectángulos que formaran dicho histograma.
Observemos que las amplitudes de los intervalos son $\ell_1=4$, $\ell_2=4$ y $\ell_3=3$, y que las frecuencias correspondientes son $n_1=4$, $n_2=17$ y $n_3=9$

Primer rectángulo:
Estableciendo una escala gráfica cómoda, asignaremos a la longitud ( en milímetros ) de la base de dicho rectángulo el triple de la amplitud del primer intervalo, esto es $$l_1:=3\cdot \ell_1=3\cdot (13-4)
=12 \,\text{mm}$$ También asignaremos un valor ( en milímetros ) un valor conveniente ( por comodidad de representación gráfica ) a la altura de este primer rectángulo, pongamos que $$h_1:=5\,\text{mm}$$

Entonces, como $n_1=4$, y teniendo en cuenta que $n_1 \propto l_1 \cdot h_1$, con lo cual $$n_1=k\,l_1 \cdot h_1$$ siendo $k$ la constante de proporcionalidad ( para todos los rectángulos del histograma ) cuyo valor vamos a calcular a continuación $$k=\dfrac{n_1}{l_1\,h_1}=\dfrac{4}{12\cdot 5}=\dfrac{1}{15}$$ De esta forma $$k=\dfrac{n_1}{l_1\cdot h_1}=\dfrac{n_2}{l_2\cdot h_2}=\dfrac{n_3}{l_3\cdot h_3}$$

Segundo rectángulo:
Como $n_2=17$ y, de acuerdo con la escala longitudinal gráfica elegida ( hemos multiplicado por $3$ la amplitud de cada intervalo ), $l_2=(17-13)\cdot 3=12\,\text{mm}$, tenemos que $$h_2=\dfrac{n_2}{k\,l_2}=\dfrac{17}{(1/15)\cdot 12}=21,25\,\text{mm}$$


Tercer rectángulo:
Siendo $n_3=9$ y, de acuerdo con la escala longitudinal gráfica elegida ( hemos multiplicado por $3$ la amplitud de cada intervalo, igual que en los dos primeros ), $l_3=(20-17)\cdot 3=9\,\text{mm}$, tenemos que $$h_3=\dfrac{n_3}{k\,l_3}=\dfrac{9}{(1/15)\cdot 9}=15\,\text{mm}$$


$\square$


martes, 8 de mayo de 2018

Estadística descriptiva de una variable. Agrupación de valores en intervalos ( clases ) de igual amplitud

Agrupación de los valores de la variable estadística en intervalos con igual amplitud:
Denotaremos por $\ell$ a la amplitud común a todos los intervalos, por $N$ el número de valores de la variable estadística que hemos medido, y por $n_c$ al número de intervalos ( o clases ). Para establecer los extremos inferior y superior de cada uno de los $n_c$ intervalos, procederemos de la siguiente manera:

1.º)
Tomaremos como $n_c$ el número entero más próximo a $|\sqrt{N}|$

2.º) Establecemos la amplitud de los intervalos ( la misma para cada uno ), $\ell$, tomando el número entero que resulta de la aproximación por exceso de $\dfrac{\text{rango}}{n_c}$, donde $\text{rango}=|x_{\text{máx}}-x_{\text{mín}}|$

3.º) Teniendo en cuenta que, al haber aproximado por exceso en el paso anterior, $n_c \cdot \ell \ge \text{rango}$; con lo cual, en buena lógica dividiremos la diferencia en dos mitades, $\dfrac{n_c\cdot \ell -\text{rango}}{2}$, y asignaremos al valor inferior del primer intervalo el siguiente valor: $e_{1}^{\text{inf}}:=x_{\text{mín}}-\dfrac{n_c\cdot \ell -\text{rango}}{2}$, con lo cual $e_{1}^{\text{sup}}:=e_{1}^{\text{inf}}+\ell$, y, así, iremos construyendo los intervalos que siguen: $e_{2}^{\text{inf}}=e_{1}^{\text{sup}}$ y $e_{2}^{\text{sup}}=e_{2}^{\text{inf}}+\ell$, etcétera. Convendremos además que los intervalos sean cerrados por la izquierda y abiertos por la derecha:
$I_1=[e_{1}^{\text{inf}}\,,\,e_{1}^{\text{sup}})$, $I_2=[e_{2}^{\text{inf}}\,,\,e_{2}^{\text{sup}})$, ..., $I_{n_c}=[e_{n_c}^{\text{inf}}\,,\,e_{n_c}^{\text{sup}})$

Ejemplo:
ENUNCIADO. Durante el mes de abril se han registrado ( en una estación meteorológica ) las siguientes temperaturas máximas:
15 15 13 17 18 19 14 12 11  9
13 15 16 18 20 18 16 15 15 14
17 15 12 13 15 16 15 17 18 15
Agrupar los valores en clases ( intervalos ) y elaborar una tabla de frecuencias absolutas

SOLUCIÓN.
En primer lugar vamos a aplicar el criterio explicado para decidir cuántos intervalos ( de la misma amplitud $\ell$ ), $n_c$, vamos a utilizar. Recordemos que $n_c:=$entero más próximo a $|\sqrt{N}|$, donde $N$ es el número de valores. Como los valores dados están en disposición rectangular, de $3$ filas por $10$ columnas, $N=3\cdot 10=30$, así pues $n_c:=6$

Ahora vamos a calcular la amplitud de los intervalos ( haremos que sea la misma para todos ). De acuerdo con lo que hemos expuesto arriba, $\ell:=$entero por exceso máx próximo a $\dfrac{|\text{rango}|}{n_c}$. Recordemos que $\text{rango}\overset{\text{def}}{=}|x_{\text{máx}}-x_{\text{mín}}|=|20-9|=11$; así pues, $\ell:=2$, pues el entero máx próximo a $11/6$, por exceso, es $2$

A continuación, calcularemos el extremo inferior del primer intervalo, que, tal como se ha explicado se calcula así: $$e_{1}^{\text{inf}}:=x_{\text{mín}}-\dfrac{\ell \cdot n_c - \text{rango}}{2}$$ Entonces $$e_{1}^{\text{inf}}:=9-\dfrac{2\cdot 6 -11}{2}=8'5$$

En consecuencia los intervalos que emplearemos en la agrupación -- recordemos que han de ser cerrados por la izquierda y abiertos por la derecha -- son los siguientes:
$I_1=[8'5,8'5+2)=[8'5,10'5)$
$I_2=[10'5,10'5+2)=[10'5,12'5)$
$I_3=[12'5,12'5+2)=[12'5,14'5)$
$I_4=[14'5,14'5+2)=[14'5,16'5)$
$I_5=[16'5,16'5+2)=[16'5,18'5)$
$I_6=[18'5,18'5+2)=[18'5,20'5)$

Y, finalmente, ubicamos cada valor en el correspondiente intervalo y encontramos los valores de las frecuencias:
-----------------------
i|intervalo | n_i |N_i|
-----------------------
1|8'5,10'5) |  1  |1  |
-----------------------
2|10'5,12'5)|  3  |4  |
-----------------------
3|12'5,14'5)|  5  |9  |
-----------------------
4|14'5,16'5)| 12  |21 |
-----------------------
5|16'5,18'5)|  7  |28 |
-----------------------
6|18'5,20'5)|  2  |30 |
-----------------------
            |N=30 |
            -------

$\square$