domingo, 18 de febrero de 2018

Hablando de estadística

 Estáis de suerte. Me habéis pillado con ganas de bromear sobre estadística. Mira que es raro, pero justo he acabado la carrera y se me ha ido el estrés. Así que os voy a contar los principales problemas que suelen tener los estadistas, y alguna cosas relacionada.
Creo que ya he hablado alguna vez de lo que pienso acerca de la estadística.  Es complicado, y las noticias del periódico que mencionan datos, por lo general están mintiendo o exagerando. Tiene muchos usos útiles, nos enteremos o no. La estadística es la razón por la cual los médicos contratan economistas para investigar, por lo que Google domina el mundo, por qué Pascal se hizo famoso, y cómo deciden cuántos y por dónde pasan los autobuses. Resumiendo lo imposible, consiste en sacar la información útil de los datos que tienes. Diferenciar cosas que pasan a la vez de lo que está relacionado, saber filtrar la información cuando muchas cosas influyen en algo, y diferenciar lo habitual de las excepciones.
Como sabéis, usar la estadística implica asumir muchas cosas sobre el mundo que pueden ser errores para la ciencia. Ya me oísteis hablar del calcetín de Locke, el asno de Buridán, unas cuantas cajas de Schrödinger y Aquiles persiguiendo una tortuga.  No voy a entrar en esos temas, sino que me centraré en analizar datos para sacar algo útil para hacer lo que sea en el mundo.
 Antes de entrar en el tema voy a hablar de un par de cosas que seguro que conocéis ya. Son estadísticas hechas a ojo, de estas que siempre vienen bien.


Como podéis observar, podríamos solucionar el problema de la vejez de España si hubiera más cigüeñas. Igualmente, tendríamos más investigación si tuviesemos más tiendas de Ikea, solucionando el problema de la pobreza, así como la gente se ahoga solamente si Nicholas Cage se sale en películas.
Y finalmente
Como llevan tiempo advirtiéndonos los pastafaris,  la temperatura global sube porque cada vez hay menos piratas en el mundo. Si en carnaval ves mucha gente disfrazada de piratas, ya sabes por qué. Dales las gracias a ellos y a Jack Sparrow.

Así que voy a hablar de, como he dicho, un par de apaños que hace la estadística (en mi sección favorita, la econometría). Como sabéis, no soy un experto, solo he acabado la carrera. Seis o siete asignaturas son una chorrada comparando con el total del conocimiento del tema que hay.  Hay muchos másters que hacer, y le siguen dando premios nobel a gente por innovar en cosas de estas. 

Como sabéis, últimamente suelto chistes basados en asociar conceptos a imágenes. Jeroglíficos, pero sin una regla clara. A veces son una película, a veces una persona, y a veces un objeto.Ahora son conceptos que voy a contar. No tendréis que adivinar nada.
 
Los datos panel son datos donde mides algo sobre vari@s personas, lugares, empresas, etc. diferentes durante varios periodos. 

Hay un sueño en muchas ciencias que es que las cosas pasen claramente. Por ejemplo, que  si A ocurre  en varios sitios, siempre ocurra B después. Exáctamente B. Y si lo mides un par de años después, seguirá pasando igual. No me refiero a que lo hayas medido mal, sino que el efecto sea el mismo.

Imagínate que te dan una subvención ahora. Por lo que sea. Te descuentan del IRPF por lo que sea.  Piensa en qué te lo gastas. Piensa en qué se lo gastará esa otra persona. Tu vecino de la derecha, por ejemplo. O en qué te gastarás ese descuento si sigue igual 10 años.

El problema suele ser que para tener buenas estadísticas, aparte de no trucarlas, es que necesitas examinar a mucha gente distinta. Si mides a dos o tres personas una vez, no te servirá de nada. Si juzgas, por ejemplo, cómo es un colectivo por lo que una persona de ellos hizo a un amigo tuyo el año pasado, tienes lo que se llama un prejuicio.

Una ventaja de estos datos es que las correlaciones, como las de arriba, no aguantan al cambiar cosas Quiero decir, hay muchas cosas que pasan una vez, pero no aguantan si cambias algo. Ejemplificando, si construyesemos el triple de IKEAs veríamos cómo no hacen mucha diferencia.

También hay alguna idea sobre los datos que usas, que tiene que tener algún sentido la relación. Ejemplificando, antes estaba comparando un evento (te dan un premio nóbel) con otro hecho estático (hay IKEAs). No hemos contado lo cerca que están de la universidad, ni si han entrado alguna vez, etc.

Bueno, siguiente rallada.
El proceso estocástico es la denominación de algo que cambia con el tiempo. Resumiendo, su media, varianza (lo que suele alejarse de la media), y covarianza (su varianza comparada con la del pasado) cambian con el tiempo. Así que no solo evalúas lo que pasa, sino también cómo cambia, y de qué cosas depende. A efectos prácticos todo es un poco estocástico, así que hay que ir actualizando las

No se si alguna vez alguien os ha dicho "Con Franco esto no pasaba." No me extraña, ni que fuesemos clones de la gente hace cincuenta años.  Ejemplificando con la economía, con el tiempo cambia la educación, las infraestructuras, las leyes, lo bien que está la gente, si tenemos acceso a internet, etc. Si lo juzgas igual (ej. hay que hacer más pantanos, porque funcionó) no servirá de mucho.
Bueno, las famosas variables binarias. Son las características en las que solo hay dos estados. Eres hombre o mujer. Vives en la ciudad o en un pueblo. Haces ejercicio o no. Has pasado esta enfermedad o no. Te has ido de casa o no. A veces hay varias binarias sobre el mismo tema (ej. edad, peso) para clasificar a toda la gente de una forma. A veces tienes el problema de que pasan a la vez. (ej. si fumas es muy raro que hagas ejercicio), complicando el análisis un poco.

Hubo un caso tan famoso que lo dan en clase sobre las elecciones entre Landon y Roosevelt. Hicieron encuestas telefónicas para ver a quién quería votar la gente. Salió que iba a salir ganando Landon. Por supuesto, en esos tiempos tener teléfono era de ricos, y había pocos, por lo cual se equivocaron mucho. Acabaron haciendo la encuesta solamente a ricos, y salió que los ricos votarían a Landon, pero no se enteraron. Es un error que sabes que siempre cometes al juzgar como iguales a la gente de  una estadística, aunque el error no sea tan gordo. Aunque utilices unas cuantas variables binarias, siempre queda un poquito.

Bueno, va, adivinad esta imágen. No es algo de estadística, sino algo de mates.


¡Sí! Logaritmos. Exacto. Simplificando para los que quieran seguir siendo de letras, un logaritmo es la operación que consiste en transformar una multiplicación en una suma. En vez de decir que ocho es dos por dos por dos,  dices que ocho es dos elevado a tres. Esta operación es útil muchas veces. Por ejemplo cuando ves que estudiar el doble no afecta el doble, o que dejar de fumar más tiempo , pese a que siga siendo bueno, no te afecta mucho más que el primer periodo que dejaste de fumar.
Como os imaginaréis, los logaritmos se hacen en base al número de Euler [lim x->∞ de (1 + 1/x)^x. Da dos y pico, no os ralléis. El número es muy útil. No todo crece al mismo ritmo ni de la misma forma.  Por ejemplo, ese rey de la india que le dió el doble de granos de arroz por cada casilla del ajedrez que contase. O cuando explican que si doblas un folio por la mitad 53 veces llega hasta el sol.

El caso de las variables dependientes.  Consiste en dos hechos que están relacionados. Cuando uno ocurre, el otro ocurre más o menos, o distinto. Es funda mental.

Te preguntarás por qué. Normalmente, porque todo influye en todo. Nos guste o no. La definición de variable independiente es algo que, aunque abstractamente quede bien, es muy difícil de hallar. Lo que suelen tratar de hallar es algo que pase a la vez pero no esté relacionado con aquello de lo que se desea indepencia.

No se si recordáis la canción de Sabina:
¿Por qué no trabaja?
porque no lo cogen
¿Por qué no lo cogen?
porque está fichao
¿Por qué lo ficharon?
porque estuvo preso
¿Por qué lo metieron?
porque roba mucho.
¿Por qué roba tanto?
porque no trabaja.

En ese caso, dado que está en un círculo vicioso y no puede salir de ahí, es de locos juzgarle por eso. Es de locos. Es por eso que buscamos una...

Es un sueño de los estadistas. Con variable independiente queremos decir que si A causa B, B no cause A. Si no será un círculo que se retroalimenta.Si A causa B, y parece que A está dado y no depende de nada, nos saldrán bien mejor las cuentas. 

Y la parte final... Las encuestas.
Todo el mundo con alma miente en las encuestas. Sin embargo, la encuesta de población activa sigue siendo mejor fuente de información que la del INEM. Hay trucos aunque sean complicados. Ejemplificando, preguntando muchas cosas parecidas (¿tienes trabajo?¿Has trabajado?¿Qué haces en tu tiempo?¿Has fichado en el INEM?¿buscas trabajo?...) Pese a ello, aunque solo mienta una persona de cada cinco, siguen trastocando los datos.

Así que, por si queréis una conclusión o resumen, es que cuando miráis los datos sobre algo, no sois un dios que comprende todas las implicaciones en la sociedad de lo que ha pasado. Ni siquiera conocemos toda la información al respecto.

Eso es todo lo del día. Comentarios y jeroglíficos son bienvenidos.