El análisis estadístico de grandes masas de datos: Algunas tendencias recientes

Navegando en internet encontré el siguiente artículo, el cual me pareció interesante dado que lo que más existe actualmente es información, mucha información. Como actuarios considero es importantísimo estar al día sobre algunas tendencias recientes para el análisis estadístico de grandes masas de datos. A continuación se los comparto.

Autor del artículo:
Antonio Cuevas / Departamento de Matemáticas / Universidad Autónoma de Madrid

ÍNDICE

I. INTRODUCCIÓN
1. Algunos comentarios sobre el significado de la Estadística y su relación con otras ciencias
2. El planteamiento general de este artículo
II. UN VISTAZO GENERAL A LA ESTADÍSTICA PARAMÉTRICA CLÁSICA
1. Relación de la Inferencia Estadística con la Teoría de la Probabilidad: la densidad normal y otros modelos paramétricos
2. Los tres problemas clásicos en Estadística Paramétrica
III. LA ESTIMACIÓN FUNCIONAL NO PARAMÉTRICA: UNA ALTERNATIVA A LOS MODELOS CLÁSICOS
1. Del humilde histograma y sus virtudes
2. Los estimadores kernel: una versión sofisticada de los histogramas
3. Aplicaciones de los estimadores no paramétricos de la densidad al análisis de conglomerados (clustering)
4. La opción no paramétrica en los problemas de regresión
5. Ventajas e inconvenientes de los métodos no paramétricos
6. Sobre la popularidad de la estadística no paramétrica: programas informáticos disponibles
IV. ESTADÍSTICA CON DATOS FUNCIONALES


I. INTRODUCCIÓN

1. Algunos comentarios sobre el significado de la Estadística y su relación con otras ciencias
La Estadística es la ciencia de los datos, entendiendo como “datos” un conjunto de observaciones generalmente (pero no necesariamente) numéricas, obtenidas mediante la observación reiterada de un experimento de interés.

La metodología de trabajo habitual en las ciencias experimentales incluye la elaboración de modelos para explicar un determinado fenómeno y la verificación posterior de estos modelos a partir de la observación experimental que suele conducir a la obtención de datos. Así pues, en cierto sentido, la Estadística es una “ciencia transversal” a las demás, que ayuda a interpretar los datos empíricos obtenidos en cualquier campo.

La Estadística es también una “ciencia de servicio” en el sentido de que los temas de investigación que llevan al desarrollo de nuevas técnicas deben estar directamente motivados por las demandas de los usuarios (biólogos, ingenieros, físicos, economistas, …) más que por las necesidades de coherencia formal o desarrollo interno de la teoría.

El desarrollo matemático de la Estadística ha sido más reciente que el de otras ciencias matemáticas. Si aceptamos como un indicio de la madurez y consolidación de una ciencia la presencia de programas académicos establecidos, con un cuerpo común que se considera básico en las universidades de todo el mundo, podemos advertir algunas diferencias objetivas entre la Estadística y, por ejemplo, el Análisis Matemático. Así, puede señalarse que mientras la estructura de los cursos académicos avanzados de Análisis, con un planteamiento y notación similares a las que hoy conocemos (incluyendo un estudio rigurosos de la teoría de funciones, límites, diferenciabilidad, continuidad, series, …), estaba ya más o menos establecida hacia 1880 (a partir de las lecciones de Weierstrass en la Universidad de Berlín), los primeros libros de texto “modernos” y generales de Estadística Matemática no llegaron hasta mucho más tarde. Así, la obra clásica de Harald Cramer Mathematical Methods of Statistics, que sirvió de modelo para tantos otros textos posteriores, se publicó en 1945.

Por lo demás, la ciencia estadística se encuentra actualmente en un buen momento. La teoría central se ha desarrollado y enriquecido de tal manera que los cursos clásicos de los años 60 y 70 del sigo XX pueden considerarse hoy como superados en gran medida. Incluso observando el progreso de la investigación con la perspectiva más cercana de los últimos 10 años se puede apreciar un progreso evidente y consolidado. Tomando de nuevo el mundo académico como indicador: la comparación de la obra de Hastie, Tibshirani y Friedman The Elements of Statistical Learning (que está probablemente llamada a convertirse en un clásico de los principios del siglo XXI) con el texto de Cramer citado antes, deja poco lugar a dudas sobre el cambio de panorama que se ha producido.

Conviene advertir aquí que la palabra Estadística tiene, al menos, dos sentidos, claramente distintos aunque muy relacionados:
Estadística descriptiva (llamada modernamente Análisis de datos): Conjunto de técnicas orientadas a extraer información de un gran conjunto de datos, mediante medidas (media, mediana, moda, varianza) que resumen sus principales rasgos, y mediante herramientas gráficas. Este aspecto descriptivo representa quizás la imagen más común de la Estadística para el público no especializado, ya que constituye el aspecto más destacado de la presencia de esta ciencia en los medios de información, a través de las estadísticas oficiales, la divulgación científica, los datos económicos, la publicidad, etc.

Inferencia Estadística: Su objeto es obtener información sobre el modelo probabilístico que subyace en un determinado experimento aleatorio consistente en la observación de una cierta cantidad (o “variable”) aleatoria. Un ejemplo típico de problema de inferencia, que comentaremos más adelante, sería estimar la media de una variable aleatoria de interés (por ejemplo, la media de la variable X= “consumo mensual de electricidad en los domicilios particulares”).

Como veremos a continuación, todos los métodos estadísticos requieren experimentación, es decir, obtención de muestras (se llama “muestra” al conjunto de datos resultante de la observación reiterada de una variable aleatoria).

2. El planteamiento general de este artículo
La Estadística clásica está en buena parte dominada por la teoría de la inferencia basada en “muestras pequeñas”, es decir, para situaciones en las que se dispone de pocos datos (típicamente, menos de 30). Por ejemplo, toda la teoría de los tests de hipótesis basados en la t de Student puede situarse dentro de esta metodología para muestras pequeñas. Actualmente, estos métodos siguen siendo muy importantes y utilizados, pero han surgido nuevos problemas relacionados con la sobreabundancia de datos, más que con su carestía. La creciente facilidad para almacenar y procesar información por medio de potentes ordenadores, unida a la capacidad de evaluar con precisión en “tiempo continuo” gran cantidad de procesos (temperaturas, cotizaciones bursátiles, audiencias de televisión, …) han conducido a la existencia de enormes masas de datos que plantean problemas, teóricos y prácticos, para su manejo útil.

La frase “We are drowning in information and starving for knowledge” citada por Hastie, Tibshirani y Friedman resulta particularmente acertada y describe muy expresivamente una situación que es cada vez más frecuente.

La palabra “recientes” que aparece en el título debe entenderse en un sentido amplio. En realidad, la estimación funcional no paramétrica dista mucho de ser una novedad, ya que su origen se remonta a mediados de los años 50. Sin embargo, el gran progreso que se ha experimentado en los últimos diez o quince años, unido a la relativa popularización reciente de estas técnicas (que ahora son realmente accesibles a los usuarios gracias a los modernos ordenadores) permiten considerar a los métodos no paramétricos como incorporaciones recientes al núcleo de los métodos estadísticos que no sólo importan a los investigadores sino también a los usuarios. Por otra parte, las tendencias actuales tienen a acentuar la importancia de estos métodos como instrumentos auxiliares de otras técnicas (clasificación, análisis de conglomerados, …) que están típicamente asociadas al manejo de grandes masas de datos.

La estadística con datos funcionales sí puede considerarse, sin mayores reservas, como una teoría “reciente”. El primer manual general sobre este tema se debe a Ramsay y Silverman y ha sido publicado en 1997. Como siempre, pueden detectarse aquí y allá (desde, al menos, el principio de los años 80), artículos de investigación que abordaban estas ideas, pero aún hoy no hay una teoría sistemática.

II. UN VISTAZO GENERAL A LA ESTADÍSTICA PARAMÉTRICA CLÁSICA

1. Relación de la Inferencia Estadística con la Teoría de la Probabilidad: la densidad normal y otros modelos paramétricos

Generalmente, la estadística inferencial se aplica al estudio de una cierta magnitud aleatoria o “variable aleatoria” (v.a.). En muchos casos, esta variable corresponde a la observación de una cierta característica en los individuos de una gran población y por eso se emplean a veces las palabras población y “poblacional” para referirnos a X y a sus características. La teoría de la probabilidad proporciona las herramientas para identificar y definir las características de esa variable que interesa estudiar (distribución, media, varianza, …) y proporciona algunos modelos típicos que aparecen con frecuencia en las aplicaciones.

imagen-1

imagen-2

La densidad normal (cuya gráfica tiene una típica forma de campana) es un ejemplo importante de función de densidad que se emplea muchas veces para caracterizar la distribución de una v.a. Esta distribución es casi omnipresente en las aplicaciones de la Probabilidad y la Estadística a las ciencias experimentales porque, según establece el Teorema Central del Límite, (enunciado en términos informales) la distribución de cualquier variable que pueda expresarse como suma de muchas otras variables independientes, cada una de las cuales tiene un efecto pequeño sobre la variable total, sigue aproximadamente una distribución normal. Esta es la razón de la importancia fundamental de la distribución normal en Física (Teoría de Errores, Mecánica estadística, …), en Genética (estudio de la distribución de los caracteres cuantitativos), etc.

imagen-3

A continuación se presentan brevemente algunos ejemplos concretos que corresponden a situaciones reales en las que interesa estudiar una variable aleatoria cuya distribución puede elegirse dentro de algún modelo paramétrico conocido.

imagen-4

imagen-5

imagen-6

imagen-7-y-8

Estos ejemplos muestran que la teoría de probabilidades proporcionan una amplia “caja de herramientas” para elegir y manejar modelos que sean adecuados a diferentes situaciones pero, en general, no permite determinar completamente la distribución más adecuada para cada caso. Por ejemplo, en los enfoques paramétricos, estos modelos están determinados salvo uno o varios parámetros que no son conocidos. Aquí entra en juego la Estadística.

2. Los tres problemas clásicos en Estadística Paramétrica

imagen-9

imagen-10imagen-11

La Estadística Paramétrica clásica proporciona procedimientos generales para construir y analizar estimadores adecuados para algún parámetro de interés del cual depende la distribución de la variable estudiada. Naturalmente, esto incluye otras situaciones en las que el “estimador adecuado” no aparece de una manera tan directa y natural como en el ejemplo anterior.

Estimación por intervalos de confianza
Se trata de dar un intervalo de valores que cubre, con alta probabilidad, el valor desconocido del parámetro.

Quizás el ejemplo más popular (aunque en modo alguno el más importante) de estimación por intervalos de confianza es la obtención de las llamadas “horquillas de predicción” en las encuestas electorales.

Otro ejemplo más relevante surge en la metodología de control estadístico de calidad, donde los clásicos control charts de Sewhart aparecen muy relacionados con ideas de intervalos de confianza.

También en otros muchos campos, como la investigación de mercados, resultan útiles los intervalos de confianza. Como ejemplo de aplicación en este último ámbito, consideremos el siguiente estudio de mercado:

La compañía Apple Computer lanzó en 1998 el nuevo modelo iMac. La demanda inicial fue excelente. Sin embargo, la compañía estaba interesada en conocer si iMac estaba atrayendo de manera significativa “nuevos compradores” (es decir, personas que adquirían por primera vez en su vida un ordenador). Se realizó un estudio sobre 500 compradores resultando que 83 de ellos eran nuevos compradores. La proporción estimada de nuevos compradores entre los usuarios de iMac fue, por tanto, 83/500=0.617. El intervalo de confianza al 95% (obtenido con técnicas elementales de inferencia paramétrica) va de 0.13 a 0.20. Esto proporciona una información más completa que la simple estimación puntual.

Contraste de hipótesis
Esta técnica, no siempre bien comprendida ni utilizada, ayuda a optar entre dos posibles alternativas respecto al valor de un parámetro. En general, un contraste de hipótesis es un procedimiento que permite responder racionalmente (y siempre con una cierta probabilidad, controlada, de error) a preguntas del tipo:

  • ¿Hay suficiente evidencia estadística para poder afirmar que un determinado fármaco baja, en promedio, la presión arterial de los pacientes una hora después de haberlo ingerido?
  • ¿Hay suficiente evidencia estadística para poder afirmar que la cantidad media de detergente contenida en los paquetes de una determinada marca es inferior al valor nominal (1 kg) indicado en la etiqueta?
  • ¿Es superior la “dieta mediterránea” a una dieta “baja en grasas” recomendada por la American Heart Association?

En todos los casos, la idea básica es obtener una muestra y decidirnos por la hipótesis que se cuestiona cuando los datos muestrales resultarían muy improbables en el caso de que esta hipótesis no fuera cierta. Por ejemplo, en el último de los casos citados, se realizó un estudio sobre 605 supervivientes de un ataque cardíaco. De ellos, 303 recibieron dieta mediterránea y 302 la dieta AHA. Los resultados (publicados en 1998) fueron muy significativamente a favor de la primera en vista del porcentaje de personas en ambos grupos que sufrieron enfermedades durante un cierto período de tiempo.

III. LA ESTIMACIÓN FUNCIONAL NO PARAMÉTRICA: UNA ALTERNATIVA A LOS MODELOS CLÁSICOS

Como hemos visto en el apartado anterior, la estadística clásica depende fuertemente de suposiciones “paramétricas” (llamada frecuentemente “modelos paramétricos”) sobre la distribución de la variable que genera los datos. La palabra “paramétrica” alude aquí al hecho de que estos modelos fijan completamente la distribución excepto por el valor de uno o varios parámetros reales que deben ser estimados. El ejemplo más típico, y el modelo paramétrico más utilizado es, con diferencia, el modelo normal. Sin embargo, hay muchas situaciones prácticas en que un sencillo análisis exploratorio de los datos muestra claramente que la suposición de normalidad es inadecuada. Lo mismo ocurre con otros modelos paramétricos usuales.

1. Del humilde histograma y sus virtudes
Consideremos el siguiente ejemplo clásico, correspondiente a la observación a lo largo de los días 1 a 8 de agosto de 1978, de 107 valores correspondientes a tiempo (medidos en minutos) entre erupciones consecutivas de un geyser, llamado “Old Faithful”, en el parque norteamericano de Yellowstone y también a la duración de las erupciones de dicho geyser durante el período indicado. La simple representación de estos dos conjuntos de datos, mediante dos clásicos histogramas (ver figuras 2 y 3) resulta muy significativa.

imagen-12imagen-13

A la vista de estas figuras nadie podría decir razonablemente que la distribución de ninguna de estas variables es normal (la curva normal “más cercana” a los datos aparece sobrepuesta). Estas gráficas sugieren más bien que, en ambos casos, la población observada está dividida en dos “subpoblaciones” correspondientes a las dos “modas” que se observan en el gráfico. Como curiosidad, puede decirse que los resultados obtenidos a partir de un conjunto semejante de datos obtenido un año después (en agosto de 1979) fueron casi idénticos. Parece que el “Old Faithfull” tiene costumbres regulares.

A la pregunta: “si la variable observada no tiene distribución normal, entonces ¿cuál es su distribución?”, puede responderse simplemente: “olvidemos las distribuciones paramétricas preestablecidas. Utilicemos el propio histograma como si fuese (aproximadamente) la función de densidad de la variable”. Para entender por qué esta interpretación es razonable, conviene explicitar la definición formal de histograma:

imagen-14imagen-15imagen-16

Recapitulando, el histograma tiene dos aspectos, complementarios e igualmente importantes:
a) La vertiente más conocida del histograma es su utilidad como herramienta de análisis y visualización de datos. Este aspecto resulta especialmente valioso cuando el número de datos es enorme (actualmente es muy habitual manejar bases con decenas de miles de datos) y se desea tener una primera idea rápida y “visualizable” acerca de su estructura.

b) El segundo aspecto, menos popular quizás, está relacionado con la inferencia: el histograma es, en realidad, un estimador no paramétrico de la función de densidad que puede utilizarse para reemplazar a los modelos paramétricos usuales (y, en particular, al omnipresente modelo normal) cuando hay razones para dudar de ellos.

El histograma es “no paramétrico” en el sentido de que su uso no requiere ninguna suposición del tipo de que la distribución de la variable bajo estudio esté confinada en ninguna familia paramétrica de distribuciones (como la normal, la logarítmico normal, la gamma, etc.).

La discusión anterior pone de relieve algunos rasgos característicos de la estimación no paramétrica:
• Los estimadores no paramétricos dependen de un parámetro (llamado parámetro de suavizado) cuya elección es, hasta cierto punto, arbitraria. La elección adecuada de este parámetro (la anchura de los intervalos, en el caso de los histogramas) es uno de los problemas más delicados de la estadística no paramétrica y ha sido objeto de una investigación intensiva a lo largo de los años 80 y 90. El problema es muy controvertido y no tiene aún una solución uniformemente aceptada por la comunidad estadística. Sin embargo, se ha producido un enorme progreso en esta dirección que facilitará la incorporación (no realizada aún plenamente) de estas técnicas a los paquetes comerciales de software.

• Los estimadores no paramétricos requieren muestras “grandes” (de al menos 100 datos, típicamente). Hay dos razones para esto: primero, los métodos de estimación no paramétricos son “locales”: para estimar la densidad de probabilidad en un punto se utilizan principalmente los puntos muestrales cercanos a punto en cuestión. Si la muestra es demasiado pequeña, puede ocurrir que apenas se tengan datos en las proximidades de dicho punto. La segunda razón es que, en su inmensa mayoría, las motivaciones teóricas actualmente disponibles para los métodos no paramétricos son de carácter asintótico, es decir, se basan en propiedades relativas al comportamiento de los estimadores cuando el tamaño muestral tiende al infinito.

• Desde un punto de vista matemático-formal, puede considerarse que la Estadística no paramétrica es una extensión de la Estadística clásica (paramétrica) en la que el “parámetro de interés” es una función, es decir, un elemento de un espacio de dimensión infinita, en lugar de un número real o un vector de números reales.

2. Los estimadores kernel: una versión sofisticada de los histogramas
Los histogramas, del tipo de los que se muestran en las Figuras 2 y 3, pueden resultar útiles e ilustrativos para muchos propósitos pero son decididamente inadecuados bajo otros puntos de vista. En concreto:
• Los histogramas son siempre, por naturaleza, funciones discontinuas; sin embargo, en muchos casos es razonable suponer que la función de densidad de la variable que se está estimando es continua. En este sentido, los histogramas son estimadores insatisfactorios.

• Como los histogramas son funciones constantes a trozos, su primera derivada es cero en casi todo punto. Esto los hace completamente inadecuados para estimar la derivada de la función de densidad.

• Parcialmente relacionado con el punto anterior está el hecho de que los histogramas no son tampoco adecuados para estimar las modas (si se define moda como un máximo relativo de la función de densidad). A lo sumo, pueden proporcionar “intervalos modales”, pero esto puede resultar demasiado burdo en casos en que se requiere mayor precisión.

Los estimadores de tipo núcleo (o kernel) fueron diseñados para superar estas dificultades. La idea original es bastante antigua y se remonta a los trabajos de Rosenblatt y Parzen en los años 50 y primeros 60. Los estimadores kernel son, sin duda, los más utilizados y mejor estudiados en la teoría no paramétrica. Se definen mediante la expresión

imagen-17imagen-18imagen-19imagen-20imagen-21imagen-22imagen-23

El problema de determinar f para distintos países ha sido extensivamente estudiado. En Gran Bretaña se realizó un estudio particularmente detallado, en el que se estimó la densidad f, utilizando estimadores no paramétricos y modelos paramétricos para cada año del período comprendido entre 1968 y 1981. En la Figura 5 se muestran las densidades estimadas por métodos no paramétricos (trazo continuo) basados en una muestra de 6711 datos (reescalados dividiendo por la media) correspondientes al año 1975.

imagen-24

La diferencia entre ambos estimadores es muy llamativa: en el estimador no paramétrico aparecen muy claramente dos modas que de ninguna manera pueden aparecer en el modelo paramétrico lognormal que, por definición, tiene sólo una moda. Este mismo hecho se observa, de manera sistemática, a lo largo de todo el período observado e incluso, hacia el final del período se acentúa la moda de la izquierda (que correspondería a la clase económicamente más débil). No cabe duda de que en este problema, la existencia de una moda o de dos no es un hecho irrelevante ya que la presencia de dos modas sugiere claramente una cierta estructura de clases sociales que está necesariamente oculta en el modelo lognormal que, además, sobreestima el peso relativo de la clase alta. En definitiva, este ejemplo muestra que la mayor flexibilidad de los estimadores no paramétricos les permite en ocasiones describir la realidad de manera más objetiva y precisa.

3. Aplicaciones de los estimadores no paramétricos de la densidad al análisis de conglomerados (clustering)

imagen-25imagen-26imagen-27imagen-28-y-29


4. La opción no paramétrica en los problemas de regresión

imagen-30imagen-31-y-32imagen-33imagen-34-y-35imagen-36imagen-37-y-38imagen-39imagen-40imagen-41


5. Ventajas e inconvenientes de los métodos no paramétricos
La exposición anterior va, en gran parte, orientada a motivar el interés de los métodos no paramétricos frente a las alternativas más clásicas que involucran modelos paramétricos.

Nuestro objetivo ha sido mostrar que los modelos no paramétricos:
• Son más flexibles y “dejan hablar a los datos” permitiendo en ocasiones revelar rasgos importantes de la variable bajo estudio que permanecen necesariamente ocultos por un modelos paramétrico.

• Dependen en mucha menor medida que los paramétricos de suposiciones difíciles de verificar y, en muchos casos, de dudosa validez práctica.

• Proporcionan herramientas auxiliares muy valiosas para el análisis de datos y otras técnicas estadísticas (análisis de conglomerados, remuestreo, reconocimiento de formas,…) en las que los modelos paramétricos resultan frecuentemente demasiado rígidos.

Sin embargo, es justo también mencionar algunos inconvenientes importantes de estos procedimientos:

• Requieren, en general, tamaños muestrales más grandes. Este rasgo se hace particularmente agudo cuando los métodos no paramétricos se utilizan en “altas dimensiones” (en la práctica, para datos numéricos formados por vectores de dimensión superior a 4). En estas situaciones se requieren tamaños muestrales desmesuradamente grandes para obtener inferencias fiables. Este fenómeno se denomina the curse of dimensionality (“la maldición de la dimensionalidad”).

• Todos ellos dependen fuertemente de la elección de un “parámetro de suavizado” que introduce un considerable grade de arbitrariedad en la estimación. En los últimos años se ha avanzado mucho en la obtención de procedimientos para la asignación “objetiva” de estos smoothing parameter, pero, en general, el problema aún no está resuelto de una forma que pueda considerarse como universalmente aceptada.

• Su motivación teórica es, casi siempre, asintótica. Esto significa que los resultados matemáticos que avalan estos procedimientos están generalmente relacionados con su comportamiento cuando n tiende al infinito. Por contraste, en la Estadística clásica hay algunos resultados importantes de optimalidad válidos para un tamaño muestral fijo.

• Relacionado con el punto anterior está el hecho de que la Estadística no paramétrica presenta muchas más dificultades para construir intervalos de confianza o realizar contraste de hipótesis, si bien las llamadas técnicas de remuestreo (bootstrap) son muy útiles para desarrollar este tipo de inferencias, actuando en combinación los métodos no paramétricos.

6. Sobre la popularidad de la estadística no paramétrica: programas informáticos disponibles
La estimación no paramétrica de funciones se hará realmente popular solamente cuando consiga ser de “dominio público” entre los usuarios de la Estadística. Esto está empezando a ocurrir en los últimos años pero, para convertirse en una tendencia consolidada, es necesario que la estimación no paramétrica de la densidad y de la regresión (y sus métodos asociados) se incorporen plenamente al software estadístico comercial. En la actualidad, esta condición no se cumple plenamente para los programas estadísticos más populares, pero ya hay accesibles diferentes “paquetes de software” (algunos, incluso, de distribución gratuita) que permiten usar de manera cómoda y sencilla los principales métodos no paramétricos.

Sin ninguna pretensión de exhaustividad, se podrían citar los siguientes:

imagen-42

IV. ESTADÍSTICA CON DATOS FUNCIONALES
Del mismo modo que en la sección anterior nos hemos ocupado de los problemas estadísticos en los que el “parámetro” a estimar es una función, en esta sección comentaremos brevemente las situaciones en que los propios datos disponibles son funciones.

El seguimiento de procesos tecnológicos o industriales, el control de las condiciones atmosféricas, la observación del “mercado continuo” en la Bolsa, etcétera, proporcionan observaciones aleatorias que pueden considerarse como funciones.

Naturalmente este punto de vista “funcional” requiere un cierto proceso de abstracción y de modelización porque, en realidad, las observaciones se obtienen casi siempre en versión “discretizada”. Sin embargo, este es un caso en el que claramente, un pequeño nivel de sofisticación matemática conduce a un enfoque mucho más sencillo y más natural. Por ejemplo, si se observa la evolución de la temperatura de veinte sistemas análogos y para cada uno de ellos se dispone de 1440 mediciones de temperatura tomadas a intervalos de un minuto, resulta mucho más natural “interpolar” las 1440 mediciones obtenidas en cada sistema para definir con ellas una función continua, y considerar así que disponemos de una muestra de 20 funciones, que manejar nuestra información muestral como un conjunto de 20 vectores de dimensión 1440. Esta situación no es tan rara en matemáticas, donde con frecuencia “lo continuo” es más sencillo de manejar que “lo discreto”. Además, hay razones técnicas que surgen muy claramente, por ejemplo, en la teoría de la regresión, que desaconsejan el uso de vectores de dimensión muy alta con componentes altamente correlacionadas.

Naturalmente, cuando las funciones entran en juego, también surge de inmediato la necesidad de utilizar algunas herramientas de Análisis Matemático (por ejemplo, la teoría de operadores).

En el resto de esta sección ofreceremos una breve panorámica parcial de las aplicaciones y el ambiente matemático en el que se desenvuelve este nuevo campo de la Estadística. El libro de Ramsay y Silverman proporciona una interesante perspectiva de este tema, con una orientación más aplicada que teórica.

1. Regresión con datos funcionales

imagen-43imagen-44imagen-45imagen-46-y-47

2. Otras tendencias en el análisis de datos funcionales
La utilización de datos funcionales sugiere algunos problemas interesantes, de planteamiento muy sencillo y natural, que constituyen líneas de investigación actuales aún no completamente cerradas:
• “Ordenación” de los datos”: Dada una muestra de funciones obtenidas por la observación de un cierto fenómeno en tiempo continuo, ¿qué criterios razonables pueden usarse para decidir cuáles son las “observaciones extremas” (outliers) que están más lejanas del “núcleo central” de los datos?¿Cuál es la función “más interior” de la muestra?.

Comparación de medias en diferentes poblaciones (“análisis de la varianza funcional”): Supongamos, por ejemplo, que se miden “on line” (en tiempo continuo) los consumos eléctricos en n domicilios particulares elegidos al azar. Supongamos que este experimento se repite de manera independiente en 4 barrios de una gran ciudad. Se obtienen, por tanto, 4 muestras de n funciones cada una de ellas. Puede preguntarse: ¿Hay suficiente evidencia estadística para afirmar que las “funciones medias de consumo” son diferentes en los 4 barrios?.

Métodos numéricos para el tratamiento de datos funcionales: El tratamiento computacional efectivo de funciones requiere generalmente algún proceso de aproximación numérica que involucra un cierto grado de discretización. En este sentido, puede decirse que el cálculo numérico es un auxiliar indispensable para las técnicas estadísticas con datos funcionales. En particular, las técnicas de ondículas, las aproximaciones de Fourier y la solución numérica de ecuaciones desempeñan un importante papel aquí.

Fuente:
http://www.google.com.ni/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&ved=0ahUKEwifm_3qm8DRAhVBKiYKHb-PABUQFggfMAE&url=http%3A%2F%2Fwww.mat.ucm.es%2F~rrdelrio%2Fdocumentos%2Facuevas.pdf&usg=AFQjCNHr9oUAqqOrpvje9MxI4eHNdYtDTg&bvm=bv.144224172,d.eWE

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *