Wednesday 18 October 2017

Estadística De Regresión Media Móvil


Esta estructura de datos es bastante inapropiada para el propósito. Asumiendo un id de identificador que usted necesita para remodelar. p. ej. Entonces una media móvil es fácil. Utilice tssmooth o simplemente genere. p. ej. Más sobre por qué su estructura de datos es bastante inapropiada: no sólo el cálculo de un promedio móvil necesita un bucle (no necesariamente involucrando egen), sino que estaría creando varias nuevas variables adicionales. Usarlos en cualquier análisis subsecuente sería algo entre incómodo e imposible. EDIT III dar un bucle de muestra, mientras que no se mueve de mi postura que es mala técnica. No veo una razón detrás de su convención de nombrar por lo que P1947 es un medio para 1943-1945 Supongo que es sólo un error tipográfico. Supongamos que tenemos datos para 1913-2012. Por medios de 3 años, perdemos un año en cada extremo. Eso podría escribirse más concisamente, a expensas de una ráfaga de macros dentro de macros. Usando pesos desiguales es fácil, como arriba. La única razón para usar egen es que no se da por vencido si hay fallos, lo que hará lo anterior. Como una cuestión de integridad, tenga en cuenta que es fácil de manejar faltas sin recurrir a egen. Y el denominador Si faltan todos los valores, esto se reduce a 0/0, o falta. De lo contrario, si falta algún valor, agregamos 0 al numerador y 0 al denominador, lo cual equivale a ignorarlo. Naturalmente el código es tolerable como arriba para los promedios de 3 años, pero para ese caso o para el promediado durante más años, reemplazaríamos las líneas por encima por un lazo, que es lo que hace egen. Stata: Análisis de Datos y Software Estadístico Nicholas J , Y sus limitaciones El comando más obvio de Statarsquos para calcular promedios móviles es la función ma () de egen. Dada una expresión, crea un promedio móvil de esa expresión. De forma predeterminada, se toma como 3. debe ser impar. Sin embargo, como indica la entrada manual, egen, ma () no se puede combinar con varlist:. Y, por esa sola razón, no es aplicable a los datos de los grupos especiales. En cualquier caso, se encuentra fuera del conjunto de comandos específicamente escritos para series de tiempo ver series de tiempo para detalles. Métodos alternativos Para calcular las medias móviles de los datos del panel, hay al menos dos opciones. Ambos dependen de que el conjunto de datos haya sido tsset de antemano. Esto vale mucho la pena: no sólo puede ahorrarse repetidamente especificando la variable de panel y la variable de tiempo, pero Stata se comporta de manera inteligente dada lagunas en los datos. 1. Escriba su propia definición utilizando generate Usando operadores de series de tiempo como L. y F.. Dar la definición de la media móvil como el argumento a una declaración de generar. Si lo hace, naturalmente, no está limitado a los promedios móviles ponderados (no ponderados) centrados calculados por egen, ma (). Por ejemplo, los promedios móviles de tres periodos ponderados por igual estarían dados por y algunos pesos pueden ser fácilmente especificados: Usted puede, por supuesto, especificar una expresión como log (myvar) en lugar de un nombre de variable como myvar. Una gran ventaja de este enfoque es que Stata hace automáticamente lo correcto para los datos del panel: los valores de avance y retraso se calculan dentro de paneles, tal como la lógica dicta que deberían ser. La desventaja más notable es que la línea de comandos puede ser bastante larga si el promedio móvil implica varios términos. Otro ejemplo es una media móvil unilateral basada sólo en valores anteriores. Esto podría ser útil para generar una expectativa adaptativa de lo que una variable se basará puramente en la información hasta la fecha: ¿qué podría alguien prever para el período actual basado en los últimos cuatro valores, utilizando un esquema de ponderación fijo? Especialmente utilizado con series de tiempos trimestrales.) 2. Utilice egen, filter () de SSC Utilice el filtro de función egen escrito por el usuario () del paquete egenmore en SSC. En Stata 7 (actualizado después del 14 de noviembre de 2001), puede instalar este paquete después de que ayuda egenmore señala los detalles en filter (). Los dos ejemplos anteriores serían renderizados (en esta comparación el enfoque de generar es tal vez más transparente, pero veremos un ejemplo de lo contrario en un momento). Los retrasos son un numlist. Los conductores son retardos negativos: en este caso -1/1 se expande a -1 0 1 o el plomo 1, retrasa 0, retraso 1. Los coeficientes, otro numlist, multiplican los artículos retrasados ​​o principales relevantes: en este caso esos artículos son F1.myvar. Myvar y L1.myvar. El efecto de la opción normalizar es escalar cada coeficiente por la suma de los coeficientes para que coef (1 1 1) normalize sea equivalente a coeficientes de 1/3 1/3 1/3 y coef (1 2 1) normalizar es equivalente A coeficientes de 1/4 1/2 1/4. Debe especificar no sólo los rezagos, sino también los coeficientes. Debido a que egen, ma () proporciona el caso igualmente ponderado, la razón principal para egen, filter () es apoyar el caso desigualmente ponderado, para el cual debe especificar coeficientes. También podría decirse que obligar a los usuarios a especificar coeficientes es un poco más de presión sobre ellos para pensar qué coeficientes quieren. La principal justificación para pesos iguales es, suponemos, la simplicidad, pero los pesos iguales tienen propiedades de dominio de frecuencia pésimas, por mencionar sólo una consideración. El tercer ejemplo anterior podría ser cualquiera de los cuales es casi tan complicado como el enfoque de generar. Hay casos en que egen, filter () da una formulación más simple que generar. Si quieres un filtro binomial de nueve términos, que los climatólogos encuentren útil, entonces parece quizás menos horrible que, y más fácil de conseguir que justo, así como con el enfoque de generar, egen, filter () funciona correctamente con los datos del panel. De hecho, como se indicó anteriormente, depende de que el conjunto de datos haya sido tsset de antemano. Una punta gráfica Después de calcular sus promedios móviles, es probable que desee ver un gráfico. El comando escrito por el usuario tsgraph es inteligente acerca de conjuntos de datos tsset. Instálelo en un Stata 7 actualizado por ssc inst tsgraph. ¿Qué pasa con subconjunto con si ninguno de los ejemplos anteriores hacer uso de si las restricciones. De hecho, egen, ma () no permitirá si se especifica. Ocasionalmente la gente quiere usar si al calcular promedios móviles, pero su uso es un poco más complicado de lo que suele ser. ¿Qué esperaría de un promedio móvil calculado con if. Identificemos dos posibilidades: Interpretación débil: No quiero ver ningún resultado para las observaciones excluidas. Interpretación fuerte: Ni siquiera quiero que uses los valores de las observaciones excluidas. He aquí un ejemplo concreto. Supongamos que como consecuencia de alguna condición if, se incluyen las observaciones 1-42 pero no las observaciones 43 sobre. Pero el promedio móvil de 42 dependerá, entre otras cosas, del valor de observación 43 si el promedio se extiende hacia atrás y hacia adelante y es de longitud por lo menos 3, y dependerá también de algunas de las observaciones 44 en adelante en algunas circunstancias. Nuestra conjetura es que la mayoría de la gente iría para la interpretación débil, pero si eso es correcto, egen, filter () no apoya si cualquiera. Siempre se puede ignorar lo que donrsquot quieren o incluso establecer valores no deseados a falta después mediante el uso de reemplazar. Una nota sobre los resultados faltantes en los extremos de la serie Debido a que los promedios móviles son funciones de retrasos y derivaciones, egen, ma () produce falta donde no existen los retrasos y las derivaciones, al principio y al final de la serie. Una opción nomiss obliga al cálculo de promedios móviles más cortos y no centrados para las colas. En contraste, ni generar ni egen, filter () hace, o permite, nada especial para evitar resultados faltantes. Si falta alguno de los valores necesarios para el cálculo, faltará ese resultado. Depende de los usuarios decidir si y qué cirugía correctiva se requiere para estas observaciones, presumiblemente después de mirar el conjunto de datos y teniendo en cuenta cualquier ciencia subyacente que se pueda llevar a cabo. Suavizar: Lowess Trabajaremos con datos de la encuesta de hogares WFS de Colombia , Realizado en 1975-76. Tabulé la distribución por edades de todos los miembros de la familia y la guardé en un archivo ascci, el cual ahora leemos y trazamos: Como puede ver, la distribución parece algo menos lisa que los datos de Filipinas que estudiamos anteriormente. ¿Puede calcular el índice de Myers para esta distribución? Medios y líneas de ejecución La forma más sencilla de suavizar un diagrama de dispersión es utilizar una media móvil. También conocido como una media de carrera. El enfoque más común es usar una ventana de 2k 1 observaciones, k a la izquierda y k a la derecha de cada observación. El valor de k es un trade off entre suavidad de bondad de ajuste. Se debe tener especial cuidado en los extremos de la gama. Stata puede calcular los medios de ejecución vía lowess con las opciones mean y noweight. Un problema común con los medios de ejecución es sesgo. Una solución es utilizar pesos que dan más importancia a los vecinos más cercanos y menos a los que están más lejos. Una función de peso popular es Tukeys tri-cube, definida como w (d) (1-d 3) 3 para d lt 1 y 0 en otro caso, donde d es la distancia al punto objetivo expresada como una fracción del ancho de banda. Stata puede hacer este cálculo a través de lowess con la opción mean si omite noweight. Una solución aún mejor es usar líneas en ejecución. Definimos de nuevo un vecindario para cada punto, típicamente los k vecinos más próximos de cada lado, encajamos una línea de regresión a los puntos del vecindario y luego lo usamos para predecir un valor más suave para la observación del índice. Esto suena como un montón de trabajo, pero los cálculos se pueden hacer de manera eficiente utilizando fórmulas de actualización de regresión. Stata puede calcular una línea en ejecución a través de lowess si omite medio pero incluya noweight. Mejor aún es usar líneas de ejecución ponderadas. Dando más peso a las observaciones más cercanas, que es lo que hace el lowess más suave. Una variante sigue esta estimación con unas pocas iteraciones para obtener una línea más robusta. Esta es claramente la mejor técnica en la familia. Statas lowess usa una línea de ejecución ponderada si omite medio y noweight R implementa el lowess más suave a través de las funciones lowess () y loess (), que utiliza una interfaz de fórmula con uno o más predictores y valores predeterminados algo diferentes. El grado de parámetro controla el grado del polinomio local, el valor por defecto es 2 para cuadrático, las alternativas son 1 para lineales y 0 para corrientes. Ambas implementaciones pueden utilizar un estimador robusto, con el número de iteraciones controladas por un parámetro iter o iteraciones. Escriba loess y lowess en la consola R para obtener más información. En ggplot () puede superponer un lowess más suave llamando a geomsmooth () La siguiente figura muestra los datos colombianos y un lowess más suave con un span o ancho de banda igual a 25 de los datos. Es posible que desee probar distintos anchos de banda para ver cómo varían los resultados. Preferencia de dígitos revisada Suavizar la distribución por edades proporciona una mejor manera de evaluar la preferencia de dígitos que la mezcla de Myers. Calculemos el último dígito de la edad y lo tabulamos sobre todo el rango de los datos usando las frecuencias observadas y un lowess más suave. Las frecuencias crudas muestran evidencia de preferencia por las edades que terminan en 0 y 5, que es muy común, y probablemente 2 también. Ahora usamos el suave como peso. Las frecuencias suavizadas muestran que esperamos menos personas en dígitos más altos, incluso en una distribución suave, con más terminando en 0 que 9. Ahora estamos listos para calcular un índice de preferencia de dígito, definido como la mitad de la Suma de las diferencias absolutas entre las frecuencias observadas y suaves: Vemos que tendríamos que reorganizar 5.5 de las observaciones para eliminar la preferencia de dígito. Puede que desee comparar este resultado con el índice de Myers. Copia 2016 Germaacuten Rodriacuteguez, Universidad de Princeton

No comments:

Post a Comment