Monday 25 September 2017

Stata Moving Average Egen


Diese Datenstruktur ist unzweckmäßig. Angenommen, eine ID-ID müssen Sie umformen. z. B. Dann ist ein gleitender Durchschnitt einfach. Verwenden Sie tssmooth oder einfach nur generieren. z. B. Mehr darüber, warum Ihre Datenstruktur ist ziemlich unfit: Nicht nur würde die Berechnung eines gleitenden Durchschnitt benötigen eine Schleife (nicht unbedingt mit egen), aber Sie würden mehrere neue zusätzliche Variablen erstellen. Mit denen in einer späteren Analyse wäre irgendwo zwischen ungeschickt und unmöglich. EDIT Ill geben eine Probe-Schleife, während sich nicht aus meiner Haltung, dass es schlechte Technik. Ich sehe nicht einen Grund für Ihre Namenskonvention, wobei P1947 ist ein Mittel für 1943-1945 Ich nehme an, das ist nur ein Tippfehler. Nehmen wir an, dass wir Daten für 1913-2012 haben. Für Mittel von 3 Jahren verlieren wir ein Jahr an jedem Ende. Das könnte prägnanter geschrieben werden, auf Kosten einer Flut von Makros innerhalb von Makros. Mit ungleichen Gewichten ist einfach, wie oben. Der einzige Grund, egen verwenden ist, dass es nicht aufgeben, wenn es Versäumnisse, die die oben genannten tun wird. Der Vollständigkeit halber sei bemerkt, dass es leicht ist, Fehler zu behandeln, ohne auf egen zurückzugreifen. Und der Nenner Wenn alle Werte fehlen, reduziert sich dies auf 0/0 oder fehlt. Andernfalls, wenn ein Wert fehlt, fügen wir 0 auf den Zähler und 0 auf den Nenner, die die gleiche wie Ignorieren ist. Natürlich ist der Code erträglich wie oben für Mittelwerte von 3 Jahren, aber entweder für diesen Fall oder für die Mittelung über mehr Jahre, würden wir ersetzen die Zeilen oben durch eine Schleife, was egen does. Smoothing: Lowess Wir arbeiten mit Daten aus Die Kolumbien WFS Haushaltserhebung, durchgeführt in 1975-76. Ich tabellierte die Altersverteilung aller Haushaltsmitglieder und speicherte sie in einer ascci-Datei, die wir jetzt lesen und plotten: Wie Sie sehen können, sieht die Verteilung etwas weniger glatt aus als die Daten von den Philippinen, die wir früher studiert haben. Können Sie den Myers-Index für diese Verteilung berechnen Running-Mittel und Linien Der einfachste Weg, um ein Scatterplot zu glätten, besteht darin, einen gleitenden Durchschnitt zu verwenden. Auch als laufender Mittelwert bekannt. Der gebräuchlichste Ansatz besteht darin, ein Fenster von 2k 1 Beobachtungen, k links und k rechts von jeder Beobachtung zu verwenden. Der Wert von k ist ein Trade-off zwischen Glätte der Güte der Passform. Besondere Vorsicht ist bei den Extremen des Sortiments zu beachten. Stata kann Laufmittel über lowess mit den Optionen mean und noweight berechnen. Ein häufiges Problem mit Laufmitteln ist Bias. Eine Lösung besteht darin, Gewichte zu verwenden, die den nächsten Nachbarn mehr Gewicht verleihen und weniger weit entfernten. Eine beliebte Gewichtungsfunktion ist Tukeys tri-cube, definiert als w (d) (1-d 3) 3 für d lt 1 und 0 ansonsten, wobei d der Abstand zu dem Zielpunkt ist, der als Bruchteil der Bandbreite ausgedrückt wird. Stata kann diese Berechnung über lowess mit der Option mean tun, wenn Sie noweight weglassen. Eine noch bessere Lösung ist die Verwendung von laufenden Linien. Wir definieren wieder eine Nachbarschaft für jeden Punkt, typischerweise die k nächsten Nachbarn auf jeder Seite, passen eine Regressionslinie zu den Punkten in der Nachbarschaft und verwenden sie dann, um einen glatteren Wert für die Indexbeobachtung vorherzusagen. Das klingt wie eine Menge Arbeit, aber die Berechnungen können effizient mit Regression Updating Formeln durchgeführt werden. Stata kann eine laufende Linie über lowess berechnen, wenn Sie Mittel weglassen, aber noweight einschließen. Besser noch ist die Verwendung gewichteter Linien. Was den engsten Beobachtungen mehr Gewicht verleiht, was die Lowess glatter macht. Eine Variante folgt dieser Schätzung mit wenigen Iterationen, um eine robustere Linie zu erhalten. Dies ist eindeutig die beste Technik in der Familie. Statas lowess verwendet eine gewichtete laufende Linie, wenn Sie Mittelwert und noweight R ausführen, implementiert die lowess glatter durch die Funktionen lowess () und die neuere loess (), die eine Formelschnittstelle mit einem oder mehreren Prädiktoren und etwas anderen Vorgaben verwendet. Der Parametergrad steuert den Grad des lokalen Polynoms, der Standardwert ist 2 für quadratisch, Alternativen sind 1 für lineare und 0 für laufende Mittel. Beide Implementierungen können einen robusten Schätzer verwenden, wobei die Anzahl der Iterationen von einem Parameter iter oder Iterationen gesteuert wird. Geben Sie loess und lowess in der R-Konsole ein, um weitere Informationen zu erhalten. In ggplot () können Sie eine lowess glatter durch Aufrufen geomsmooth () Die Abbildung unten zeigt die kolumbianischen Daten und eine lowess glatter mit einer Spanne oder Bandbreite gleich 25 der Daten. Vielleicht möchten Sie versuchen, verschiedene badwidths zu sehen, wie die Ergebnisse variieren. Digit Preference Revisited Glättung der Altersverteilung bietet eine bessere Möglichkeit, die Ziffernpräferenz als das Myers-Blending zu bewerten. Lassen Sie uns die letzte Ziffer des Alters berechnen und sie über den gesamten Bereich der Daten unter Verwendung der beobachteten Frequenzen und einer niedrigeren Glättung tabellieren. Die rohen Frequenzen zeigen Beweise der Präferenz für Altersgruppen, die in 0 und 5 enden, was sehr häufig ist, und wahrscheinlich auch 2. Wir verwenden jetzt das glatte wie das Gewicht. Die geglätteten Frequenzen zeigen, dass wir weniger Menschen in höheren Ziffern erwarten, sogar in einer glatten Verteilung, mit mehr Endung in 0 als 9. Wir sind nun bereit, einen Index der Ziffernpräferenz, definiert als die Hälfte, zu berechnen Summe der absoluten Differenzen zwischen beobachteten und glatten Frequenzen: Wir sehen, dass wir 5,5 der Beobachtungen umschreiben müssten, um die Ziffernpräferenz zu beseitigen. Sie können dieses Ergebnis mit dem Myers-Index vergleichen. Kopie 2016 Germaacuten Rodriacuteguez, Universität von Princeton

No comments:

Post a Comment