Trunkiert Regression In Stata Forex


HINWEIS: Die IDRE Statistical Consulting Group wird die Migration der Website auf das WordPress CMS im Februar, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen im Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group durch ein Geschenk Stata Datenanalyse Beispiele Truncated Regression Version info: Der Code für diese Seite wurde in Stata 12 getestet. Die abgeschnittene Regression wird verwendet, um abhängige Variablen zu modellieren, für die einige der Beobachtungen werden aufgrund des Wertes der abhängigen Variablen nicht in die Analyse einbezogen. Bitte beachten Sie: Auf dieser Seite soll gezeigt werden, wie Sie verschiedene Befehle zur Datenanalyse verwenden können. Es deckt nicht alle Aspekte des Forschungsprozesses, die Forscher erwartet werden, zu tun. Sie umfasst insbesondere keine Datenreinigung und - prüfung, Verifizierung von Annahmen, Modelldiagnosen oder potenzielle Folgeanalysen. Beispiele für eine trunkierte Regression Beispiel 1. Eine Studie von Schülern in einem speziellen GATE-Programm (begabte und talentierte Ausbildung) möchte die Leistung als eine Funktion der Sprachkenntnisse und der Art des Programms, in dem der Schüler derzeit eingeschrieben ist, modellieren. Ein wichtiges Anliegen ist, dass die Schüler müssen eine Mindestleistung von 40 haben, um das spezielle Programm geben. So wird die Stichprobe mit einem Erreichungspunkt von 40 abgeschnitten. Beispiel 2. Ein Forscher hat Daten für eine Stichprobe von Amerikanern, deren Einkommen oberhalb der Armutsgrenze liegt. Daher wird der untere Teil der Einkommensverteilung abgeschnitten. Wenn der Forscher eine Stichprobe von Amerikanern hatte, deren Einkommen auf oder unter der Armutsgrenze lag, wäre der obere Teil der Einkommensverteilung abgeschnitten. Mit anderen Worten, die Verkürzung ist ein Ergebnis der Abtastung nur eines Teils der Verteilung der Ergebnisvariablen. Beschreibung der Daten Lets verfolgen Beispiel 1 von oben. Wir haben eine hypothetische Datendatei, truncreg. dta. Mit 178 Beobachtungen. Die Ergebnisvariable heißt achiv. Und die Sprachtestpartitur wird als Langscore bezeichnet. Die Variable prog ist eine kategoriale Vorhersagevariable mit drei Stufen, die die Art des Programms angibt, in dem die Studenten eingeschrieben wurden. Sehen wir uns die Daten an. Es ist immer eine gute Idee, mit beschreibenden Statistiken zu beginnen. Analysemethoden, die Sie berücksichtigen könnten Im Folgenden finden Sie einige Analysemethoden, die Ihnen begegnet sind. Einige der aufgeführten Methoden sind recht vernünftig, während andere entweder aus der Gunst gefallen oder haben Einschränkungen. OLS-Regression - Sie konnten diese Daten mit Hilfe der OLS-Regression analysieren. OLS-Regression die Schätzwerte der Koeffizienten nicht an, um den Effekt der Verkürzung der Probe bei 40 zu berücksichtigen, und die Koeffizienten können stark vorgespannt sein. Dies kann als Modellspezifikationsfehler konzipiert werden (Heckman, 1979). Trunkierte Regression - Truncated Regression adressiert die Bias, die bei der Verwendung von OLS-Regression mit abgeschnittenen Daten eingeführt wird. Beachten Sie, dass bei abgeschnittener Regression die Varianz der Ergebnisvariable im Vergleich zur nicht abgeschnittenen Verteilung reduziert wird. Wenn der untere Teil der Verteilung abgeschnitten wird, dann ist der Mittelwert der verkürzten Variablen größer als der Mittelwert aus der nicht abgeschnittenen Variablen, wenn die Trunkierung von oben ist, wird der Mittelwert der abgeschnittenen Variablen kleiner als die nicht abgeschnittene Variable sein. Diese Typen von Modellen können auch als Heckman-Selektionsmodelle konzipiert werden, die verwendet werden, um die Abtastauswahlvorspannung zu korrigieren. Zensierte Regression - Manchmal sind die Begriffe Abschneiden und Zensieren verwirrt. Mit zensierten Daten haben wir alle Beobachtungen, aber wir wissen nicht, die wahren Werte von einigen von ihnen. Bei der Trunkierung werden einige der Beobachtungen aufgrund des Wertes der Ergebnisvariablen nicht in die Analyse einbezogen. Es wäre unangemessen, die Daten in unserem Beispiel mit einem zensierten Regressionsmodell zu analysieren. Abgeschnittene Regression Im Folgenden verwenden wir den truncreg-Befehl, um ein abgeschnittenes Regressionsmodell abzuschätzen. Das i. Bevor prog anzeigt, dass es sich um eine Faktorvariable (d. H. Kategorische Variable) handelt und dass sie als eine Reihe von Indikatorvariablen in das Modell aufgenommen werden sollte. Die Option ll () im Befehl truncreg gibt den Wert an, bei dem die linke Trunkierung stattfindet. Es gibt auch eine ul () Option, um den Wert der rechten Trunkierung anzuzeigen, die in diesem Beispiel nicht benötigt wurde. Die Ausgabe beginnt mit einer Notiz, die angibt, dass keine Beobachtungen von Null abgeschnitten wurden. Dies liegt daran, dass unsere Stichprobe keine Daten mit Werten von weniger als 40 für die Leistung enthielt. Der Notiz folgt das Iterationsprotokoll, das die Werte der Log-Likelihoods abgibt, die mit einem Modell beginnen, das keine Prädiktoren aufweist. Der letzte Wert im Protokoll ist der endgültige Wert der Protokoll-Wahrscheinlichkeit und wird unten wiederholt. Die Kopfzeileninformationen werden als nächstes bereitgestellt. Auf der linken Seite sind die untere und obere Grenze der Trunkierung und eine Wiederholung der letzten Log-Wahrscheinlichkeit. Auf der rechten Seite ist die Anzahl der verwendeten Beobachtungen (178) zusammen mit dem Wald-Chi-Platz mit drei Freiheitsgraden angegeben. Das Wald-Chi-Quadrat ist, was Sie erhalten würden, wenn Sie den Testbefehl nach der Schätzung des Modells verwendet haben, um zu testen, dass alle Koeffizienten Null sind. Schließlich gibt es einen p-Wert für den Chi-Quadrat-Test. Insgesamt ist dieses Modell statistisch signifikant. In der Tabelle der Koeffizienten haben wir die verkürzten Regressionskoeffizienten, den Standardfehler der Koeffizienten, die Wald z-Tests (Koeffizienten) und den jedem z-Test zugeordneten p-Wert. Standardmäßig erhalten wir auch ein Konfidenzintervall von 95 für die Koeffizienten. Mit der Option level () können Sie ein unterschiedliches Konfidenzintervall anfordern. Das statistische Zusatzsigma entspricht dem Standardfehler der Schätzung bei der OLS-Regression. Der Wert von 8,76 kann mit der Standardabweichung der Leistung von 8,96 verglichen werden. Dies zeigt eine bescheidene Reduktion. Die Ausgabe enthält auch eine Schätzung des Standardfehlers von Sigma sowie ein 95 Konfidenzintervall für diesen Wert. Das abgestumpfte Regressionsmodell, das die Errungenschaften aus den Sprachergebnissen und dem Programmtyp voraussagt, war statistisch signifikant (chi-quadratisch 54.76, df 3, p) Wenn Sie trunkierte Regressionsmodelle vergleichen wollen, können Sie den Befehl estat ic ausgeben, um die Log-Wahrscheinlichkeit AIC und BIC zu erhalten Die Truncreg-Ausgabe enthält weder eine R 2 noch eine Pseudo-R 2. Sie können eine grobe Schätzung des Assoziationsgrades durch Korrelation von achiv mit dem vorhergesagten Wert und Quadrieren des Ergebnisses berechnen Der berechnete Wert von .31 ist grobe Schätzung von Die R 2, die Sie in einer OLS-Regression finden würde. Die quadrierte Korrelation zwischen den beobachteten und vorhergesagten akademischen Eignung Werte ist etwa 0,31, was darauf hinweist, dass diese Prädiktoren für mehr als 30 der Variabilität in der Ergebnisvariable verantwortlich. Die zu prüfen Statas truncreg Befehl ist entworfen Um zu arbeiten, wenn die Trunkierung auf der Ergebnisvariablen im Modell ist. Es ist möglich, Proben, die auf einer oder mehreren Prädiktoren abgeschnitten sind, zu haben. Zum Beispiel, Modellierung College GPA als eine Funktion der High School GPA (HSGPA) und SAT-Scores beinhaltet Ein Muster, das auf der Grundlage der Prädiktoren gekürzt wird, dh nur Studenten mit höheren HSGPA - und SAT-Scores werden in das College aufgenommen. Sie müssen vorsichtig sein, welchen Wert als Trunkierungswert verwendet wird, da er die Schätzung der Koeffizienten und Standardfehler beeinflusst. Im obigen Beispiel hätten wir statt ll (40) ll (39) verwendet. Wären die Ergebnisse etwas anders gewesen. Es spielt keine Rolle, dass es keine Werte von 40 in unserer Stichprobe. Referenzen Greene, W. H. (2003). Ökonometrische Analyse, Fünfte Auflage. Upper Saddle River, NJ: Prentice Hall. Heckman, J. J. (1979). Sample Auswahl Bias als Spezifikation Fehler. Ökonometrie. Band 47, Nr. 1, Seiten 153 bis 161. Long, J. S. (1997). Regressionsmodelle für kategorische und begrenzte abhängige Variablen. Thousand Oaks, CA: Sage Veröffentlichungen. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien ausgelegt werden. Die OLS-Regression ist eine weit verbreitete Technik, und es gibt viele Varianten der klassischen Regression. Unter ihnen sind die tobit und trunkated Regressionen. Ihre Verwendung wird empfohlen, wenn die abhängige (Y) Variable in gewisser Weise eingeschränkt wird. Beide haben ein gemeinsames Merkmal. Die Y-Variable wird als latente Variable (mit Y bezeichnet) als beobachtete Variable behandelt. Dies wirft mehrere Komplikationen im Vergleich zu den klassischen OLS. Ich beschloss, dieses Thema zu behandeln, weil ich diese Art von Analyse in meinem Papier über die Schwarz-Weiß-Score Änderungen in der GSS Wordsum-Test angewendet haben. Diese Techniken sind in SPSS nicht verfügbar. Ein Grund mag sein, dass diese Techniken vor allem von Ökonomen (die vor allem Stata verwenden) angewendet werden, nicht von Psychologen (die vor allem SPSS verwenden und diese Techniken gar nicht kennen). Allerdings ist das Problem, das durch Datenzensur und Datenkürzung aufgeworfen wird, auch im Bereich der Psychologie relevant. Für eine abhängige Variable, die entweder am unteren Ende oder am oberen Ende ihrer Verteilung zensiert wird, wird die tobit (oder zensierte) Regression vorgeschlagen. Oder beides. Zensieren ist im Grunde ein Problem der Boden - und Deckeneffekte. Zum Beispiel werden einige Personen bei einem bestimmten Schwellenwert () gestapelt, da sie keine höhere oder niedrigere Punktzahl auf der Variablen haben können. Dies kann auf die Differenz zurückzuführen sein, dass der Test zu einfach oder zu schwierig ist. Aber Zensur kann eine andere Form annehmen. Eine Einkommensvariable kann in Kategorien, z. B. 10.000-20.0000, etc. 8230, aber dann am Ende, unsere letzte Kategorie kann so etwas wie 8220100000 und über8221 werden. In diesem Fall wird die Variable am oberen Ende zensiert. Wie oben erwähnt, ist es möglich, eine Datenzensur an beiden Enden vorzunehmen, und in diesem Fall spezifizieren wir eine Zwei-Limit-Tobit-Regression (indem der Wert für niedrigere und obere zensierte Werte eingestellt wird) siehe Long (1997, S. 212) -213) für eine Entwicklung. Zum Beispiel, im Versicherungsschutz gibt es eine Mindestdeckung, eine maximale Deckung und Werte dazwischen. Die abgeschnittene Regression wird für eine abhängige Variable vorgeschlagen, für die ihre Verteilung nicht repräsentativ für die gesamte Population ist. Trunkierung ist im Wesentlichen ein Problem der Bereichsbeschränkung (obwohl es ungenau ist, die Trunkierung mit der Bereichsbeschränkung auszugleichen). Zum Beispiel können die Daten für Menschen, die langlebige Waren gekauft haben gesammelt worden sein. Aber Leute, die diese Waren nicht kaufen, z. B. Ihre Preisniveaus werden also von unten (statt oben) abgeschnitten. Dies ist nicht zu sagen, dass OLS zwangsläufig voreingenommen ist. Es hängt vom Ziel der Analyse ab. Wenn wir an dem Wert von Y für die gesamte Population interessiert sind, ist OLS voreingenommen. Aber wenn wir nur an unserer Teilprobe interessiert sind, reicht das OLS aus (siehe das Stata-Handbuch). Allerdings müssen wir uns bewusst sein, dass, wenn wir einen Teil der Daten auf diese Weise weglassen, die gestutzten Datenpunkte auch nicht zufällig fehlen (weil der Wert von Y für abgeschnittene und nicht abgeschnittene Beobachtungen unterschiedlich ist). Eine graphische Darstellung von Zensur und Trunkierung wird von Long (1997) gegeben: In Panel A ist die 8220latent8221 Variable Y, die tobit - und trunkierte Regressionen versuchen (auf der Basis der Menge der unabhängigen Variablen) zu schätzen. Beim Zensieren werden die Beobachtungen zensiert und auf Null gestapelt, wenn 1. Aber für die Verkürzung verschwinden die Obervationen buchstäblich, wenn sie unter dem Schwellenwert 1 liegen (oder gleich sind). Beide Techniken verwenden die maximale Wahrscheinlichkeit (ML), um die Wirkung von Die Änderungen der unabhängigen Variablen (Xs) auf den erwarteten (dh 8220potential8221) Wert der abhängigen Variablen (Y) bei einer Gaußschen (dh Normalverteilung). Da der Erwartungswert der abhängigen Variablen latent ist (d. h. nicht beobachtet), können keine standardisierten Koeffizienten erhalten werden, sofern wir nicht eine spezielle Prozedur anwenden (Long, 1997, S. 207-208). Wie für den tobit erlaubt die Technik eine Zersetzung der Wirkung von X auf dem latenten Y (d. H. Dem Tobitkoeffizienten) in zwei Teile. Die Änderung der Wahrscheinlichkeit, über dem zensierten Wert zu liegen, multipliziert mit dem erwarteten Wert von Y, wenn oben, plus der Änderung des erwarteten Y für die Fälle oberhalb des zensierten Werts multipliziert mit der Wahrscheinlichkeit, über dem zensierten Wert zu liegen (McDonald amp Moffitt, 1980 ). Mathematisch ist die latente Y-Variable im Tunnelmodell gegeben durch: EyXi F (z) x (EyXi) Ey x (F (z) Xi) wobei F (z) der Anteil der Fälle (dh Wahrscheinlichkeit) EyXi ist die Änderung des Erwartungswertes von Y für Fälle oberhalb der Schwelle, die einer unabhängigen Variablen zugeordnet ist, F (z) Xi die Änderung der Wahrscheinlichkeit, über dem Schwellenwert zu liegen, der einer unabhängigen Variablen zugeordnet ist. Lange (1997, S. 196) stellt die Formel in einer intuitiveren Weise dar: E (y) Pr (Unzensiert) x E (yygt) Pr (Zensiert) x E (yy y) Pr für die Wahrscheinlichkeit, E (y) für erwartet Y und ygt für y-Bedingung und y den Wert von y, wenn y zensiert wird (im Long8217s-Buch (siehe S.197)). Wenn wir nur an den Änderungen der Xs auf dem latenten Y interessiert sind, können die Koeffizienten, die aus der TB-Regression gewonnen werden, auf die gleiche Weise interpretiert werden wie jene, die aus der OLS-Regression gewonnen werden (Roncek, 1992). Die Formel für die trunkierte Regression findet sich in Long (1997, S. 194) und im Stata-Handbuch zur Truncreg-Funktion. Wir haven8217t eine detaillierte Antwort, warum OLS ist inkonsistent mit abgeschnittenen Daten, wenn unser Interesse konzentriert sich auf die Bevölkerung Schätzungen. Eine entscheidende Annahme der OLS-Regression ist die Unabhängigkeit der Fehler (Residuen). Die Residuen müssen einen Mittelwert Null haben und mit allen Erklärungsvariablen unkorreliert sein. Das Problem hierbei ist, dass verkürzte Daten die Probenauswahl (n) mit dem Fehlerterm (u) korrelieren. Wooldridge (2012, S. 616-617) stellt ein Beispiel mit einem Selektionsindikator s dar, dh s1, wenn wir alle Daten beobachten oder s0 ansonsten, wobei s1, wenn der Y-Hut niedriger oder gleich dem Schwellenwert ist (unter Berücksichtigung der Daten Wird von oben abgeschnitten). Entsprechend s1 wenn u-X, wobei X eine Abkürzung für 0 1X1 2X2, 8230 ist. Dies bedeutet, dass der Wert von s covaries mit u. Long (1997) illustriert die Konsequenzen von Zensur und Trunkierung für die OLS-Schätzung mit Abbildung 7.2. Die durchgezogene Linie ergibt sich aus der OLS-Schätzung von Y, die nicht zensiert wird. Die lange gestrichelte Linie OLS mit zensierten Daten hat einen niedrigeren Ab - schnitt und eine steilere Steigung wegen der vielen Werte, die auf Null gesetzt sind (als Dreiecke dargestellt), knapp unterhalb der horizontalen Schwellenlinie 1, die die linke Seite des langen gestrichelten Teils nach unten ziehen Linie. Die kurze gestrichelte Linie wird durch eine OLS-Schätzung mit Datenpunkten unter 1 gegeben, die abgeschnitten (d. H. Entfernt) werden, anstatt zensiert zu werden, und zeigt einen höheren Zwischenabschnitt und eine kleinere Steigung. Abbildung 7.7 (Seite 202) zeigt auch sehr einfach die Auswirkungen von Zensur und Trunkierung. Der Unterschied besteht darin, dass die Zensurdatenpunkte gleich dem Schwellenwert sind und nicht darunter liegen. Die Punkte unterhalb der Schwelle 2 sind abgeschnittene Datenpunkte. E (yx) in der durchgezogenen Linie ist die korrekte Schätzung. E (yygt2x) ist durch die gestrichelte Linie angegeben. Wir sehen, dass die lange gestrichelte Linie von der durchgezogenen Linie nicht unterscheidbar ist, wenn wir uns zur rechten Seite bewegen, aber die lange gestrichelte Linie ist oberhalb der durchgezogenen Linie, wenn wir nach links bewegen. Das liegt daran, dass nur wenige (viele) Datenpunkte rechts und links abgeschnitten sind. Die lange gestrichelte Linie wird näher und näher, als wir nach links bewegen. Wir sehen auch, dass es Kreise entlang der horizontalen Linie 2 gibt. Dies sind zensierte Datenpunkte. Die durch E (yx) dargestellte kurze gestrichelte Linie ist etwas unterhalb der langen gestrichelten Linie an der linken Seite der x-Achse, da die zensierten Fälle nicht eliminiert wurden. Beide Arten der Regression erfordern Normalität und homoscedastic von Residuen, auch im Fall von tobit, die immer eine zensierte Verteilung als nicht normal betrachtet. Da aber die Y-Variable nicht beobachtbar ist, können wir unsere Restvariable nicht durch Y-Y-Y erhalten, weil wir Y anstelle von Y verwenden müssen. Bei der Umkehrung der Regressionen muss ein komplexes Verfahren angewandt werden, um die verallgemeinerten Residuen und Verhaltensweisen zu erhalten Der Test der Normalität (Cameron amp Trivedi, 2009, pp. 535-538). Ein besonderes Merkmal dieser Arten von Regressionen ist, dass ein standardisierter Koeffizient in der Regel nicht in statistischen Software berichtet wird, weil seine Berechnung nicht einfach ist. Normalerweise werden die vollständig standardisierten Koeffizienten mit dem Operationskoeffizienten (X) SD (Y) SD (X) erhalten. Roncek (1992, S. 506) zeigt, dass der standardisierte Tokitorkoeffizient durch Koeffizienten (x) f (z) sigma erhalten werden kann. F (z) die Einheitsdichte ist, so ist dies meiner Meinung nach eine komplizierte Art, die Formel darzustellen, weil man die zweideutige f (z) durch die intuitive Notation SD (X) ersetzt haben könnte. 8220Sigma8221 ist der geschätzte Standardfehler des Modells der Tob-Regression (der üblicherweise von der Software berichtet wird) und ist vergleichbar mit dem geschätzten mittleren quadratischen Fehler in der OLS-Regression. Da aber Sigma die Varianz von Y ist, die an die Menge der X-Variablen gebunden ist, und dass sie nicht gleich dem unbedingten Y sein muss, was wir brauchen, dann argumentiert Long (1997, S. 207-208), dass die unbedingte Varianz von Y Mit der quadratischen Form berechnet werden: wobei Var (x) die geschätzte Kovarianzmatrix unter den x8217s ist und die ML - Schätzung der Varianz von. So schlägt Long vor, dass wir die Formel coeff (X) SD (X) y verwenden. Obwohl die standardisierten Koeffizienten in der Regel von Psychologen bevorzugt werden, mögen die Ökonomen (und insbesondere die Ökonometriker) standardisierte Koeffizienten nicht und erwarten sie vermutlich nicht. Schließlich ist anzumerken, dass OLS nicht immer mit Daten mit Probenselektion unvereinbar ist (Wooldridge, 2012, S. 615-616). Wir werden sein Beispiel des s-Indikators für die Probenselektion wieder verwenden. Wenn die Probenselektion (en) zufällig in dem Sinne ist, daß s unabhängig von X und u ist, ist die OLS unparteiisch. Aber OLS bleibt unvoreingenommen, auch wenn s von erklärenden X-Variablen und zusätzlichen zufälligen Terme abhängt, die unabhängig von X und u sind. Wenn IQ ein wichtiger Prädiktor ist, aber für einige Leute fehlt, so dass s1, wenn IQv und s0, wenn IQltv, wobei v eine unobservierte Zufallsvariable ist, die unabhängig von IQ, u und den anderen X-Variablen ist, dann ist s noch unabhängig von U Es ist keine Voraussetzung, daß s mit X unabhängigen Variablen unkorreliert ist, unter der Bedingung, daß X-Variablen mit u unkorreliert sind, weil es bedeutet, daß das Produkt von s und X auch nicht mit den Residuen u inkorreliert sein muss. Die IDRE Statistische Beratungsgruppe Wird die Migration der Website auf die WordPress CMS im Februar zu erleichtern Wartung und Erstellung neuer Inhalte. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Stata Annotated Output Truncated Regression Diese Seite zeigt ein Beispiel für eine abgeschnittene Regressionsanalyse mit Fußnoten, die die Ausgabe erklären. Ein verkürztes Regressionsmodell prognostiziert eine Ergebnisvariable, die auf eine abgeschnittene Probe ihrer Verteilung beschränkt ist. Wenn wir zum Beispiel das Alter der lizenzierten Autofahrer vor dem Fahrverhalten vorherzusagen wollen, wird unsere Ergebnisvariable mit 16 (das gesetzliche Fahralter in den USA) abgeschnitten. Während die Bevölkerung der Altersgruppen unter 16, unsere Stichprobe der Bevölkerung nicht. Es ist wichtig, den Unterschied zwischen abgeschnittenen und zensierten Daten zu beachten. Bei zensierten Daten gibt es Einschränkungen für die Messskala, die uns daran hindern, den wahren Wert der abhängigen Variablen trotz einer gewissen Messung davon zu kennen. Betrachten Sie den Tacho in einem Auto. Der Geschwindigkeitsmesser kann Geschwindigkeiten bis zu 120 Meilen pro Stunde messen, aber alle Geschwindigkeiten gleich oder größer als 120 mph werden als 120 mph gelesen werden. So, wenn der Tachometer die Geschwindigkeit misst, um 120 mph zu sein, könnte das Auto 120 mph oder jede größere Geschwindigkeit fahren - wir haben keine Möglichkeit zu wissen. Zensierte Daten schlagen Grenzwerte für die Messskala der Ergebnisvariablen vor, während verkürzte Daten die Grenzwerte für die Ergebnisvariable in der interessierenden Stichprobe einschränken. In diesem Beispiel werden wir die Studium der Studenten in einem speziellen GATE (begabten und talentierten Bildung) Programm. Wir wollen die Leistung (achiv) als Funktion des Geschlechts, der Sprachkenntnisse und der mathematischen Fähigkeiten (weiblich, langscore und mathscore im Datensatz) modellieren. Ein wichtiges Anliegen ist, dass die Schüler eine Mindestleistung von 40, um das spezielle Programm eingeben. Somit wird die Stichprobe mit einem Erreichungspunkt von 39 abgeschnitten. Zuerst können wir die Daten untersuchen. Jetzt können wir ein trunkiertes Regressionsmodell in Stata mit dem truncreg-Befehl erzeugen. Zuerst werden die Ergebnisvariable, dann die Prädiktoren und die untere und und obere Grenze aufgelistet. Unsere Daten sind nur linksbündig, so dass wir nur eine untere Grenze, ll (40) angeben. Trunkierte Regression Ausgabe a. (Hinweis: 0 verkürzt) - Dies zeigt an, wie viele Beobachtungen im Modell Variablenwerte unterhalb der unteren Grenze oder oberhalb der im Funktionsaufruf angegebenen Obergrenze ergeben haben. In diesem Beispiel ist es die Anzahl der Beobachtungen, bei denen achiv lt 40. Der minimale Wert von achiv, der in der Datenzusammenfassung aufgelistet wurde, war 41, so dass es keine Beobachtungen gab, die abgeschnitten wurden. B. Anpassung Vollmodell - Dies ist die Iterationsgeschichte des trunkierten Regressionsmodells. Es listet die Log-Likelihoods bei jeder Iteration auf. Die abgeschnittene Regression verwendet eine Maximum-Likelihood-Schätzung, die ein iteratives Verfahren ist. Die erste Iteration (bezeichnet als Iteration 0) ist die logarithmische Wahrscheinlichkeit des Quotavotquot - oder Quotemquot-Modells, das ein Modell ohne Prädiktoren ist. Bei der nächsten Iteration (Iteration 1) werden die spezifizierten Prädiktoren in das Modell aufgenommen. In diesem Beispiel sind die Prädiktoren weiblich, langscore und mathscore. Bei jeder Iteration erhöht sich die Protokollwahrscheinlichkeit, weil das Ziel darin besteht, die Protokollwahrscheinlichkeit zu maximieren. Wenn die Differenz zwischen aufeinanderfolgenden Iterationen sehr klein ist, wird angenommen, daß das Modell ein konvergiertes Quadrat hat und das Iterieren aufhört. Weitere Informationen zu diesem Prozess für binäre Ergebnisse finden Sie unter Regressionsmodelle für kategoriale und begrenzte abhängige Variablen von J. Scott Long (Seite 52-61). C. Lower - Zeigt den unteren Grenzwert für die Ergebnisvariable an. In diesem Beispiel ist die untere Grenze 40. d. Upper - Zeigt den oberen Grenzwert für die Ergebnisvariable an. In diesem Beispiel haben wir keine Obergrenze angegeben, daher wird angenommen, dass sie unendlich ist. D. h. Log-Wahrscheinlichkeit - Dies ist die Log-Wahrscheinlichkeit des eingebauten Modells. Es wird in dem Likelihood Ratio Chi-Quadrat Test verwendet, ob alle Prädiktoren Regressionskoeffizienten im Modell gleichzeitig Null sind. F. Anzahl obs - Dies ist die Anzahl der Beobachtungen im Datensatz, bei denen die Ergebnisse und Prädiktorvariablen alle nicht fehlende Werte haben. G. Wald chi2 (3) - Dies ist die Wald-Chi-Quadrat-Statistik. Es wird verwendet, um die Hypothese zu testen, dass mindestens einer der Prädiktor-Regressionskoeffizienten ungleich Null ist. Die Zahl in den Klammern gibt die Freiheitsgrade der Chi-Quadrat-Verteilung an, die zum Testen der Wald-Chi-Quadrat-Statistik verwendet wird und wird durch die Anzahl der Prädiktoren im Modell (3) definiert. H. Prob gt chi2 - Dies ist die Wahrscheinlichkeit, eine Wald-Test-Statistik so extrem zu erhalten, oder mehr, als die beobachtete Statistik unter der Nullhypothese, dass die Nullhypothese ist, dass alle Regressionskoeffizienten über beide Modelle gleichzeitig gleich Null sind. Mit anderen Worten, dies ist die Wahrscheinlichkeit, diese Chi-Quadrat-Statistik (89.85) oder ein weiteres Extrem zu erhalten, wenn es tatsächlich keine Wirkung der Prädiktorvariablen gibt. Dieser p-Wert wird mit einer spezifizierten Alpha-Stufe verglichen, wobei wir uns bereit sind, einen Typ-I-Fehler zu akzeptieren, der typischerweise auf 0,05 oder 0,01 eingestellt ist. Der kleine p-Wert aus dem Test, lt0.0001, würde dazu führen, dass zumindest einer der Regressionskoeffizienten im Modell ungleich Null ist. Der Parameter der Chi-Quadrat-Verteilung, die zum Testen der Nullhypothese verwendet wird, wird durch die Freiheitsgrade in der vorherigen Zeile, chi2 (3), definiert. ich. Achiv - Dies ist die Ergebnisvariable, die vom Modell vorhergesagt wird. J Coef. - Dies sind die Regressionskoeffizienten. Sie werden auf dieselbe Weise interpretiert wie die OLS-Regressionskoeffizienten: Für eine Erhöhung der Prädiktorvariablen um eine Einheit ändert sich der Erwartungswert der Ergebnisvariablen durch den Regressionskoeffizienten, wenn die anderen Prädiktorvariablen im Modell konstant gehalten werden. Weiblich - Der erwartete Leistungsfaktor für eine Studentin ist 2.290933 Einheiten niedriger als die erwartete Leistung für einen männlichen Schüler, während alle anderen Variablen in der Modellkonstante gehalten werden. Mit anderen Worten, wenn zwei Schüler, eine Frau und ein Mann, identische Sprach - und Mathe-Scores hatten, würde die prognostizierte Leistung des Mannes 2,290933 Einheiten höher als die vorhergesagte Leistung der Schülerin sein. Langscore - Dies ist die geschätzte Regression Schätzung für eine Einheit Erhöhung der Langscore. Da die anderen Variablen im Modell konstant gehalten werden. Wenn ein Schüler ihre Langscore um einen Punkt zu erhöhen, würde ihre vorhergesagte Leistung Punktzahl um 5,064698 Einheiten erhöhen, während die anderen Variablen in der Modell-Konstante. So haben die Schüler mit höheren Sprach-Scores haben höhere vorhergesagte Ergebnisse als Schüler mit niedrigeren Sprach-Scores, halten die anderen Variablen konstant. Mathscore - Dies ist die geschätzte Regression Schätzung für eine Einheit Erhöhung der Mathscore. Da die anderen Variablen im Modell konstant gehalten werden. Wenn ein Schüler ihre Mathscore um einen Punkt zu erhöhen, würde ihre vorhergesagte Leistung Punktzahl um 5.004054 Einheiten erhöhen, während die anderen Variablen in der Modell-Konstante. So werden die Schüler mit höheren Mathe-Scores haben höhere vorhergesagte Leistungspunkte als Studenten mit niedrigeren Math Scores, halten die anderen Variablen konstant. Cons - Dies ist die Regressionsschätzung, wenn alle Variablen im Modell bei Null ausgewertet werden. Für einen männlichen Schüler (die Variable weiblich bei null bewertet) mit langscore und mathscore von null, ist die vorhergesagte Leistung Punktzahl -0.2940047. Beachten Sie, dass die Auswertung von Langscore und Mathscore bei Null außerhalb des Bereichs der plausiblen Testergebnisse liegt. K. Std. Err. - Dies sind die Standardfehler der einzelnen Regressionskoeffizienten. Sie werden sowohl in der Berechnung der z-Teststatistik, als auch in dem Konfidenzintervall des Regressionskoeffizienten superscript n verwendet. L. Z - Die Teststatistik z ist das Verhältnis des Coef. Zu den Std. Err. Des jeweiligen Prädiktors. Der z-Wert folgt einer Standardnormalverteilung, die verwendet wird, um eine zweiseitige alternative Hypothese zu testen, dass das Coef. Nicht gleich Null ist. M. Pgtz - Dies ist die Wahrscheinlichkeit, dass die z-Teststatistik (oder eine extremere Teststatistik) unter der Nullhypothese beobachtet werden würde, dass ein spezieller Prädiktor-Regressionskoeffizient null ist, da der Rest der Prädiktoren im Modell vorliegt. Für eine gegebene Alpha-Ebene bestimmt Pgtz, ob die Nullhypothese verworfen werden kann oder nicht. Wenn Pgtz kleiner als alpha ist, kann die Nullhypothese verworfen und die Parameterabschätzung als statistisch signifikant auf dieser Alpha-Ebene betrachtet werden. Weiblich - Die z-Teststatistik für das Prädiktor-Weibchen ist (-2.2909331.490333) -1.54 mit einem zugehörigen p-Wert von 0.124. Wenn wir unsere Alpha-Ebene auf 0,05 setzen, würden wir es versäumen, die Nullhypothese zurückzuweisen und zu folgern, dass der Regressionskoeffizient für weiblich nicht statistisch unterschiedlich von Null gewesen ist, wenn langscore und mathscore im Modell liegen. Langscore - Die z-Teststatistik für den Prädiktor-Langscore ist (5.0646981.037769) 4.88 mit einem zugehörigen p-Wert von lt0.001. Wenn wir unsere Alpha-Ebene auf 0,05 setzen, würden wir die Nullhypothese zurückweisen und darauf schließen, dass der Regressionskoeffizient für Langscore sich als statistisch von Null bei Weibchen und Mathscore im Modell unterscheidet. Mathscore - Die z-Teststatistik für den Prädiktor mathscore ist (5.0040540.9555717) 5.24 mit einem zugehörigen p-Wert von lt0.001. Wenn wir unsere Alpha-Ebene auf 0,05 setzen, würden wir die Nullhypothese zurückweisen und darauf schließen, dass der Regressionskoeffizient für mathscore sich als statistisch von Null unterscheidet, wenn Frauen und Langscore im Modell vorliegen. Cons - Die z-Teststatistik für den Intercept, cons. Ist (-0.29400476.204858) -0.05 mit einem zugehörigen p-Wert von 0.962. Wenn wir unseren Alphaknoten auf 0,05 setzen, würden wir die Nullhypothese nicht zurückweisen und darauf schließen, dass die Nachteile nicht als statistisch unterschiedlich von 0 bei weiblicher gefunden wurden. Langscore und mathscore sind im Modell und werden bei null ausgewertet. N ist. 95 Konf. Interval - Dies ist das Vertrauensintervall (CI) für einen individuellen Koeffizienten, wenn die anderen Prädiktoren im Modell sind. Für einen gegebenen Prädiktor mit einem Niveau von 95 Vertrauen, sagen wir, dass wir 95 zuversichtlich sind, dass der Quottruequot-Koeffizient zwischen der unteren und oberen Grenze des Intervalls liegt. Sie wird als Coef berechnet. (Z 9452) (Std. Err.), Wobei z 9452 ein kritischer Wert auf die Standardnormalverteilung ist. Der CI ist äquivalent zu der z-Teststatistik: Wenn die CI Null enthält, kann wed die Nullhypothese nicht zurückweisen, dass ein bestimmter Regressionskoeffizient Null ist, wenn die anderen Prädiktoren im Modell liegen. Ein Vorteil eines CI ist, dass es illustrativ ist es bietet einen Bereich, wo der Quottruequot-Parameter liegen kann. O. Sigma - Dies ist der geschätzte Standardfehler der Regression. In diesem Beispiel ist der Wert 7,739053 vergleichbar mit dem quadratischen Grundfehler, der bei einer OLS-Regression erhalten würde. Wenn wir eine OLS-Regression mit dem gleichen Ergebnis und Prädiktoren liefen, wäre unsere RMSE 6.8549. Dies zeigt an, wie stark das Ergebnis von dem vorhergesagten Wert variiert. Sigma annähernd diese Grße für eine abgeschnittene Regression. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt der Universität von Kalifornien ausgelegt werden. Die OLS-Regression ist eine weit verbreitete Technik, und es gibt viele Varianten der klassischen Regression. Unter ihnen sind die tobit und trunkated Regressionen. Ihre Verwendung wird empfohlen, wenn die abhängige (Y) Variable in gewisser Weise eingeschränkt wird. Beide haben ein gemeinsames Merkmal. Die Y-Variable wird als latente Variable (mit Y bezeichnet) als beobachtete Variable behandelt. Dies wirft mehrere Komplikationen im Vergleich zu den klassischen OLS. Ich beschloss, dieses Thema zu behandeln, weil ich diese Art von Analyse in meinem Papier über die Schwarz-Weiß-Score Änderungen in der GSS Wordsum-Test angewendet haben. Diese Techniken sind in SPSS nicht verfügbar. Ein Grund mag sein, dass diese Techniken hauptsächlich von Ökonomen (die vor allem Stata verwenden) angewendet werden, nicht von Psychologen (die vor allem SPSS verwenden und diese Techniken gar nicht kennen). Allerdings ist das Problem, das durch Datenzensur und Datenkürzung aufgeworfen wird, auch im Bereich der Psychologie relevant. Für eine abhängige Variable, die entweder am unteren Ende oder am oberen Ende ihrer Verteilung zensiert wird, wird die tobit (oder zensierte) Regression vorgeschlagen. Oder beides. Zensieren ist im Grunde ein Problem der Boden - und Deckeneffekte. Zum Beispiel werden einige Personen bei einem bestimmten Schwellenwert () gestapelt, da sie keine höhere oder niedrigere Punktzahl auf der Variablen haben können. Dies kann auf die Differenz zurückzuführen sein, dass der Test zu einfach oder zu schwierig ist. Aber Zensur kann eine andere Form annehmen. Eine Einkommensvariable kann in Kategorien, z. B. 10,000-20,0000, etc. 8230, but then at the very end, our last category may be something like 8220100,000 and above8221. In this case, the variable is censored at the upper end. As mentioned earlier, it is possible to have a data censored at both end, and in this case, we are specifying a two-limit tobit regression (by setting the value for lower and upper censored values) see Long (1997, pp. 212-213) for a development. For instance, in insurance coverage, there is a minimum coverage, a maximum coverage, and values in between. The truncated regression is proposed for a dependent variable for which its distribution is not representative of the entire population. Truncation is essentially a problem of range restriction (although it is inaccurate to equalize truncation with range restriction). For instance, the data may have been collected for people having purchased durable goods. But people who did not purchase these goods due to, e. g. their price levels, are thus said to be truncated from below (instead of above). This is not to say that OLS is necessarily biased. It depends on the goal of the analysis. If we are interested in the value of Y for the entire population, OLS is biased. But if we are merely interested in our subsample, the OLS is sufficient (see the Stata manual ). However, we must be aware that when we omit a portion of the data in this manner, the truncated data points are also missing not at random (because the value of Y for truncated and untruncated observations is different). A graphical representation of censoring and truncation is given by Long (1997) : In Panel A is the 8220latent8221 variable Y that tobit and truncated regressions are trying to estimate (based on the set of independent variables). In censoring, the observations are censored and stacked at zero when 1. But, for truncation, the obervations literally disappear when they are below (or equal to) the threshold value 1. Both techniques use maximum likelihood (ML) to estimate the effect of the changes in independent variables (Xs) on the expected (i. e. 8220potential8221) value of the dependent variable (Y) given a gaussian (i. e. normal) distribution. Because the expected value of the dependent variable is latent (i. e. not observed), it is not possible to obtain standardized coefficients, unless we apply a special procedure (Long, 1997, pp. 207-208). As for tobit, the technique allows a decomposition of the effect of X on the latent Y (i. e. the tobit coefficient) into two parts. the change in the probability of being above the censored value multiplied by the expected value of Y if above plus the change in the expected Y for the cases above the censored value multiplied by the probability of being above the censored value (McDonald amp Moffitt, 1980). Mathematically, the latent Y variable in tobit model is given by : EyXi F(z) x (EyXi) Ey x (F(z)Xi) where F(z) is the proportion of cases (i. e. probability) being above the threshold, EyXi is the change in the expected value of Y for cases above the threshold associated with an independent variable, F(z)Xi is the change in the probability of being above the threshold associated with an independent variable. Long (1997, p. 196) presents the formula in a more intuitive way : E(y) Pr(Uncensored) x E(yygt) Pr(Censored) x E(yy y ) Pr for probability, E(y) for expected y, and ygt for conditional on y above , and y is the value of y if y is censored (in Long8217s book (see p.197) at least). If we are only interested in the changes of the Xs on the latent Y, the coefficients obtained from tobit regression can be interpreted in the same way as those obtained from OLS regression (Roncek, 1992). The formula for truncated regression can be found in Long (1997, p. 194) and in the Stata manual for truncreg function. We haven8217t provided a detailed answer of why OLS is inconsistent with truncated data when our interest focuses on the population estimates. One crucial assumption of OLS regression is the independence of the errors (residuals). The residuals must have mean zero and be uncorrelated with all explanatory variables. The problem here is that truncated data causes the sample selection (s) to be correlated with the error term (u). Wooldridge (2012, pp. 616-617) provides an example with a selection indicator s, i. e. s1 if we observe all of the data or s0 otherwise, where s1 if the Y hat is lower or equal to the threshold (considering that the data is truncated from above). Equivalently, s1 if u-X, where X is a shorthand for 0 1X1 2X2, 8230. This means that the value of s covaries with u. Long (1997) illustrates the consequences of censoring and truncation for OLS estimation with Figure 7.2. The solid line is given by the OLS estimate of Y that is not censored. The long dashed line, OLS with censored data, has a lower intercept and a steeper slope because of the many values set at zero (shown as triangles), just below the threshold horizontal line 1, that pull down the left side of the long dashed line. The short dashed line is given by an OLS estimate with data points below 1 being truncated (i. e. removed) instead of being censored and shows a higher intercept and smaller slope. Figure 7.7 (page 202) also shows in a very simple manner the effects of censoring and truncation. The difference here is that the censoring data points are equal to the threshold rather than being below it. The dots below the threshold 2 are truncated data points. E(yx) in the solid line is the correct estimate. E(yygt2x) is given by the long dashed line. We see that the long dashed line is indistinguishable from the solid line as we move toward the right side, but the long dashed line is above the solid line as we move to the left side. This is because there are few (many) data points truncated at the right (left) side. The long dashed line becomes closer and closer to as we move to the left. We also see there are circles along the horizontal line 2. These are censored data points. The short dashed line represented by E(yx) is slightly below the long dashed line at the left side of the x axis, because the censored cases were not eliminated. Both types of regression require normality and homoscedastic of residuals, even in the case of tobit which always considers a censored distribution to be non-normal. But since the Y variable is not an observable one, we cannot get our residual variable by doing Y minus Y hat because we have to use Y instead of Y. In tobit regression, a complex procedure must be applied to get the generalized residuals and conduct the test of normality (Cameron amp Trivedi, 2009, pp. 535-538). A particular feature of these kinds of regressions is that a standardized coefficient is usually not reported in statistical softwares because its calculation is not straightforward. Normally, the fully standardized coefficients are obtained with the operation coeff(X)SD(Y)SD(X). In the case of tobit regression, Roncek (1992, p. 506) shows that the standardized tobit coefficient can be obtained by coeff(X)f(z)sigma. f(z) is the unit normal density this is (in my opinion) a complicated way of presenting the formula because one could have replaced the ambiguous f(z) by the more intuitive notation SD(X). 8220Sigma8221 is the estimated standard error of the tobit regression model (usually reported by the software) and is comparable with the estimated root mean squared error in OLS regression. But since sigma is the variance of Y conditional on the set of X variables and that it needs not be equal to the unconditional Y which is what we need, Long (1997, pp. 207-208) argues that the unconditional variance of Y should be computed with the quadratic form : where Var(x) is the estimated covariance matrix among the x8217s and is the ML estimate of the variance of . Thus, Long suggests we use the formula coeff(X)SD(X) y . Even though the standardized coefficients seem usually preferred by psychologists, the economists (and particularly econometricians) dislike standardized coefficients and probably won8217t recommend its use. Finally, it should be noted that OLS is not always inconsistent with data having sample selection (Wooldridge, 2012, pp. 615-616). We will re-use his example of the s indicator of sample selection. If sample selection (s) is random in the sense that s is independent of X and u, the OLS is unbiased. But OLS remains unbiased even if s depends on explanatory X variables and additional random terms that are independent of X and u. If IQ is an important predictor but is missing for some people, such that s1 if IQv and s0 if IQltv, where v is an unobserved random variable that is independent of IQ, u and the other X variables, then, s is still independent of u. It is not a requirement that s is uncorrelated with X independent variables, on the condition that X variables are uncorrelated with u because it implies that the product of s and X must also be uncorrelated with the residuals u.

Comments