E4.3 ---- Sulla pagina del corso trovate il file di dati CollegeDistance, che contiene dati su un campione casuale di studenti del college intervistati nel 1980 e re-intervistati nel 1986. In questo esercizio useremoquesti dati per investigare il rapporto tra il numero di anni di istruzione completati e la distanza da ogni high school al college piu’ vicino (la prossimita’ al college riduce il costo dell’educazione, cosi’ gli studenti che vivono piu’ vicino ad un college dovrebbero, in media, completare piu’ anni di educazione universitaria). A) fate una regressioni degli anni di istruzione completata (ED) sulla distana dal college piu’ vicino (Dist), dove Dist e’ misurata in decine di miglia. Qual’e’ l’intercetta stimata? Qual’e’ la pendenza stimata? Usate la regressione stimata per rispondere a questa domanda: di quanto cambia il numero medio di anni di istruzione completati quando i college sono piu’ vicini alle high school degli studenti? B) La high school di Bobo era era a 20 miglia dal college piu’ vicino. Fate una stima degli anni di istruzione completati da Bobo usando la regressione che avete stimato. Come cambierebbe la vostra stima se Bobo vivesse a 10 miglia dal college piu’ vicino? C) La distanza dal college spiega una frazione elevata della varianza dei risultati nell’istruzione degli individui? Spiegate. D) Qual’e’ il valore dell’errore standard della regressione? Qual’e’ la sua unita’ di musura (metri,grammi, anni, dollari, centesimi o qualcos’altro)? E5.3 ---- Usando i dati di CollegeDistance, rispondete a queste domande. A) Il coefficiente della retta di regressione e’ statisticamente significativo? Possiamo rifiutare l’ipotesi nulla H0:beta1=0 contro un’ipotesi alternativa bilaterale con un livello di significativita’ del 10%, del 5% e dell’1%? Qual’e’ il p-value associato alla statistica t del coefficiente? Come e’ stata calcolata la statistica t? B) Costruite un intervallo di confidenza al 95% per il coefficiente della pendenza. C) Facciamo la regressione usando soltanto i dati degli individui di sesso femminile e ripetiamo il punto B. D) Rifacciamo lo stesso soltanto per i maschi. E) L’effetto della distanza sul numero di anni di studio completati e’ diverso per uomini e donne? E6.2 ---- Usando i dati di CollegeDistance, rispondete a queste domande. A) Fate una regressione del numero di anni di istruzione completata sulla distanza del college piu’ vicino. Qual’e’ la pendenza stimata? B) Fate una regressione di ED su Dist, ma includete alcuni regressori addizionali per controllare per le caratteristiche degli studenti, delle loro famiglie e del mercato del lavoro locale. In particolare, includete come regressori addizionali Bytest, Female, Black, Hispanic, Incomehi, Ownhome, Dadcoll, Cue80 e Stwmfg80. Qual’e’ ora l’effetto stimato di Dist su ED? C) L’effetto stimato di Dist su ED nella regressione in B e’ sostanzialmente diverso che nella regressione in A? Basandoci su questo, la regressione in A sembra soffrire di distorsione da variabile omessa? D) Confrontate l’adattamento (il fit) delle regressioni in A e in B usando lo standard error della regressione, R2 e R2 aggiustato. Perche’ R2 e R2 aggiustato sono cosi’ simili nella regressione in B? E) Il valore del coefficiente di DadColl e’ positivo. Cosa misura questo coefficiente? F) Spiegate perche’ Cue80 e Swmfg80 appaiono nella regressione. I segni dei loro coefficienti stimati (+ o -) sono quelli che potremmo aspettarci? Interpretate la magnitudine di questi coefficienti. G) Bobo e’ un uomo nero (ma non spaventa i bambini, inutile chiamarlo). La sua high school era a 20 miglia dal college piu’ vicino. Il suo score composito era 58. Il reddito della sua famiglia nel 1980 era di 26 mila dollari e la sua famiglia viveva nella casa di proprieta’. Sua mamma aveva frequentato il college, ma suo padre no. Il tasso di disoccupazione nella sua contea era del 7.5% ed il salario orario manifatturiero nello stato aveva una media di $9.75. Fate una predizione del numero di anni di istruzione completati da Bobo usanno la regressione in B. H) Gimmi ha le stesse caratteristiche di Bobo, eccetto che la sua scuola era a 40 miglia dal college piu’ vicino. Fate una predizione del numero di anni di istruzione di Gimmi usando sempre la regressione in B. E7.3 ---- Usando i dati di CollegeDistance, rispondete a queste domande. A) Un movimento per il diritto allo studio sostiene che in media i risultati educativi di un individuo aumenterebbero di circa 0.15 anni se la distanza al college piu’ vicino diminusce di 20 miglia. Fate una regressione di ED su Dist. Il claim del movimento e’ consistente con la regressione stimata? Spiegate. B) Anche altri fattori possono influenzare la scolarita’ di un individuo. Controllare per questi fattori cambia l’effetto stimato della distanza del college? Per rispondere a questa domanda, costruite una tavola in cui presentate la regressione di ED su un insieme crescente di variabili indipendenti. C) E’ vero che neri e ispanici completano piu’ anni di college rispetto ai bianchi una volta che abbiamo controllato per gli altri fattori? E8.3 ---- Usando i dati di CollegeDistance, rispondete a queste domande. A) Fate una regressione di ED su Dist, Female, Bytest, Tuition, Black, Hispanic, Incomehi, Ownhome, DadColl, MomColl, Cue80 e Stwmfg80. Se Dist aumenta da 2 a 3 (cioe’ da 20 a 30 miglia) quanto ci aspettiamo che cambino gli anni di istruzione? E se Dist aumenta da 6 a 7? B) Fate una regressione di ln(ED) sulle stesse variabili di A. Se Dist aumenta da 2 a 3 (cioe’ da 20 a 30 miglia) quanto ci aspettiamo che cambino gli anni di istruzione? E se Dist aumenta da 6 a 7? C) Fate una regressione di ln(ED) sulle stesse variabili di B piu’ Dist al quadrato. Se Dist aumenta da 2 a 3 (cioe’ da 20 a 30 miglia) quanto ci aspettiamo che cambino gli anni di istruzione? E se Dist aumenta da 6 a 7? D) Preferite la regressione in A o quella in C? Spiegate. E) Considerate una donna ispanica con Tuition=950$, Bytest=58, Intomehi=0, Ownhome=0, DadColl=1, MomColl=1, Cue80=7.1 e Stwmfg=10.06$. Plottate la relazione di regressione tra Dist e ED stimata in A e in C per Dist che va da 0 a 10 (da 0 a 100 miglia). Descrivete le somiglianze e le differenze tra le funzioni di regressione stimate. La vostra risposta cambierebbe se plottaste la regressione per un uomo bianco con le stesse caratteristiche? F) Aggiungete l’interazione DadColl*MomColl nella regressione in C. Cosa misura il coefficiente del termine d’interazione? G) Maria, Gianna, Alessandra e Bianca hanno gli stessi valori di Dist, Bytest, Tuition, Female, Black, Hispanic, Fincome, Ownhome, Cue80 e Stwmfg80. I genitori di Maria non sono laureati. Il padre di Gianna e’ laureato ma la madre no. La madre di Alessandra e’ laureata ma il padre no. Entrambi i genitori di Bianca sono laureati. Usando le regressioni in F: i) qual’e’ la differenza di scolarita’ predetta tra Gianna e Maria? ii) E tra Alessandra e Maria? iii) e tra Bianca e Maria? H) C’e’ evidenza che l’effetto di Dist su ED dipenda dal reddito famigliare? I) Dopo aver fatto tutte queste regressioni (e tutte quelle che volete aggiungere) esprimete le vostre conclusioni sull’effetto della distanza sull’istruzione.