Soubor
obsahuje automobily značky Felicia, jejichž ceny se pohybují
od 200-300.tis.kč.Informace jsem čerpal z inzertního časopisu
annonce.
Znaky soubor :
cena automobilu (v tis. kč)
rok výroby -199X (např. rok 1995 je označen pouze 5 a to proto, že s vyššími čísly statgraphics není schopen počítat nonlinear regression)
Rozsah souboru - 40 statistických jednotek.
1.Nejprve zjistíme, zda cena automobilu vůbec na roku výroby závisí. O tom nás přesvědčí analýza rozptylu. Předpokladem je sice stejný rozptyl znaku y, ale ten je zhruba (dle tabulky 1) splněn,resp. nevykazuje rostoucí nebo klesající tendenci v závislosi na roku výroby (1995,96,97,98).
Sample Average Variance
Level size
---------------------------------------------------- di673f1444tiiz
5 11 151.455 413.273 41673fdz44tiz8t
6 18 185.000 620.118
7 8 189.250 356.500
8 3 218.333 508.333
---------------------------------------------------- di673f1444tiiz
Ho :m1=m2=m3=m4 ( cena na rv nezávisí)
H1: non H0 (cena na rv závisí)
Co se výsledku analýzy rozptylu týče, pak jednoznačně cena aut na roku výroby závisí.To dokazuje minimální hladina významnosti, při které můžeme zamítnout hypotézu Ho. Její hodnota je 0,0001.
One-Way Analysis of Variance
--------------------------------------------------------------------------------
Data: AUTA.cena
Level codes: AUTA.rv
Labels:
Means plot: LSD Confidence level: 95 Range test: LSD
Analysis of variance
--------------------------------------------------------------------------------
Source of variation Sum of Squares d.f. Mean square F-ratio Sig. level
--------------------------------------------------------------------------------
Between groups 14475.481 3 4825.1604 9.551 0.0001
Within groups 18186.894 36 505.1915
--------------------------------------------------------------------------------
Total (corrected) 32662.375 39
.
2.Zvolíme vhodnou regresní funkci popisující závislost mezi cenou a r.v.
| |
SR |
I2 |
funkce |
parametry |
Přímka |
20 146 |
38,32 |
y=a+bx |
a=56,61
b=20,167 |
Hyperbolická |
19 504 |
40,29 |
y=a+x/b |
a=309,305
b=775,128 |
Logaritmická |
19 765 |
39,49 |
y=a+b*lnx |
a=-48,1197
b=126,667 |
Multiplikativní |
20 015 |
38,72 |
y=ax^b |
a=exp 3,87235
b=0,726374 |
Exponencionální |
20 435 |
35,73 |
y=e^(a+bx) |
a=4,47611
b=0,115123 |
Vzhledem k tomu, že test u paraboly nevyvrátil hypotézu o nulových parametrech, předem jsem tuto fci vyloučil(viz následující tabulku)
Model fitting results for: AUTA.cena
--------------------------------------------------------------------------------
Independent variable coefficient std. error t-value sig.level
--------------------------------------------------------------------------------
CONSTANT -102.616759 161.301675 -0.6362 0.5286
AUTA.rv 71.755083 51.770423 1.3860 0.1740
AUTA.rv ^2 -4.092113 4.093321 -0.9997 0.3239
--------------------------------------------------------------------------------
R-SQ. (ADJ.) = 0.3669 SE= 23.025635 MAE= 17.791497 DurbWat= 1.640
Previously: 0.0000 0.000000 0.000000 0.000
40 observations fitted, forecast(s) computed for 0 missing val. of dep. var.
Těsnost závislostí u všech typů funkcí je natolik podobná, že dám přednost klasické osvědčené přímce.Ta popisuje závislost ceny na roku výroby ze 38,32%, což je hodnota koeficientu determinance.Funkce má následující tvar:
Zkusme tedy odhadnout cenu automobilo v roce 2002.
Ind. var Dep. var Confidence Prediction
AUTA.rv AUTA.cena lower upper lower upper
--------------------------------------------------------------------------------
12.00000 298.61170 248.27315 348.95025 229.99895 367.22444
Průměrná cena se tedy bude pohybovat okolo 298,611 kč.Automobil v roce 2003 by měl být v průměru o 20 167kč dražší.
Soubor nyní rozšířím o další statistické znaky:
počet ujetých km (v tis)
typ auta (0-6,kde 0 znamená auto s nejnižží výbavou a 6 verzi GLX s nejsilnějším motorem).
3.Z analýzy rozptylu zjistíme, zda ostatní proměnné významně přispěly k vysvětlení celkové variability ceny automobilů. Použijeme nabidku Conditional sums of squares.
Ho :b2=b3=0
H1: non H0
Further ANOVA for Variables in the Order Fitted
--------------------------------------------------------------------------------
Source Sum of Squares DF Mean Sq. F-Ratio P-value
--------------------------------------------------------------------------------
AUTA.typ 7681.8701 1 7681.870 28.71 0.0000
AUTA.rv 13299.6960 1 13299.696 49.71 0.0000
AUTA.km 2048.3412 1 2048.341 7.66 0.0089
--------------------------------------------------------------------------------
Model 23029.9073 3
Test zamítl hypotézu H0( podel velmi nízkých hodnot p-value). Cena tedy závisí jak na roku výroby, tak na počtu ujetých km, tak na typu vozidla.Daný model popisuje variabilitu ceny z 70,5%. Vidíme to v následující tabulce jako hodnotu indexu determinance.
Analysis of Variance for the Full Regression
--------------------------------------------------------------------------------
Source Sum of Squares DF Mean Square F-Ratio P-value
--------------------------------------------------------------------------------
Model 23029.9 3 7676.64 28.6904 0.0000
Error 9632.47 36 267.569
--------------------------------------------------------------------------------
Total (Corr.) 32662.4 39
R-squared = 0.70509 Stnd. error of est. = 16.3575
R-squared (Adj. for d.f.) = 0.680514 Durbin-Watson statistic = 1.77892
Otázka ovšem je, zdali jsou všechny vysvětlující proměnné na sobě nezávislé, zda se tu neobjevila nějaká ta škodlivá multikolinarita.Vyjdeme z matice korelačních koeficientů.Jelikož tyto párové koeficienty nejsou nijak moc vysoké,resp. jsou menší než 0,8 ,škodlivá multikolinearita nehrozí. Proměnné tudíž nejsou na sobě závislé.
Sample Correlations
--------------------------------------------------------------------------------
cena typ rv km
cena 1.0000 0.4850 0.6190 -0.5463
( 40) ( 40) ( 40) ( 40)
0.0000 0.0015 0.0000 0.0003
typ 0.4850 1.0000 -0.0384 0.0808
( 40) ( 40) ( 40) ( 40)
0.0015 0.0000 0.8140 0.6202
rv 0.6190 -0.0384 1.0000 -0.6100
( 40) ( 40) ( 40) ( 40)
0.0000 0.8140 0.0000 0.0000
km -0.5463 0.0808 -0.6100 1.0000
( 40) ( 40) ( 40) ( 40)
0.0003 0.6202 0.0000 0.0000
--------------------------------------------------------------------------------
Z matice dílčích korelačních koeficintů vyčteme míru závislosti ceny na všech proměnných zvláš´t, tj. bez vlivu ostatních proměnných.Zřejmě nejtěsnější je závislost ceny na typu vozidla (ry1.23=0,69568). Tato závislost je přímá. S rostoucí výbavou tedy cana auta roste. Menší vliv na cenu má také rok výroby(ry2.13=0,54540). Tato závislost je rovněž přímá narozdíl od počtu ujetých km, kde s rostoucí hodnotou této proměnné cena automobilu klesá. Těsnost závislosti je ovšem v abs. hodnotě nejnižží (ry3.12=-0,4188).
Partial Correlations
-------------------------------------------------------------------
cena typ rv km
cena -1.00000 0.69568 0.54540 -0.41876
( 40) ( 40) ( 40) ( 40)
typ 0.69568 -1.00000 -0.37112 0.33858
( 40) ( 40) ( 40) ( 40)
rv 0.54540 -0.37112 -1.00000 -0.23540
( 40) ( 40) ( 40) ( 40)
km -0.41876 0.33858 -0.23540 -1.00000
( 40) ( 40) ( 40) ( 40)
-------------------------------------------------------------------
Correlation (sample size)
K vysvětlení variability významně přispívají všechny proměnné. Nic nenasvědčuje tomu, abychom některou proměnnou z tohoto modelu vypustili.Můžeme ještě zkusit metodu postupné regrese,která dle mého očekávání všechny proměnné do modelu zařadila.
Stepwise Selection for AUTA.cena
--------------------------------------------------------------------------------
Selection: Forward Maximum steps: 500 F-to-enter: 4.00
Control: Manual Step: 3 F-to-remove: 4.00
R-squared: 0.70509 Adjusted: 0.68051 MSE: 267.569 d.f.: 36
Variables in Model Coeff. F-Remove Variables Not in Model P.Corr. F-Enter
--------------------------------------------------------------------------------
1. AUTA.typ 9.44739 33.7626
2. AUTA.rv 14.5295 15.2430
3. AUTA.km -0.44504 7.6554
Model fitting results for: AUTA.cena
--------------------------------------------------------------------------------
Independent variable coefficient std. error t-value sig.level
--------------------------------------------------------------------------------
CONSTANT 88.172101 26.951646 3.2715 0.0024
AUTA.typ 9.447385 1.625899 5.8106 0.0000
AUTA.rv 14.529529 3.721487 3.9042 0.0004
AUTA.km -0.445038 0.160847 -2.7668 0.0089
--------------------------------------------------------------------------------
R-SQ. (ADJ.) = 0.6805 SE= 16.357523 MAE= 12.057321 DurbWat= 1.779
Previously: 0.0000 0.000000 0.000000 0.000
40 observations fitted, forecast(s) computed for 0 missing val. of dep. var.
Regresní fce má následující tvar:
Chcem-li si koupit automobil z roku 1995 ve střední výbavě (typ 3),aby mělo najeto max.20000km, zaplatíme za něj v průměru 180336kč.Pokud bychom chtěli o jeden rok mladší, musíme si v průměru připlatit o 14529 kč. Jesliže nám nevadí ,že auto bude mít najeto o 10000km více, cena se nám sníží o 4450kč.