Referaty
Home
Anglictina
Biologie
Chemie
Dejepis-Historie
Diplom-Projekt
Ekonomie
Filozofie
Finance
Fyzika
Informatika
Literatura
Management
Marketing
Medicina
Nemcina
Ostatni
Politika
Pravo
Psychologie
Public-relations
Sociologie
Technologie
Zemepis-Geografie
Zivotopisy




























Téma, Esej na téma, Referátu, Referát, Referaty Semestrální práce:

Soubor obsahuje automobily značky Felicia, jejichž ceny se pohybují od 200-300.tis.kč.Informace jsem čerpal z inzertního časopisu annonce.

Soubor obsahuje automobily značky Felicia, jejichž ceny se pohybují od 200-300.tis.kč.Informace jsem čerpal z inzertního časopisu annonce.

Znaky soubor :

cena automobilu (v tis. kč)

rok výroby -199X (např. rok 1995 je označen pouze 5 a to proto, že s vyššími čísly statgraphics není schopen počítat nonlinear regression)

Rozsah souboru - 40 statistických jednotek.



1.Nejprve zjistíme, zda cena automobilu vůbec na roku výroby závisí. O tom nás přesvědčí analýza rozptylu. Předpokladem je sice stejný rozptyl znaku y, ale ten je zhruba (dle tabulky 1) splněn,resp. nevykazuje rostoucí nebo klesající tendenci v závislosi na roku výroby (1995,96,97,98).

Sample Average Variance

Level size

---------------------------------------------------- di673f1444tiiz

5 11 151.455 413.273 41673fdz44tiz8t

6 18 185.000 620.118

7 8 189.250 356.500

8 3 218.333 508.333

---------------------------------------------------- di673f1444tiiz

Ho :m1=m2=m3=m4 ( cena na rv nezávisí)

H1: non H0 (cena na rv závisí)

Co se výsledku analýzy rozptylu týče, pak jednoznačně cena aut na roku výroby závisí.To dokazuje minimální hladina významnosti, při které můžeme zamítnout hypotézu Ho. Její hodnota je 0,0001.

One-Way Analysis of Variance

--------------------------------------------------------------------------------

Data: AUTA.cena

Level codes: AUTA.rv

Labels:

Means plot: LSD Confidence level: 95 Range test: LSD

Analysis of variance

--------------------------------------------------------------------------------

Source of variation Sum of Squares d.f. Mean square F-ratio Sig. level

--------------------------------------------------------------------------------

Between groups 14475.481 3 4825.1604 9.551 0.0001

Within groups 18186.894 36 505.1915

--------------------------------------------------------------------------------

Total (corrected) 32662.375 39

.

2.Zvolíme vhodnou regresní funkci popisující závislost mezi cenou a r.v.

 
SR
I2
funkce
parametry
Přímka
20 146
38,32
y=a+bx
a=56,61
b=20,167
Hyperbolická
19 504
40,29
y=a+x/b
a=309,305
b=775,128
Logaritmická
19 765
39,49
y=a+b*lnx
a=-48,1197
b=126,667
Multiplikativní
20 015
38,72
y=ax^b
a=exp 3,87235
b=0,726374
Exponencionální
20 435
35,73
y=e^(a+bx)
a=4,47611
b=0,115123

Vzhledem k tomu, že test u paraboly nevyvrátil hypotézu o nulových parametrech, předem jsem tuto fci vyloučil(viz následující tabulku)



Model fitting results for: AUTA.cena

--------------------------------------------------------------------------------

Independent variable coefficient std. error t-value sig.level

--------------------------------------------------------------------------------

CONSTANT -102.616759 161.301675 -0.6362 0.5286

AUTA.rv 71.755083 51.770423 1.3860 0.1740

AUTA.rv ^2 -4.092113 4.093321 -0.9997 0.3239

--------------------------------------------------------------------------------

R-SQ. (ADJ.) = 0.3669 SE= 23.025635 MAE= 17.791497 DurbWat= 1.640

Previously: 0.0000 0.000000 0.000000 0.000

40 observations fitted, forecast(s) computed for 0 missing val. of dep. var.

Těsnost závislostí u všech typů funkcí je natolik podobná, že dám přednost klasické osvědčené přímce.Ta popisuje závislost ceny na roku výroby ze 38,32%, což je hodnota koeficientu determinance.Funkce má následující tvar:

Zkusme tedy odhadnout cenu automobilo v roce 2002.

Ind. var Dep. var Confidence Prediction

AUTA.rv AUTA.cena lower upper lower upper

--------------------------------------------------------------------------------

12.00000 298.61170 248.27315 348.95025 229.99895 367.22444

Průměrná cena se tedy bude pohybovat okolo 298,611 kč.Automobil v roce 2003 by měl být v průměru o 20 167kč dražší.

Soubor nyní rozšířím o další statistické znaky:

počet ujetých km (v tis)

typ auta (0-6,kde 0 znamená auto s nejnižží výbavou a 6 verzi GLX s nejsilnějším motorem).

3.Z analýzy rozptylu zjistíme, zda ostatní proměnné významně přispěly k vysvětlení celkové variability ceny automobilů. Použijeme nabidku Conditional sums of squares.

Ho :b2=b3=0

H1: non H0

Further ANOVA for Variables in the Order Fitted

--------------------------------------------------------------------------------

Source Sum of Squares DF Mean Sq. F-Ratio P-value

--------------------------------------------------------------------------------

AUTA.typ 7681.8701 1 7681.870 28.71 0.0000

AUTA.rv 13299.6960 1 13299.696 49.71 0.0000

AUTA.km 2048.3412 1 2048.341 7.66 0.0089

--------------------------------------------------------------------------------

Model 23029.9073 3

Test zamítl hypotézu H0( podel velmi nízkých hodnot p-value). Cena tedy závisí jak na roku výroby, tak na počtu ujetých km, tak na typu vozidla.Daný model popisuje variabilitu ceny z 70,5%. Vidíme to v následující tabulce jako hodnotu indexu determinance.

Analysis of Variance for the Full Regression

--------------------------------------------------------------------------------

Source Sum of Squares DF Mean Square F-Ratio P-value

--------------------------------------------------------------------------------

Model 23029.9 3 7676.64 28.6904 0.0000

Error 9632.47 36 267.569

--------------------------------------------------------------------------------

Total (Corr.) 32662.4 39

R-squared = 0.70509 Stnd. error of est. = 16.3575

R-squared (Adj. for d.f.) = 0.680514 Durbin-Watson statistic = 1.77892

Otázka ovšem je, zdali jsou všechny vysvětlující proměnné na sobě nezávislé, zda se tu neobjevila nějaká ta škodlivá multikolinarita.Vyjdeme z matice korelačních koeficientů.Jelikož tyto párové koeficienty nejsou nijak moc vysoké,resp. jsou menší než 0,8 ,škodlivá multikolinearita nehrozí. Proměnné tudíž nejsou na sobě závislé.

Sample Correlations

--------------------------------------------------------------------------------

cena typ rv km

cena 1.0000 0.4850 0.6190 -0.5463

( 40) ( 40) ( 40) ( 40)

0.0000 0.0015 0.0000 0.0003

typ 0.4850 1.0000 -0.0384 0.0808

( 40) ( 40) ( 40) ( 40)

0.0015 0.0000 0.8140 0.6202

rv 0.6190 -0.0384 1.0000 -0.6100

( 40) ( 40) ( 40) ( 40)

0.0000 0.8140 0.0000 0.0000

km -0.5463 0.0808 -0.6100 1.0000

( 40) ( 40) ( 40) ( 40)

0.0003 0.6202 0.0000 0.0000

--------------------------------------------------------------------------------

Z matice dílčích korelačních koeficintů vyčteme míru závislosti ceny na všech proměnných zvláš´t, tj. bez vlivu ostatních proměnných.Zřejmě nejtěsnější je závislost ceny na typu vozidla (ry1.23=0,69568). Tato závislost je přímá. S rostoucí výbavou tedy cana auta roste. Menší vliv na cenu má také rok výroby(ry2.13=0,54540). Tato závislost je rovněž přímá narozdíl od počtu ujetých km, kde s rostoucí hodnotou této proměnné cena automobilu klesá. Těsnost závislosti je ovšem v abs. hodnotě nejnižží (ry3.12=-0,4188).

Partial Correlations

-------------------------------------------------------------------

cena typ rv km

cena -1.00000 0.69568 0.54540 -0.41876

( 40) ( 40) ( 40) ( 40)

typ 0.69568 -1.00000 -0.37112 0.33858

( 40) ( 40) ( 40) ( 40)

rv 0.54540 -0.37112 -1.00000 -0.23540

( 40) ( 40) ( 40) ( 40)

km -0.41876 0.33858 -0.23540 -1.00000

( 40) ( 40) ( 40) ( 40)

-------------------------------------------------------------------

Correlation (sample size)

K vysvětlení variability významně přispívají všechny proměnné. Nic nenasvědčuje tomu, abychom některou proměnnou z tohoto modelu vypustili.Můžeme ještě zkusit metodu postupné regrese,která dle mého očekávání všechny proměnné do modelu zařadila.

Stepwise Selection for AUTA.cena

--------------------------------------------------------------------------------

Selection: Forward Maximum steps: 500 F-to-enter: 4.00

Control: Manual Step: 3 F-to-remove: 4.00

R-squared: 0.70509 Adjusted: 0.68051 MSE: 267.569 d.f.: 36

Variables in Model Coeff. F-Remove Variables Not in Model P.Corr. F-Enter

--------------------------------------------------------------------------------

1. AUTA.typ 9.44739 33.7626

2. AUTA.rv 14.5295 15.2430

3. AUTA.km -0.44504 7.6554

Model fitting results for: AUTA.cena

--------------------------------------------------------------------------------

Independent variable coefficient std. error t-value sig.level

--------------------------------------------------------------------------------

CONSTANT 88.172101 26.951646 3.2715 0.0024

AUTA.typ 9.447385 1.625899 5.8106 0.0000

AUTA.rv 14.529529 3.721487 3.9042 0.0004

AUTA.km -0.445038 0.160847 -2.7668 0.0089

--------------------------------------------------------------------------------

R-SQ. (ADJ.) = 0.6805 SE= 16.357523 MAE= 12.057321 DurbWat= 1.779

Previously: 0.0000 0.000000 0.000000 0.000

40 observations fitted, forecast(s) computed for 0 missing val. of dep. var.

Regresní fce má následující tvar:

Chcem-li si koupit automobil z roku 1995 ve střední výbavě (typ 3),aby mělo najeto max.20000km, zaplatíme za něj v průměru 180336kč.Pokud bychom chtěli o jeden rok mladší, musíme si v průměru připlatit o 14529 kč. Jesliže nám nevadí ,že auto bude mít najeto o 10000km více, cena se nám sníží o 4450kč.