Variansinflasjonsfaktor (VIF) - Oversikt, formel, bruksområder

Variansinflasjonsfaktoren (VIF) måler alvorlighetsgraden av multikollinearitet i regresjonsanalyse. Regresjonsanalyse Regresjonsanalyse er et sett med statistiske metoder som brukes til estimering av sammenhenger mellom en avhengig variabel og en eller flere uavhengige variabler. Den kan brukes til å vurdere styrken i forholdet mellom variabler og for å modellere det fremtidige forholdet mellom dem. . Det er et statistisk konsept som indikerer økningen i variansen til en regresjonskoeffisient som et resultat av kollinearitet.

Variasjonsinflasjonsfaktor

Sammendrag

  • Variasjonsinflasjonsfaktor (VIF) brukes til å oppdage alvorlighetsgraden av multikollinearitet i den vanlige minst kvadratiske (OLS) regresjonsanalysen.
  • Multikollinearitet blåser opp variansen og type II-feilen. Det gjør koeffisienten til en variabel konsistent, men upålitelig.
  • VIF måler antall oppblåste avvik forårsaket av multikollinearitet.

Variansinflasjonsfaktor og multikollinearitet

I vanlig minst kvadratisk (OLS) regresjonsanalyse eksisterer multikollinearitet når to eller flere av de uavhengige variablene Uavhengig variabel En uavhengig variabel er en inngang, antagelse eller driver som endres for å vurdere dens innvirkning på en avhengig variabel (utfallet) . demonstrere et lineært forhold mellom dem. For eksempel, for å analysere forholdet mellom selskapsstørrelser og inntekter til aksjekurser i en regresjonsmodell, er markedsverdier og inntekter de uavhengige variablene.

Et selskaps markedsverdi Markedsverdi Markedsverdi (Market Cap) er den siste markedsverdien av selskapets utestående aksjer. Market Cap er lik dagens aksjekurs multiplisert med antall utestående aksjer. Investeringssamfunnet bruker ofte markedsverdi til å rangere selskaper, og dets totale inntekter er sterkt korrelert. Ettersom et selskap tjener økende inntekter, vokser det også i størrelse. Det fører til et multikollinearitetsproblem i OLS-regresjonsanalysen. Hvis de uavhengige variablene i en regresjonsmodell viser et perfekt forutsigbart lineært forhold, er det kjent som perfekt multikollinearitet.

Med multikollinearitet er regresjonskoeffisientene fremdeles konsistente, men er ikke lenger pålitelige siden standardfeilene er oppblåst. Det betyr at modellens prediktive styrke ikke reduseres, men koeffisientene er kanskje ikke statistisk signifikante med en type II-feil Type II-feil I statistisk hypotesetesting er en type II-feil en situasjon der en hypotesetest ikke klarer å avvise nullhypotesen om at er falsk. I andre .

Derfor, hvis koeffisientene til variabler ikke er individuelt signifikante - kan ikke avvises i henholdsvis t-testen - men kan i fellesskap forklare variansen til den avhengige variabelen med avvisning i F-testen og en høy bestemmelseskoeffisient (R2), multikollinearitet kan eksistere. Det er en av metodene for å oppdage multikollinearitet.

VIF er et annet ofte brukt verktøy for å oppdage om multikollinearitet eksisterer i en regresjonsmodell. Den måler hvor mye variansen (eller standardfeilen) til den estimerte regresjonskoeffisienten er oppblåst på grunn av kollinearitet.

Bruk av variasjonsinflasjonsfaktor

VIF kan beregnes med formelen nedenfor:

Variansinflasjonsfaktor - formel

Hvor R i 2 representerer den ujusterte koeffisienten for regresjon av den i-te uavhengige variable på de gjenværende. Den gjensidige av VIF er kjent som toleranse . Enten VIF eller toleranse kan brukes til å oppdage multikollinearitet, avhengig av personlig preferanse.

Hvis R i 2 er lik 0, kan variansen av de gjenværende uavhengige variablene ikke forutsies ut fra den i-te uavhengige variabelen. Derfor, når VIF eller toleranse er lik 1, er ikke den uavhengige variabelen korrelert med de gjenværende, noe som betyr at multikollinearitet ikke eksisterer i denne regresjonsmodellen. I dette tilfellet blir ikke variansen til ith-regresjonskoeffisienten oppblåst.

Vanligvis indikerer en VIF over 4 eller toleranse under 0,25 at multikollinearitet kan eksistere, og ytterligere undersøkelse er nødvendig. Når VIF er høyere enn 10 eller toleransen er lavere enn 0,1, er det betydelig multikollinearitet som må korrigeres.

Imidlertid er det også situasjoner der høye VFI-er trygt kan ignoreres uten å lide av multikollinearitet. Følgende er tre slike situasjoner:

1. Høye VIF-er eksisterer bare i kontrollvariabler, men ikke i variabler av interesse. I dette tilfellet er ikke variablene av interesse kollinære med hverandre eller kontrollvariablene. Regresjonskoeffisientene påvirkes ikke.

2. Når høye VIF-er er forårsaket som følge av inkludering av produktene eller kreftene til andre variabler, forårsaker ikke multikollearitet ikke negative effekter. For eksempel inkluderer en regresjonsmodell både x og x2 som uavhengige variabler.

3. Når en dummyvariabel som representerer mer enn to kategorier har høy VIF, eksisterer ikke multikollinearitet nødvendigvis. Variablene vil alltid ha høye VIF-er hvis det er en liten del av tilfellene i kategorien, uavhengig av om de kategoriske variablene er korrelert med andre variabler.

Korrigering av multikollinearitet

Siden multikollinearitet blåser opp variansen av koeffisienter og forårsaker type II-feil, er det viktig å oppdage og korrigere den. Det er to enkle og vanlige måter å korrigere multikollinearitet på, som listet opp nedenfor:

1. Den første er å fjerne en (eller flere) av de sterkt korrelerte variablene. Siden informasjonen gitt av variablene er overflødig, vil bestemmelseskoeffisienten ikke bli betydelig svekket av fjerningen.

2. Den andre metoden er å bruke hovedkomponentanalyse (PCA) eller delvis minst kvadratisk regresjon (PLS) i stedet for OLS-regresjon. PLS-regresjon kan redusere variablene til et mindre sett uten korrelasjon mellom dem. I PCA opprettes nye ukorrelerte variabler. Det minimerer tap av informasjon og forbedrer forutsigbarheten til en modell.

Flere ressurser

Finance er den offisielle leverandøren av den globale Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ -sertifisering Certified Banking & Credit Analyst (CBCA) ™ akkreditering er en global standard for kredittanalytikere som dekker økonomi, regnskap, kredittanalyse, kontantstrømanalyse , paktmodellering, tilbakebetaling av lån og mer. sertifiseringsprogram, designet for å hjelpe alle å bli en finansanalytiker i verdensklasse. For å fortsette karrieren din, vil tilleggsressursene nedenfor være nyttige:

  • Grunnleggende statistikkbegreper i økonomi Grunnleggende statistikkbegreper for økonomi En solid forståelse av statistikk er avgjørende for å hjelpe oss med å bedre forstå økonomi. Videre kan statistikkonsepter hjelpe investorer å overvåke
  • Prognosemetoder Prognosemetoder Topp prognosemetoder. I denne artikkelen vil vi forklare fire typer inntektsprognosemetoder som analytikere bruker for å forutsi fremtidige inntekter.
  • Flere lineære regresjoner Flere lineære regresjoner Flere lineære regresjoner refererer til en statistisk teknikk som brukes til å forutsi resultatet av en avhengig variabel basert på verdien av uavhengige variabler
  • Tilfeldig variabel Tilfeldig variabel En tilfeldig variabel (stokastisk variabel) er en type variabel i statistikk hvis mulige verdier avhenger av utfallet av et bestemt tilfeldig fenomen

Siste innlegg