Ensemblemetoder - Oversikt, kategorier, hovedtyper

Ensemblemetoder er teknikker som tar sikte på å forbedre nøyaktigheten av resultatene i modeller ved å kombinere flere modeller i stedet for å bruke en enkelt modell. De kombinerte modellene øker nøyaktigheten av resultatene betydelig. Dette har økt populariteten til ensemblemetoder innen maskinlæring.

Ensemblemetoder

Rask oppsummering

  • Ensemblemetoder tar sikte på å forbedre forutsigbarheten i modeller ved å kombinere flere modeller for å lage en veldig pålitelig modell.
  • De mest populære ensemblemetodene er boosting, bagging og stacking.
  • Ensemblemetoder er ideelle for regresjon og klassifisering, der de reduserer skjevhet og varians for å øke nøyaktigheten til modellene.

Kategorier av ensemblemetoder

Ensemblemetoder faller inn i to brede kategorier, dvs. sekvensielle ensembleteknikker og parallelle ensembleteknikker. Sekvensielle ensembleteknikker genererer baselever i en sekvens, for eksempel Adaptive Boosting (AdaBoost). Den sekvensielle generasjonen av baselærere fremmer avhengigheten mellom baselærerne. Ytelsen til modellen forbedres deretter ved å tildele høyere vekter til tidligere feilrepresenterte elever.

I parallelle ensembleteknikker genereres baselærere i et parallelt format, f.eks. Tilfeldig skog Tilfeldig skog Tilfeldig skog er en teknikk som brukes i modellering av spådommer og atferdsanalyse og er bygget på beslutningstrær. En tilfeldig skog inneholder mange beslutningstrær. Parallelle metoder bruker parallellgenerering av baselærere for å oppmuntre til uavhengighet mellom baselærerne. Uavhengigheten til baselærere reduserer feilen betydelig på grunn av gjennomsnittet.

Flertallet av ensembleteknikker bruker en enkelt algoritme i grunnlæring, noe som resulterer i homogenitet hos alle baselærere. Homogene baselærere refererer til baselærere av samme type, med lignende kvaliteter. Andre metoder bruker heterogene baselærere, noe som gir opphav til heterogene ensembler. Heterogene baselærere er elever av forskjellige typer.

Hovedtyper av ensemblemetoder

1. Bagging

Bagging, den korte formen for bootstrap-aggregering, brukes hovedsakelig i klassifisering og regresjon Regresjonsanalyse Regresjonsanalyse er et sett med statistiske metoder som brukes til å estimere forholdet mellom en avhengig variabel og en eller flere uavhengige variabler. Den kan brukes til å vurdere styrken i forholdet mellom variabler og for å modellere det fremtidige forholdet mellom dem. . Det øker nøyaktigheten til modeller gjennom bruk av beslutningstrær, noe som i stor grad reduserer avvik. Reduksjonen av varians øker nøyaktigheten, og eliminerer dermed overmontering, noe som er en utfordring for mange prediktive modeller.

Bagging er klassifisert i to typer, dvs. bootstrapping og aggregering. Bootstrapping er en prøvetakingsteknikk der prøvene blir hentet fra hele populasjonen (settet) ved hjelp av erstatningsprosedyren. Prøvetakingen med erstatningsmetoden bidrar til å gjøre utvelgelsesprosedyren randomisert. Basislæringsalgoritmen kjøres på prøvene for å fullføre prosedyren.

Aggregering i bagging gjøres for å innlemme alle mulige utfall av prediksjonen og randomisere utfallet. Uten aggregering vil ikke spådommer være nøyaktige, fordi alle utfall blir ikke tatt i betraktning. Aggregasjonen er derfor basert på sannsynligheten for oppstartingsprosedyrer eller på grunnlag av alle utfallene av de prediktive modellene.

Bagging er fordelaktig siden elever med svak base kombineres for å danne en enkelt sterk elev som er mer stabil enn enkeltelever. Det eliminerer også varians, og reduserer dermed overmontering av modeller. En begrensning ved bagging er at den er beregningsdyr. Dermed kan det føre til mer skjevhet i modeller når den riktige prosedyren for bagging blir ignorert.

2. Boosting

Boosting er en ensembleteknikk som lærer av tidligere prediktorfeil for å komme med bedre spådommer i fremtiden. Teknikken kombinerer flere elever med svak base for å danne en sterk elev, og forbedrer dermed modellernes forutsigbarhet betydelig. Boosting fungerer ved å ordne svake elever i en sekvens, slik at svake elever lærer av neste elev i sekvensen for å lage bedre prediktive modeller.

Boosting tar mange former, som inkluderer gradient boosting, Adaptive Boosting (AdaBoost) og XGBoost (Extreme Gradient Boosting). AdaBoost benytter seg av svake elever som er i form av beslutningstrær, som for det meste inkluderer en splittelse som er populært kjent som beslutningsstubber. AdaBoosts viktigste beslutningsstump består av observasjoner som bærer lignende vekter.

Gradient boosting Gradient Boosting Gradient boosting er en teknikk som brukes til å lage modeller for prediksjon. Teknikken brukes mest i regresjons- og klassifiseringsprosedyrer. legger til prediktorer sekvensielt til ensemblet, der foregående prediktorer korrigerer deres etterfølgere, og øker dermed nøyaktigheten til modellen. Nye prediktorer er egnet til å motvirke effekten av feil i de tidligere prediktorene. Gradienten av nedstigningen hjelper gradienten til å identifisere problemer i elevens spådommer og motvirke dem deretter.

XGBoost bruker beslutningstrær med økt gradient, noe som gir forbedret hastighet og ytelse. Den er sterkt avhengig av beregningshastigheten og ytelsen til målmodellen. Modellopplæring skal følge en sekvens, og dermed gjøre implementeringen av gradientforsterkede maskiner treg.

3. stabling

Stacking, en annen ensemblemetode, blir ofte referert til som stablet generalisering. Denne teknikken fungerer ved å la en treningsalgoritme samle flere andre lignende spådommer for læringsalgoritmer. Stabling er vellykket implementert i regresjon, tetthetsestimering, fjernundervisning og klassifisering. Den kan også brukes til å måle feilfrekvensen som er involvert under bagging.

Avviksreduksjon

Ensemblemetoder er ideelle for å redusere variansen i modeller, og derved øke nøyaktigheten av spådommer. Variansen elimineres når flere modeller kombineres for å danne en enkelt prediksjon som velges fra alle andre mulige spådommer fra de kombinerte modellene. Et ensemble av modeller er å kombinere forskjellige modeller for å sikre at den resulterende spådommen er best mulig, basert på hensynet til alle spådommer.

Tilleggsressurser

Finance er den offisielle leverandøren av den globale Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ -sertifisering Certified Banking & Credit Analyst (CBCA) ™ akkreditering er en global standard for kredittanalytikere som dekker økonomi, regnskap, kredittanalyse, kontantstrømanalyse , paktmodellering, tilbakebetaling av lån og mer. sertifiseringsprogram, designet for å hjelpe alle å bli en finansanalytiker i verdensklasse. For å fortsette karrieren din, vil de ekstra økonomiressursene nedenfor være nyttige:

  • Elastisk nett Elastisk nett Elastisk nett bruker straffer fra både lasso- og ryggteknikker lineært for å regulere regresjonsmodeller. Teknikken kombinerer både lasso og
  • Overfitting Overfitting Overfitting er et begrep som brukes i statistikk som refererer til en modelleringsfeil som oppstår når en funksjon samsvarer for nært med et bestemt datasett
  • Skalerbarhet Skalerbarhet Skalerbarhet kan falle i både økonomiske og forretningsstrategiske sammenhenger. I begge tilfeller står det for enhetens evne til å motstå press fra
  • Spoofing Spoofing Spoofing er en forstyrrende algoritmisk handelspraksis som innebærer å legge inn bud for å kjøpe eller tilby å selge futureskontrakter og kansellere budene eller tilbudene før avtalen gjennomføres. Praksisen har til hensikt å skape et falskt bilde av etterspørsel eller falsk pessimisme i markedet.

Siste innlegg