Bagging (Bootstrap Aggregation) - Oversikt, hvordan det fungerer, fordeler

Ensemble maskinlæring kan hovedsakelig kategoriseres i bagging og boosting. Poseteknikken er nyttig både for regresjon og statistisk klassifisering. Bagging brukes med beslutningstrær, der det betydelig øker stabiliteten til modeller i reduksjon av varians og forbedrer nøyaktighet, noe som eliminerer utfordringen med overmontering.

Bagging

Figur 1. Strømning av bagging (Bootstrap Aggregation). Kilde

Bagging i ensemble maskinlæring tar flere svake modeller, og samler spådommer for å velge den beste spådommen. De svake modellene spesialiserer seg i forskjellige deler av funksjonsområdet, noe som gjør det mulig å spå spådommer fra hver modell for å nå det ytterste formålet.

Rask Su mmary

  • Bagging og boosting er de to viktigste metodene for ensemble maskinlæring.
  • Bagging er en ensemblemetode som kan brukes i regresjon og klassifisering.
  • Det er også kjent som bootstrap-aggregering, som danner de to klassifiseringene av bagging.

Hva er Bootstrapping?

Bagging består av to deler: aggregering og bootstrapping. Bootstrapping er en prøvetakingsmetode, der en prøve velges ut av et sett ved hjelp av erstatningsmetoden. Læringsalgoritmen kjøres deretter på utvalgte prøver.

Bootstrapping-teknikken bruker prøvetaking med erstatninger for å gjøre valgprosedyren helt tilfeldig. Når en prøve er valgt uten erstatning, er de etterfølgende valg av variabler alltid avhengige av de forrige valgene, og dermed blir kriteriene ikke-tilfeldige.

Hva er aggregering?

Modellspådommer gjennomgår aggregering for å kombinere dem for den endelige spådommen for å vurdere alle resultatene mulige. Aggregasjonen kan gjøres basert på det totale antall utfall eller på sannsynligheten for spådommer som kommer fra bootstrapping av hver modell i prosedyren.

Hva er en ensemblemetode?

Både bagging og boosting er de mest fremtredende ensembleteknikkene. En ensemblemetode er en maskinlæringsplattform som hjelper flere modeller i trening gjennom bruk av samme læringsalgoritme. Ensemblemetoden er en deltaker i en større gruppe med flere klassifikatorer.

Multi-classifiers er en gruppe av flere elever, som løper inn i tusenvis, med et felles mål som kan smelte sammen og løse et vanlig problem. En annen kategori av multiklassifikatorer er hybridmetoder. Hybridmetodene bruker et sett med elever, men i motsetning til multiklassifikatorene kan de bruke forskjellige læringsmetoder.

Læring står overfor flere utfordringer, for eksempel feil som hovedsakelig skyldes forspenning, støy og varians. Nøyaktigheten og stabiliteten til maskinlæring garanteres av ensemblemetoder som bagging og boosting. Flere klassifikasjonskombinasjoner reduserer variansen, spesielt der klassifikatorene er ustabile, og de er viktige for å presentere mer pålitelige resultater enn en enkelt klassifikator.

Anvendelsen av enten bagging eller boosting krever først valg av en baselæringsalgoritme. For eksempel, hvis man velger et klassifiseringstre, vil boosting og bagging være et basseng av trær med en størrelse som er lik brukerens preferanse.

Fordeler og ulemper ved bagging

Tilfeldig skog Tilfeldig skog Tilfeldig skog er en teknikk som brukes i modellering av spådommer og atferdsanalyse og er bygget på beslutningstrær. En tilfeldig skog inneholder mange beslutningstrær er en av de mest populære sekkealgoritmene. Bagging gir fordelen ved å la mange svake elever kombinere innsatsen for å overgå en enkelt sterk elev. Det hjelper også til å redusere variansen, og eliminere overfitting Overfitting Overfitting er et begrep som brukes i statistikk som refererer til en modelleringsfeil som oppstår når en funksjon samsvarer for nært med et bestemt datasett av modeller i prosedyren.

En ulempe med bagging er at den introduserer et tap av tolkbarhet av en modell. Den resulterende modellen kan oppleve mye skjevhet når den riktige prosedyren blir ignorert. Til tross for at bagging er veldig nøyaktig, kan det være beregningsdyktig, og dette kan motvirke bruken i visse tilfeller.

Bagging vs Boosting

Den beste teknikken å bruke mellom bagging og boosting avhenger av tilgjengelige data, simulering og eventuelle eksisterende forhold på den tiden. Et estimats varians reduseres betydelig ved bagging og boosting-teknikker under kombinasjonsprosedyren, og øker dermed nøyaktigheten. Derfor oppnådde resultatene høyere stabilitet enn de individuelle resultatene.

Når et arrangement byr på utfordringen med lav ytelse, vil ikke baggingsteknikken resultere i en bedre skjevhet. Imidlertid genererer boosting-teknikken en enhetlig modell med lavere feil siden den konsentrerer seg om optimalisering av fordelene og reduksjon av mangler i en enkelt modell.

Når utfordringen i en enkelt modell er overmontert, utfører posemetoden bedre enn boosting-teknikken. Boosting står overfor utfordringen med å håndtere overmontering siden det kommer med overmontering i seg selv.

Relaterte målinger

Finance tilbyr Financial Modelling & Valuation Analyst (FMVA) ™ FMVA®-sertifisering Bli med på 350 600 studenter som jobber for selskaper som Amazon, JP Morgan og Ferrari-sertifiseringsprogram for de som ønsker å ta karrieren til neste nivå. For å fortsette å lære og utvikle kunnskapsbasen din, kan du utforske de relevante relevante finansressursene nedenfor:

  • Cluster Sampling Cluster Sampling I statistikk er cluster sampling en prøvetakingsmetode der hele populasjonen i studien er delt inn i eksternt homogen, men internt
  • Overtillit Bias Overtillit Bias Overtillit bias er en falsk og misvisende vurdering av våre ferdigheter, intellekt eller talent. Kort sagt, det er en egoistisk tro på at vi er bedre enn vi faktisk er. Det kan være en farlig skjevhet og er veldig produktiv i atferdsfinansiering og kapitalmarkeder.
  • Regresjonsanalyse Regresjonsanalyse Regresjonsanalyse er et sett med statistiske metoder som brukes til estimering av sammenhenger mellom en avhengig variabel og en eller flere uavhengige variabler. Den kan brukes til å vurdere styrken i forholdet mellom variabler og for å modellere det fremtidige forholdet mellom dem.
  • Tidsseriedataanalyse Tidsseriedataanalyse Tidsseriedataanalyse er analysen av datasett som endres over en periode. Datasett for tidsserier registrerer observasjoner av den samme variabelen over forskjellige tidspunkter. Finansanalytikere bruker tidsseriedata som aksjekursbevegelser, eller et selskaps salg over tid

Siste innlegg