Overmontering - Oversikt, påvisning og forebyggingsmetoder

Overfitting er et begrep som brukes i statistikk som refererer til en modelleringsfeil som oppstår når en funksjon samsvarer for nært med et bestemt datasett. Som et resultat kan det hende at overmontering ikke passer til ytterligere data, og dette kan påvirke nøyaktigheten av å forutsi fremtidige observasjoner.

Overmontering

Overmontering kan identifiseres ved å sjekke valideringsberegninger som nøyaktighet og tap. Valideringsberegningene øker vanligvis til et punkt der de stagnerer eller begynner å synke når modellen påvirkes av overmontering. Under en oppadgående trend søker modellen en god passform, som når den oppnås fører til at trenden begynner å synke eller stagnere.

Rask oppsummering

  • Overmontering er en modelleringsfeil som introduserer skjevhet i modellen fordi den er for nært knyttet til datasettet.
  • Overmontering gjør modellen bare relevant for datasettet og irrelevant for andre datasett.
  • Noen av metodene som brukes for å forhindre overmontering inkluderer ensemblering, dataøkning, dataforenkling og kryssvalidering.

Hvordan oppdage overmontering?

Det er nesten umulig å oppdage overmontering før du tester dataene. Det kan bidra til å løse de iboende egenskapene til overmontering, som er manglende evne til å generalisere datasett. Dataene kan derfor deles inn i forskjellige undergrupper for å gjøre det enkelt for opplæring og testing. Dataene er delt inn i to hoveddeler, dvs. et testsett og et treningssett.

Treningssettet representerer et flertall av tilgjengelige data (ca. 80%), og det trener modellen. Testsettet representerer en liten del av datasettet (ca. 20%), og det brukes til å teste nøyaktigheten av dataene det aldri har samhandlet med før. Ved å segmentere datasettet kan vi undersøke ytelsen til modellen på hvert datasett for å oppdage overmontering når det oppstår, samt se hvordan treningsprosessen fungerer.

Ytelsen kan måles ved å bruke den prosentvise nøyaktigheten som er observert i begge datasettene for å konkludere med tilstedeværelsen av overmontering. Hvis modellen presterer bedre på treningssettet enn på testsettet, betyr det at modellen sannsynligvis er overmontert.

Hvordan forhindre overmontering?

Nedenfor er noen av måtene å forhindre overmontering:

1. Trening med mer data

En av måtene å forhindre overmontering på er å trene med mer data. Et slikt alternativ gjør det enkelt for algoritmer Algoritmer (Algos) Algoritmer (Algos) er et sett med instruksjoner som introduseres for å utføre en oppgave. Algoritmer introduseres for å automatisere handel for å generere fortjeneste med en frekvens umulig for en menneskelig handelsmann for å oppdage signalet. bedre for å minimere feil. Ettersom brukeren mater mer treningsdata inn i modellen, vil den ikke kunne overmontere alle prøvene og vil bli tvunget til å generalisere for å oppnå resultater.

Brukere bør kontinuerlig samle inn mer data for å øke nøyaktigheten til modellen. Denne metoden anses imidlertid som kostbar, og derfor bør brukerne sørge for at dataene som brukes er relevante og rene.

2. Dataforstørrelse

Et alternativ til trening med mer data er dataforstørrelse, som er billigere sammenlignet med førstnevnte. Hvis du ikke klarer å kontinuerlig samle inn flere data, kan du få tilgjengelige datasett til å se forskjellige ut. Dataøkning gjør at eksempeldata ser litt annerledes ut hver gang de behandles av modellen. Prosessen gjør at hvert datasett fremstår som unikt for modellen og forhindrer at modellen lærer seg datasets egenskaper.

Et annet alternativ som fungerer på samme måte som dataøkning, er å legge til støy i inngangs- og utdataene. Ved å legge til støy i inngangen blir modellen stabil, uten å påvirke datakvaliteten og personvernet, mens det å legge til støy i utgangen gjør dataene mer varierte. Støytilskudd bør imidlertid gjøres med måte, slik at omfanget av støyen ikke er så mye at dataene blir feil eller for forskjellige.

3. Dataforenkling

Overmontering kan oppstå på grunn av kompleksiteten til en modell, slik at modellen fremdeles klarer å overfylle treningsdatasettet, selv med store datamengder. Dataforenklingsmetoden brukes til å redusere overmontering ved å redusere kompleksiteten i modellen for å gjøre den enkel nok til at den ikke overdriver.

Noen av handlingene som kan implementeres inkluderer beskjæring av et beslutningstreet, redusering av antall parametere Parameter En parameter er en nyttig komponent i statistisk analyse. Det refererer til egenskapene som brukes til å definere en gitt populasjon. Det er vant til i et nevralt nettverk, og bruker frafall på et nøytralt nettverk. Forenkling av modellen kan også gjøre modellen lettere og løpe raskere.

4. Montering

Ensembling er en maskinlæringsteknikk som fungerer ved å kombinere spådommer fra to eller flere separate modeller. De mest populære ensembleringsmetodene inkluderer boosting og bagging. Boosting fungerer ved å bruke enkle basismodeller for å øke deres samlede kompleksitet. Den trener et stort antall svake elever ordnet i en sekvens, slik at hver elev i sekvensen lærer av feilene til eleven før den.

Boosting kombinerer alle de svake elevene i sekvensen for å få frem en sterk elev. Den andre ensembleringsmetoden er bagging, som er motsatt av boosting. Bagging fungerer ved å trene et stort antall sterke elever ordnet i et parallelt mønster og deretter kombinere dem for å optimalisere spådommene.

Flere ressurser

Finance er den offisielle leverandøren av den globale Financial Modelling & Valuation Analyst (FMVA) ™ FMVA®-sertifisering. Bli med på 350 600 studenter som jobber for selskaper som Amazon, JP Morgan og Ferrari-sertifiseringsprogram, designet for å hjelpe alle med å bli en finansanalytiker i verdensklasse . For å fortsette karrieren din, vil de ekstra økonomiressursene nedenfor være nyttige:

  • Grunnleggende statistikkbegreper i økonomi Grunnleggende statistikkbegreper for økonomi En solid forståelse av statistikk er avgjørende for å hjelpe oss med å bedre forstå økonomi. Videre kan statistikkonsepter hjelpe investorer å overvåke
  • Data-Mining Bias Data-Mining Bias Data-mining bias refererer til en antagelse om viktighet en næringsdrivende tillegger en hendelse i markedet som faktisk var et resultat av tilfeldigheter eller uforutsett
  • Tilfeldig skog Tilfeldig skog Tilfeldig skog er en teknikk som brukes i modellering av spådommer og atferdsanalyse og er bygget på beslutningstrær. En tilfeldig skog inneholder mange beslutningstrær
  • Ubetinget sannsynlighet Ubetinget sannsynlighet Ubetinget sannsynlighet, også kjent som marginal sannsynlighet, refererer til en sannsynlighet som ikke påvirkes av tidligere eller fremtidige hendelser. Med andre ord,

Siste innlegg