Wednesday 9 August 2017

Jämför Linjär Regression To The Rörliga Genomsnitt Och Smoothing Tekniker


Prognoser genom utjämningstekniker. Den här webbplatsen är en del av JavaScript E-Labs-lärandesobjekt för beslutsfattande. Andra JavaScript i denna serie kategoriseras under olika tillämpningsområden i MENU-sektionen på denna sida. En tidsserie är en följd av observationer som Bestäms i tid Inhämtande i insamlingen av data som tagits över tiden är någon form av slumpmässig variation. Det finns metoder för att minska avbrytandet av effekten på grund av slumpmässig variation. Breda använda tekniker utjämnar. Dessa tekniker, när de tillämpas korrekt, avslöjar tydligare de underliggande trenderna . Ange tidsserierna Row-wise i följd, starta från det övre vänstra hörnet och parametern s, och klicka sedan på Calculate-knappen för att få fram en prognos för en period framåt. Lankrutor ingår inte i beräkningarna utan nollor är. När du matar in data för att flytta från cell till cell i datmatrisen, använd Tab-tangenten inte pilen eller skriv in tangenter. Funktioner av tidsserier, som kan avslöjas av examini Ng dess graf med de prognostiserade värdena och residualbeteendet, förutsäga prognosmodellering. Flyttmedelvärden Flytta medelvärden bland de mest populära teknikerna för förbehandling av tidsserier De används för att filtrera slumpmässigt vitt brus från data, för att göra tidsserierna Jämnare eller till och med att betona vissa informationskomponenter som ingår i tidsserierna. Exponentialutjämning Detta är ett mycket populärt schema för att producera en jämn tidsserie. I rörliga medelvärden viktas tidigare observationer lika, exponentiell utjämning tilldelar exponentiellt minskande vikter som observationen blir äldre Med andra ord ges de senaste observationerna relativt större vikt vid prognoser än de äldre observationerna. Dubbel exponentiell utjämning är bättre vid hantering av trender. Trippel Exponentiell utjämning är bättre vid hantering av paraboltrender. Ett exponentiellt vägt glidmedel med en utjämningskonstant a motsvarar i stort sett en enkel Glidande medelvärde av längd dvs Period n, där a och n är besläktade med. a 2 n 1 OR n 2 - a a. Till exempel skulle ett exponentialt vägt glidmedel med en utjämningskonstant lika med 0 1 motsvara ungefär ett 19 dagars glidande medelvärde And Ett 40 dagars enkelt glidande medelvärde skulle motsvara ungefär ett exponentiellt vägt glidmedel med en utjämningskonstant som motsvarar 0 04878.Holt s Linear Exponential Smoothing Anta att tidsserierna är säsongsbetonade, men visar trend-Holt s-metoden uppskattar både strömmen Nivå och den aktuella trenden. Notera att det enkla glidande medlet är speciellt fall av exponentiell utjämning genom att ställa in det glidande medeltalet för heltalet av 2-Alpha Alpha. För de flesta företagsdata är en Alpha-parameter som är mindre än 0 40 ofta Effektiv Men det kan vara att man utför en nätverkssökning av parameternummet med 0 1 till 0 9 med steg på 0 1 Då har den bästa alfas det minsta genomsnittliga absoluta felet MA Error. Hur jämför man flera utjämningsmetoder Även om det Är numeriska indikatorer för att bedöma noggrannheten i prognostekniken, är det mest använda sättet att använda en visuell jämförelse av flera prognoser för att bedöma deras noggrannhet och välja mellan de olika prognosmetoderna. I detta tillvägagångssätt måste man plotta med t. ex. Excel på samma graf De ursprungliga värdena för en tidsserievariabel och de förutspådda värdena från flera olika prognosmetoder, vilket underlättar en visuell jämförelse. Du kan gilla att använda Past Forecasts by Smoothing Techniques JavaScript för att få de senaste prognosvärdena baserade på utjämningstekniker som endast använder en enda parameter Holt och Winters metoder använder sig av två respektive tre parametrar. Det är därför inte en lätt uppgift att välja de optimala, eller till och med nära optimala värden, genom försök och fel för parametrarna. Den enda exponentiella utjämningen betonar det korta perspektivet det Sätter nivån till den sista observationen och baseras på villkoret att det inte finns någon trend. Den linjära regressen Jon som passar en minsta kvadrera linje till den historiska data eller transformerade historiska data, representerar det långa intervallet, vilket är konditionerat för den grundläggande trenden Holt s linjär exponentiell utjämning fångar information om den senaste trenden Parametrarna i Holt s-modellen är nivåparametrar som Bör minskas när mängden datavariation är stor och trenderparametern bör ökas om den senaste trendriktningen stöds av de orsakssammanfattade faktorerna. Kortsiktiga prognoser Observera att varje JavaScript på denna sida ger ett steg framåt Prognos För att få en tvåstegs-prognos lägger du bara till det prognostiserade värdet till slutet av din tidsseriedata och klickar sedan på samma beräkna-knapp. Du kan upprepa denna process ett par gånger för att få de nödvändiga kortsiktiga prognoserna . Vad är baslinjen Hur man jämför modeller. Efter att ha anpassat ett antal olika regressions - eller tidsserier prognoser modeller till en viss dataset har du många kriterier som de kan vara Jämfört. Redelsåtgärder i uppskattningsperioden Röda medelkvadratfel, medelvärde absolut fel, medelvärde absolut procentuellt fel, medelvärde absolut skalat fel, medelvärde, medelprocentfel. Åtgärder i valideringsperioden om du har gjort provtagning Ditto. Residual Diagnostics and Goodness-of-Fit Tester Plottar av faktiska och förutspådda värden översikt över rester jämfört med tid, mot förutsagda värden, och mot andra variabler återstående autokorrelationsplottor, korskorrelationsplaner och test för normalt fördelade felåtgärder av extrem eller Inflytelserika observatortester för överdrivna körningar, förändringar i medelvärden eller förändringar i variansen många saker som kan vara OK eller inte OK. Kvalitativa överväganden Intuitiv rimlighet av modellen, enkelhet i modellen och framför allt användbarhet för beslutsfattande. Med så Många tomter och statistik och överväganden att oroa sig för, det är ibland svårt att veta vilka jämförelser som är viktigaste. Vad är den verkliga bottenlinjen. Om den Ere är någon statistik som normalt har företräde framför de andra, det är rotenhetens kvadratfel RMSE som är kvadratroten av det genomsnittliga kvadratfelet När det justeras för grader av frihet för felprovstorlek minus antal modellerkoefficienter, Det är känt som standardfelet för regressions - eller standardfelet i uppskattningen vid regressionsanalys eller som den beräknade vita bullernivånsavvikelsen i ARIMA-analysen. Detta är den statistik vars värde minimeras under parameteruppskattningsprocessen och det är den statistik som Bestämmer bredden på konfidensintervallerna för förutsägelser Det är ett lägre belopp på standardavvikelsen för prognosfelet en tätt nedre gräns om provet är stort och värdena för de oberoende variablerna inte är extrema, så ett 95 konfidensintervall för en prognos är Ungefär lika med punktprognosen plus eller minus 2 standardfel - plus eller minus 2 gånger standardfelet i regressionen. Det finns dock Ea antal andra felåtgärder för att jämföra modellernas prestanda i absoluta eller relativa termer. Det genomsnittliga absoluta felet MAE mäts också i samma enheter som data, och är vanligen lika stor som, men något mindre än, den Root mean squared error Det är mindre känsligt för det tillfälliga mycket stora felet eftersom det inte kvadrerar fel i beräkningen. Den matematiskt utmanade brukar hitta det här en enklare statistik att förstå än RMSE MAE och MAPE nedan är inte en del av standard regressionsutmatning , Men De är vanligare i resultaten av tidsseriens prognosprocedurer, som den i Statgraphics. Det är relativt enkelt att beräkna dem i Regress. Välj bara alternativet att spara restbordet till arbetsbladet, skapa en kolumn med formler nästa För att beräkna fel i absoluta eller absoluta procentsatser och tillämpa AVERAGE-funktionen. Det genomsnittliga absoluta procentuella felet MAPE är också ofta användbart för syfte Rapportering, eftersom det uttrycks i generella procentuella termer som kommer att ge någon form av mening även till någon som inte har någon aning om vad som utgör ett stort fel när det gäller att använda pengar eller widgets. MAPE kan bara beräknas med avseende på data som Garanteras att vara strikt positivt, så om denna statistik saknas från din produktion där du normalt förväntar dig att se den, är det möjligt att det har undertryckts på grund av negativa datavärden. Det genomsnittliga absoluta skalade felet MASE är ett annat relativt mått på Fel som endast gäller tidsseriedata Det definieras som det genomsnittliga absoluta felet för modellen dividerat med det genomsnittliga absoluta felet i en nave slumpmässig-walk-without-drift-modell, dvs det genomsnittliga absoluta värdet av den första skillnaden i serien Således mäter den den relativa minskningen i fel jämfört med en naiv modell. Ideellt sett kommer dess värde att vara betydligt mindre än 1 Denna statistik, som föreslogs av Rob Hyndman 2006, är mycket bra att titta på när fitt Regression modeller till nonseasonal tidsserie data Det är möjligt för en tidsregeringsregressionsmodell att ha en imponerande R-kvadrerade och ändå vara sämre än en na-modell, vilket visades i det så bra för R - Kvadrerade anteckningar Om serien har ett starkt säsongsmönster, skulle motsvarande statistik att se på vara det genomsnittliga absoluta felet dividerat med medelvärdet av säsongsskillnaden, dvs det genomsnittliga absoluta felet på en na-säsongsmodell som förutspår att värdet i En given period kommer att vara lika med det värde som observerades en säsong sedan. Det genomsnittliga felet ME och medelprocentfelet MPE som rapporteras i vissa statistiska förfaranden är signerade felmått som anger om prognoserna är förspända - om de tenderar att vara oproportionerligt positiva Eller negativ Bias anses normalt vara en dålig sak, men det är inte bottenlinjen Bias är en del av det genomsnittliga kvadratfelet - faktiskt betyder kvadratfelet lika med variansen av felen plus Kvadrat av det genomsnittliga felet Det är MSE VAR E ME 2 Om du försöker minimera medelkvadratfel, minimerar du implicit både bias och varians av fel. I en modell som innehåller en konstant term, är den genomsnittliga kvadranten Fel kommer att minimeras när medelfelet är exakt noll så att du bör förvänta dig att medelfelet alltid ska vara noll inom uppskattningsperioden i en modell som innehåller en konstant term Not som rapporterats i Statgraphics Prognos-proceduren, är det genomsnittliga felet under uppskattningsperioden Kan vara något annorlunda än noll om modellen inkluderade en loggomvandling som ett alternativ, eftersom prognoserna och felen automatiskt avloggas innan statistiken beräknas - se nedan Gå tillbaka till början av sidan. Röda medelkvadratfelet är känsligare än andra Åtgärder för tillfälligt stort fel kvadratprocessen ger oproportionerlig vikt till mycket stora fel Om ett tillfälligt stort fel inte är ett problem i din beslutsituation, t ex om den sanna kostnaden Av ett fel är ungefär proportionellt mot felets storlek, inte felets kvadrat, kan MAE eller MAPE vara ett mer relevant kriterium. I många fall varierar denna statistik i samklang - den modell som bäst är på en av De kommer också att vara bättre på de andra - men det kan inte vara fallet när felfördelningen har outliers Om en modell är bäst på en åtgärd och en annan är bäst på en annan åtgärd är de troligen ganska lika med avseende på deras genomsnittliga fel I sådana fall borde du förmodligen ge större vikt åt några av de andra kriterierna för att jämföra modeller - t ex enkelhet, intuitiv rimlighet etc. Rotenhetens kvadratfel och genomsnittligt absolut fel kan endast jämföras mellan modeller vars fel mäts i samma Enheter, t. ex. dollar eller konstanta dollar eller fall av öl som säljs, eller vad som helst Om en modell s-fel justeras för inflationen medan en annan eller inte, eller om en modell s-fel är i absoluta enheter medan en annan s är i loggade enheter, th Eir-felåtgärder kan inte direkt jämföras. I sådana fall måste du konvertera felet av båda modellerna till jämförbara enheter innan du beräknar de olika åtgärderna. Det innebär att man konverterar prognoserna för en modell till samma enheter som de andra genom att låsa upp eller avbryta eller Vad som helst, sedan subtrahera dessa prognoser från faktiska värden för att erhålla fel i jämförbara enheter och sedan beräkna statistik över dessa fel. Du kan inte få samma effekt genom att bara avmarkera eller avveckla felstatistiken själva. I Statgraphics kommer det användarspecificerade prognosproceduren att ta hand om Av den senare typen av beräkningar för dig omvandlas prognoserna och deras fel automatiskt till de ursprungliga enheterna i inmatningsvariabeln, dvs alla transformationer som utförts som modellalternativ inom prognosproceduren vänds innan du beräknar statistiken som visas i analysrapporten och modellen Jämförelsesrapport Men andra förfaranden i Statgraphics och de flesta Andra statsprogram gör livet inte så lätt för dig. Gå tillbaka till toppen av sidan. Det finns inget absolut kriterium för ett bra värde för RMSE eller MAE, det beror på de enheter variabeln mäts och i prognosnoggrannheten, som Mätt i de enheter som söks i en viss applikation Beroende på valet av enheter kan RMSE eller MAE av din bästa modell mätas i zillioner eller en zillionths. Det är ingen mening att säga att modellen är bra då roden är att rotan Genomsnittlig kvadratfel är mindre än x, om du inte hänvisar till en viss grad av noggrannhet som är relevant för din prognosapplikation. Det finns ingen absolut standard för ett bra värde av justerad R-kvadrat. Det beror på situationen i Speciellt på signal-brusförhållandet i den beroende variabeln Ibland kan mycket av signalen förklaras bort med en lämplig datatransformation innan en regressionsmodell anpassas. Vid jämförelse av regressionsmodeller som använder samma depen Dent-variabeln och samma uppskattningsperiod går regressionens standardfel nedåt, eftersom justerad R-kvadrat går upp. Därför kommer modellen med den högsta justerade R-kvadraten att ha det lägsta standardfelet i regressionen, och du kan lika bra Använd justerad R-kvadrat som ett kriterium för att rangordna dem. Men när man jämför regressionsmodeller där de beroende variablerna transformerades på olika sätt, t. ex. olika i ett fall och obifferentierat i ett annat, eller inloggat i ett fall och ologgat i en annan eller som används Olika uppsättningar av observationer som uppskattningsperioden, R-kvadrerad är inte en tillförlitlig guide till modellkvalitet. Se anteckningarna om vad som är bra för R-kvadrerade. Inte delade hår en modell med en RMSE på 3 25 är inte signifikant bättre än En med en RMSE på 3 32 Kom ihåg att bredden på konfidensintervallet är proportionell mot RMSE, och fråga dig själv hur mycket av en relativ minskning i konfidensintervallets bredd skulle märkas på en Plot Det kan vara användbart att tänka på detta i procentuella termer om en modell s RMSE är 30 lägre än en annan s, det är förmodligen väldigt betydande. Om det är 10 lägre, är det förmodligen något betydande. Om det bara är 2 bättre är det förmodligen Inte signifikant Dessa skillnader är särskilt viktiga när du handlar mot modellkomplexitet mot felåtgärderna är det förmodligen inte värt att lägga till en annan oberoende variabel till en regressionsmodell för att minska RMSE med bara några få procent. RMSE och justerad R-kvadratstatistik Innehåller redan en mindre justering för antalet uppskattade koefficienter för att göra dem objektiva bedömare men ett tyngre straff på modellkomplexitet borde verkligen införas för att välja mellan modeller. Sofistikerad programvara för automatisk modellval väljer generellt att minimera felåtgärder som Införa ett så tyngre straff, som Mallows Cp-statistiken, Akaike Information Criterion AIC eller Schwarz Bayesian Informations Ation Kriterium BIC Hur dessa beräknas ligger utanför ramen för den aktuella diskussionen, men det räcker att säga att när du - istället för datorn - väljer bland modeller, borde du visa några preferenser för modellen med färre parametrar, andra Sakerna är ungefär lika. Rotenvärdes kvadratfelet är en giltig indikator på relativ modellkvalitet endast om det kan lita på om det finns bevis för att modellen är felaktigt felaktig, dvs om det grovt misslyckas diagnostiska tester av dess underliggande antaganden eller att Uppgifterna i beräkningsperioden har överskridits, dvs om modellen har ett relativt stort antal parametrar för antalet observationer som är monterade och dess jämförande prestanda försämras dåligt under valideringsperioden, då roten betyder kvadratfel och alla andra felmått I uppskattningsperioden kan det behöva bli mycket diskonterad. Om det endast finns bevis för mindre modifikationen av modellen - t. ex. blygsamma mängder autokorrelation i resan Iduals - detta försvårar inte modellen eller dess felstatistik helt och hållet. Det föreslår bara att vissa finjusteringar av modellen fortfarande är möjliga. Det kan till exempel indikera att en annan fördröjd variabel skulle kunna sättas lönsamt till en regressions - eller ARIMA-modell Gå tillbaka till början av sidan. När du försöker fastställa om felåtgärderna under uppskattningsperioden är tillförlitliga bör du överväga om den aktuella modellen sannolikt kommer att överföras med data. Är antaganden intuitivt rimliga. Det skulle vara lätt eller svårt att förklara detta Modell för någon annan Prognosplottarna ser ut som en rimlig extrapolering av tidigare data Om antagandenna verkar rimliga är det mer troligt att felstatistiken kan lita på än om antagandena var ifrågasatta. Om modellen bara har en eller två Parametrar som en slumpmässig promenad, exponentiell utjämning eller enkel regressionsmodell och monterades på ett måttligt eller stort urval av tidsseriedata säger 30 observatörer Joner eller mer, då är det troligt osannolikt att data har överlagrats. Men om det har många parametrar i förhållande till antalet observationer under uppskattningsperioden, är överfitting en distinkt möjlighet. Regressionsmodeller som väljs genom att använda automatiska modellvalsteknik t. ex. Stegvis eller all möjlig regression till ett stort antal okritiskt valda kandidatvariabler är benägna att överföra data, även om antalet regressorer i den slutliga modellen är liten. Som en grov guide mot överfitting beräknar du antalet datapunkter i uppskattningen Period per koefficient uppskattad inklusive säsongsindex om de har beräknats separat från samma data Om du har mindre än 10 datapunkter per uppskattad koefficient bör du vara uppmärksam på möjligheten att överföras. Tänk på det på så vis hur stort ett urval av data skulle Du vill för att uppskatta en enda parameter, nämligen medelvärdet Strikt talande, bestämning av en adekvat provstorlek o Att bero på signal-brusförhållandet i data, beskaffenheten av beslutet eller inferensproblemet som ska lösas och en priori-kännedom om huruvida modellspecifikationen är korrekt. Det finns också effektivitetsvinster vid uppskattning av multipla koefficienter samtidigt Från samma data Men tänkande när det gäller datapunkter per koefficient är fortfarande en användbar verklighetskontroll, speciellt när provstorleken är liten och signalen är svag. Tillbaka till början av sidan. När man anpassar regressionsmodeller till säsongens tidsseriedata och använder Dummyvariabler för att uppskatta månatliga eller kvartalseffekter kan du ha lite val om antalet parametrar som modellen borde inkludera. Du måste uppskatta säsongsmönstret på något sätt, oavsett hur liten provet är och du bör alltid inkludera hela uppsättningen, Det vill säga att du inte tar bort säsongsdummier selektivt, vars koefficienter inte skiljer sig avsevärt från noll. Som en allmän regel är det bra att ha minst 4 årstider då Ta Mer skulle vara bättre men långa historier kanske inte är tillgängliga eller tillräckligt relevanta för vad som händer nu och med en grupp säsongsmässiga variabler som en enhet har inte samma risk för överfitting som att använda ett liknande antal regressorer Det är slumpmässiga variabler valda från en stor kandidatpool Om det är logiskt att serierna har ett säsongsmönster, är det ingen fråga om relevansen av de variabler som mäter den. Om du har säsongrensat data baserat på egen Historia, innan du anpassar en regressionsmodell, bör du räkna säsongsindex som extra parametrar som i princip motsvarar dummyvariabler. Om du har några år med data som ska fungera kommer det oundvikligen att bli någon överfitting i denna process. ARIMA-modeller visas Vid första anblicken att kräva relativt få parametrar som passar säsongsmönster, men det här är något vilseledande För att initiera en säsongsbetonad ARIMA-modell är det nödvändigt att uppskatta Det säsongsmönster som inträffade under år 0, vilket kan jämföras med problemet med att uppskatta en fullständig uppsättning säsongsindex. Faktum är det vanligtvis att det krävs fler säsonger av data för att passa en säsongsbetonad ARIMA-modell än att passa en säsongsfördelad modell. Trots att konfidensintervallerna för enstegs-prognoser baseras nästan helt på RMSE, kan konfidensintervallet för de längre horisontprognoserna som kan produceras av tidsseriemodeller bero på de underliggande modelleringsantagandena, särskilt antaganden om variabiliteten hos Trenden Förtroendeintervallet för vissa modeller ökar relativt långsamt, eftersom prognoshorisonten förlängs, t. ex. enkla exponentiella utjämningsmodeller med små värden av alfa, enkla rörliga medelvärden, säsongsmässiga slumpmässiga gångmodeller och linjära trendmodeller. Förtroendeintervallen utbreder sig mycket snabbare för andra slag Av modeller, t. ex. nonseasonal random walk modeller, säsongsmässiga slumpmässiga trendmodeller eller linjär exponentiell utjämning mo Dels Den takt vid vilken konfidensintervallet utökas är inte en tillförlitlig guide till modellkvalitet. Det är viktigt att modellen borde göra de rätta antagandena om hur osäker framtiden är. Det är väldigt viktigt att modellen ska passera de olika restdiagnostiska testerna och Ögonbollstester för att konfidensintervallerna för längre horisontprognoser ska tas på allvar. Gå tillbaka till toppen av sidan. Om du har haft möjlighet att göra urvalsprovning av modellkorsvalideringen, då är felmåtten i Valideringsperioden är också mycket viktig. Teoretiskt är modellens prestanda i valideringsperioden den bästa guiden till förmågan att förutsäga framtiden. Tillgången här är att valideringstiden ofta är ett mycket mindre urval av data än uppskattningsperioden. Därför är det Möjligt att en modell kan göra ovanligt bra eller dåligt under valideringsperioden bara på grund av att ha tur eller otur - till exempel genom att göra rätt gissning om en oförutsedd uppgång o R nedgången inom den närmaste framtiden eller genom att vara mindre känslig än andra modeller till en ovanlig händelse som händer i början av valideringsperioden. Om du inte har tillräckligt med data för att hålla ut ett stort och representativt prov för validering, är det troligen bättre att Tolka valideringsperiodstatistiken på ett mer kvalitativt sätt vinkar de en röd flagga om eventuell otillförlitlighet av statistiken under uppskattningsperioden eller inte. Den jämförande felstatistik som Statgraphics rapporterar för uppskattnings - och valideringsperioderna är i ursprungliga, icke-transformerade enheter Om Du använde en logtransformation som ett alternativ för att minska heteroscedasticiteten i resterna, du borde förvänta dig att de obloggade felen i valideringsperioden är mycket större än de som uppskattas. Du kan naturligtvis fortfarande jämföra valideringsperiodstatistik över Modeller i det här fallet Gå tillbaka till toppen av sidan. Så i botten är det att du borde lägga mest vikt vid felåtgärderna i Uppskattningsperiod - oftast RMSE eller standardfelet för regressionen, vilket är RMSE justerat för modellens relativa komplexitet, men ibland MAE eller MAPE - när man jämför mellan modeller MASE-statistiken ger en mycket användbar verklighetskontroll för en modell Monterad i tidsseriedata är det bättre än en naivmodell Om din programvara kan beräkna dem kan du också vilja titta på Cp, AIC eller BIC, vilket hårdare bestraffar modellkomplexitet Men du bör hålla koll på resterande Diagnostiska tester, korrigeringsprov, om så är möjligt, och kvalitativa överväganden, såsom din intuitiva rimlighet och enkelhet. De återstående diagnostiska testerna är inte utgångspunkten. Du borde aldrig välja modell A över modell B bara för att modell A fick mer OK s på sina kvarvarande tester Vad skulle du hellre ha mindre fel eller fler slumpmässiga fel En modell som misslyckas med några av de kvarstående testerna eller verklighetskontrollen på bara mindre sätt är troligen föremål för Ytterligare förbättring, medan det är modellen som flunker sådana tester på ett stort sätt som inte kan lita på. Valideringsperiodens resultat är inte nödvändigtvis det sista ordet på grund av frågan om provstorlek om modell A är något bättre vid en validering Period med storlek 10 medan modell B är mycket bättre över en uppskattningsperiod med storlek 40, skulle jag studera data noggrant för att försäkra mig om modell A bara hade tur under valideringsperioden. Kom ihåg att KISS håller det enkelt Om två modeller Är vanligen lika med avseende på deras felstatistik och annan diagnostik bör du föredra den som är enklare och lättare att förstå. Den enklare modellen kommer sannolikt att vara närmare sanningen, och det brukar lättare accepteras av andra. Återgå till Överst på sidan. Möjlig data avlägsnar slumpmässig variation och visar trender och cykliska komponenter. Sammanhängande i insamlingen av data som tagits över tiden är någon form av slumpmässig variation. Det finns metoder för att minska avbrytningen Effekten på grund av slumpmässig variation En ofta använd teknik inom industrin är utjämning Denna teknik, när den tillämpas korrekt, tydligare visar den underliggande trenden, säsongsmässiga och cykliska komponenter. Det finns två olika grupper av utjämningsmetoder. Verksamhetsmetoder. Exponentiella utjämningsmetoder . Medeltal är det enklaste sättet att smidiga data. Vi ska först undersöka några medelvärden, till exempel det enkla genomsnittet av alla tidigare data. En förvaltare av ett lager vill veta hur mycket en typisk leverantör levererar i 1000 dollar enheter. Hon tar det Ett urval av 12 leverantörer slumpmässigt erhåller följande resultat. Beräknat medelvärde eller medelvärde av data 10 Chefen bestämmer sig för att använda detta som uppskattning av utgifter för en typisk leverantör. Detta är en bra eller dålig uppskattning. Ett kvadrerat fel Är ett sätt att bedöma hur bra en modell är. Vi ska beräkna det genomsnittliga kvadratfelet. Felvärdet spenderas minus det uppskattade beloppet. Felet kvadrerat är felet ovan, kvadrerat. SSE är su M av de kvadrerade felen. MSE är medelvärdet av de kvadrerade felen. MSE-resultat till exempel. Resultaten är fel och kvadratiska fel. Uppskattningen 10. Frågan uppstår kan vi använda medelvärdet att förutse inkomst om vi misstänker en trend A Titta på diagrammet nedan visar tydligt att vi inte borde göra detta. Enhet väger alla tidigare observationer lika. Sammanfattningsvis anger vi att. Det enkla genomsnittet eller medelvärdet av alla tidigare observationer är bara en användbar uppskattning för prognoser när det inte finns några trender. Om Det finns trender, använd olika uppskattningar som tar hänsyn till trenden. Medelvärdet väger alla tidigare observationer lika. Till exempel är medelvärdet av värdena 3, 4, 5 4. Vi vet självklart att ett medel beräknas genom att lägga till alla Värdena och dela summan med antalet värden Ett annat sätt att beräkna medelvärdet är att lägga till varje värde dividerat med antalet värden eller.3 3 4 3 5 3 1 1 3333 1 6667 4. Multiplikatorn 1 3 kallas Vikten i allmänhet Bar frac summa vänster frac höger x1 vänster frac höger x2,, vänster frac höger xn. Vänster frac höger är vikterna och naturligtvis summerar de till 1.

No comments:

Post a Comment