Hoofdstuk 11: Eenvoudige lineaire regressie: Eenvoudige lineaire regressie
Inleiding tot Regressieanalyse
Regressie Analyse
Regressieanalyse is een statistische procedure voor het schatten van het verband tussen variabelen. Regressie wordt specifiek gebruikt om de waarde van een continue uitkomst (afhankelijke) variabele te voorspellen op basis van een of meer voorspellings (onafhankelijke) variabelen.
Regressieanalyse evalueert het verband tussen variabelen door het vinden van de best passende rechte lijn door een reeks gegevenspunten en de resulterende lijn wordt de regressielijn genoemd.
#\phantom{0}#
De meest eenvoudige vorm van regressie is Eenvoudige Lineaire Regressie.
#\phantom{0}#
Eenvoudige lineaire regressie
In eenvoudige lineaire regressie wordt de waarde van de uitkomstvariabele voorspeld met een enkele voorspellingsvariabele.
De regressielijn van een eenvoudige lineaire regressie wordt wiskundig beschreven door de volgende regressievergelijking:
\[\hat{Y}=aX+b\]
Waar:
- #\hat{Y}# de voorspelde waarde van de uitkomstvariabele #Y# is.
- #X# de voorspellingsvariabele is.
- #a# de helling van de regressielijn is en die de regressiecoëfficiënt genoemd.
- #b# de waarde van #\hat{Y}# is bij #X=0# en die het snijpunt wordt genoemd.
#\phantom{0}#
De relatie tussen twee variabelen als een rechte lijn beschrijven biedt een eenvoudige manier om waarden van de uitkomstvariabele #Y# te voorspellen voor bepaalde waarden van de voorspellingsvariabele #X#. Voer een waarde voor #X# in in de regressievergelijking om de voorspelde waarde van #Y# te krijgen.
#\phantom{0}#
Voorbeeld: Regressie-Analyse
Gedurende #10# dagen, heeft de eigenaar van een ijscowagen bijhouden hoeveel ijs hij heeft verkocht en wat de maximale temperatuur in #^\circ{}C# was die dag. Hij heeft de regressielijn berekend om de relatie tussen de maximum temperatuur en de hoeveelheid ijs verkocht te vinden.
Neem een kijkje op de spreidingsdiagram hieronder. De blauwe stippen zijn de #10# #\blue{\textbf{data punten}}# die dienen als basis voor de regressieanalyse. De #\orange{\textbf{regressie lijn}}# #\hat{Y} = 2.93X -20.45# wordt getrokken in oranje.
#\phantom{0}#
#\phantom{0}#
Hier is #a=2.93# de regressiecoëfficiënt. Deze waarde voorspelt hoeveel meer ijsjes #Y# zullen worden verkocht, als de maximum temperatuur #X# stijgt met #1#. Als bijvoorbeeld de maximale temperatuur stijgt met #2#, zal de hoeveelheid ijs verkocht groeien met #2\cdot 2.93=5.86#.
Het snijpunt #b# is #-20.45#. In dit geval heeft de negatieve waarde van het snijpunt geen bijzondere betekenis, omdat het niet mogelijk is een negatieve hoeveelheid ijs te verkopen.
Om de voorspelde hoeveelheid ijs verkocht tegen een bepaalde maximumtemperatuur te berekenen, voer je een waarde in voor de #X# in de vergelijking. Bijvoorbeeld, bij een maximale temperatuur van #X=25# is de voorspelde hoeveelheid verkocht ijs:
\[\hat{Y}=2.93X-20.45=2.93\cdot25-20.45=52.8\]
#\phantom{0}#
Een belangrijk ding om te overwegen bij het uitvoeren van een regressie-analyse is dat zelfs een enkele uitschieter een grote impact kan hebben op de resultaten van de analyse, in het bijzonder bij het werken met relatief kleine datasets.
#\phantom{0}#
Voorbeeld: Effect van Uitschieter
Laten we opnieuw de ijscowagen bekijken, maar dit keer verkoopt de eigenaar van de truck bij een temperatuur van #22# graden #500# ijsjes.
#\phantom{0}#
#\phantom{0}#
Deze waarde is veel groter dan de andere punten. Een dergelijk datapunt wordt een invloedrijke uitbijter genoemd en zorgt ervoor dat de volledige regressielijn naar boven verschuift. Wanneer je een dergelijke uitstekende waarde vindt, kan je overwegen deze weg te laten uit de analyse.
omptest.org als je een OMPT examen moet maken.