Lifestyle

Correlatie en covariantie

5650

Zowel correlatie als covariantie gaan over de relatie tussen twee schijnbaar onafhankelijke variabelen. Zo is het aantal paraplus niet afhankelijk van de hoeveelheid regen. Maar het paraplu gebruik bijvoorbeeld wel afhankelijk van de aanwezigheid van regen. Toch zijn er mensen die zonder paraplu door de regen lopen. Er is dus nooit een één op één verband aan te tonen voor regen en paraplus.

De kans dat wij minder brandstof kopen op het moment dat we weten dat de prijs gaat dalen is groter dan wanneer we niet weten wat de prijs van brandstof gaat doen. Maar ook hiervoor geldt dat andere factoren meespelen. Iemand die morgen 200 kilometer moet rijden gaat echt niet wachten met brandstof kopen tot de prijs zakt, in de zekerheid dat hij na honderd kilometer stil komt te staan.

Bij correlaties en covarianties gaat het dus over relaties tussen twee waarden. Waarbij we overigens niets kunnen zeggen over de soort relatie, maar alleen iets over de grote van de relatie. Zou het misschien zo kunnen zijn dat als wij massaal met paraplus de straat op gaan, dat het dan gaat regen, waarschijnlijk niet. Of is het zo dat hoe harder het regent hoe meer paraplus je ziet, kleine kans. We kunnen met de correlatie en de covariantie alleen maar zeggen dat er een relatie is, vervolgens moeten we zelf nadenken over wat de oorzaak kan zijn voor die relatie. Waarbij de correlatie iets zegt over de mate waarin de ene variabele de andere beïnvloedt (regen veroorzaakt paraplus). Werk veroorzaakt inkomen. Terwijl de covariantie iets zegt over de kracht van de relatie. Zo verwacht je bijvoorbeeld dat mensen die een goede baan hebben ook een duurdere auto zullen hebben. Waarbij je er vanuit mag gaan dat een bepaald inkomen bij een bepaalde autoprijs hoort. De hoogte van het inkomen bepaald de hoogte van de autoprijs zou je kunnen zeggen. Terwijl er gegarandeerd mensen zijn die een hoog inkomen hebben en altijd met het openbaar vervoer reizen. De covariantie zegt dus iets over de invloed van de ene variabele op het gedrag van de andere.

Maar het feit dat twee variabelen een relatie hebben, wil nog niet zeggen dat de ene variabele ook de oorzaak is voor de andere. Zo kan regen wel tot gevolg hebben dat je meer paraplus ziet, maar de oorzaak voor de paraplus is dat mensen niet nat willen worden. Als mensen het niet erg vonden om nat te worden, dan zou je tijdens regen ook geen paraplu zien. Zo geldt dat ook voor hoge inkomens en dure auto’s. Het hoge inkomen veroorzaakt niet de koop van een dure auto, vaak is het eerder zo dat mensen met een hoog inkomen een dure auto krijgen van de zaak. Die dure auto is dan wel gerelateerd aan dat inkomen, maar wordt veroorzaakt door het feit dat het bedrijf vindt dat een goed betaalde medewerker zijn positie en status moet laten zien.

Variantie

Aan de basis van de correlatie en de covariante ligt de variantie. De variantie van een variabele is de mate waarin de waarde van die variabele afwijkt van het gemiddelde van alle waargenomen waardes. De variantie zegt dus iets over de mate waarin de waarde van een variabele stabiel is of niet. Zo krijg je bijvoorbeeld een gemiddelde van 10 door (20+0)/2 te doen. Maar ook door (10+10)/2 te doen. De gemiddelde afwijking in het eerste geval is 10 en in het tweede geval 0. De variantie zit iets ingewikkelder in elkaar, maar geeft op dezelfde manier als de gemiddelde afwijking aan hoe groot de verschillen zijn binnen de gemeten waardes. Waar de gemiddelde afwijking gewoon de som is van het verschil van een meting met het gemiddelde gedeeld door het aantal metingen is de variantie het kwadraat van het verschil. Dus waar de gemiddelde afwijking (20-10+|0-10|)/2 = 10 is, daar is de variantie ((20-10)2
+(0-10)2)/2 = 100. Maar als bijvoorbeeld de afwijking van het gemiddelde bijna nul of nul is, dan is de gemiddelde afwijking en de variantie ook bijna nul. Dus waar de gemiddelde afwijking (10-10+10-10)/2 = 0 is daar is ook de variantie ((10-10)2+(10-10)2)/2 = 0. Bij een variantie van nul weet je dus dat alle metingen dezelfde waarde hebben. Bij een gemiddelde van 10 en een variantie die groter dan honderd wordt weet je dus dat de de metingen ver uit elkaar liggen oftewel een grote spreiding kennen.

Covariantie

Zoals ik al eerder schreef weten wij mensen heel goed wat covariantie is, we kunnen het alleen niet in de vorm van een getal geven, bij ons is het meer een gevoel. Maar in sommige gevallen is een getal om de invloed van twee variabelen op elkaar te bepalen handiger dan een gevoel. Zeker als het gaat om factoren die we niet iedere dag tegenkomen. We vinden het dus helemaal niet moeilijk om te weten dat de meeste mensen de aankoop van brandstof uitstellen als ze denken dat de prijs gaat dalen. Ook al zullen we nooit precies aan kunnen geven hoe groot dat effect is. Maar zouden we met zekerheid durven beweren dat mensen die PVV stemmen teleurgestelde kiezers zijn, waarschijnlijk niet. Of zouden we durven beweren dat mensen die dom zijn op de PvdD stemmen, laten we maar hopen dat niemand dat ons ooit vraagt.

Om de covariantie te berekenen heb je het gemiddelde nodig van beide factoren en de gemeten waardes. Stel dat ik twee keer twee metingen doe, de eerste groep is x1 = 0 en x2 = 20 en de tweede groep is y1 = 5 en y2 = 15. Beide variabelen x en y hebben dan als gemiddelde xg en yg = 10. De covariantie is nu de som van het verschil tussen de metingen van de eerste variabele en hun gemiddelde vermenigvuldigt met het verschil van de metingen van de tweede variabele met hun gemiddelde gedeeld door het aantal metingen. In dit voorbeeld krijg je dan de volgende berekening:
((x1-xg)*(y1-yg)+(x2-xg)*(y2-yg))/n
((0-10)*(5-10)+(20-10)*(15-10))/2 => ((-10*-5)+(10*5))/2 => (50+50)/2 = 50Er is dus een sterke relatie tussen de beide variabelen. Als de eerste variabele stijgt, dan stijgt ook de tweede variabele, als de eerste variabele daalt, daalt ook de tweede. Dat deze relatie er is betekent niet dat de beide variabelen ook direct aan elkaar gekoppeld zijn. Het is heel goed mogelijk dat er een derde factor is die beide variabelen in gelijke mate beïnvloedt.

Correlatie

De correlatie tussen twee variabelen is een maat voor de samenhang tussen twee factoren, die aangeeft of ze een relatie hebben en in welke richting die relatie beweegt. Een belangrijk punt bij correlatie is wel dat de beide variabelen een lineaire ontwikkeling moeten kennen. Zo is lichaamslengte bijvoorbeeld een variabele met een lineaire ontwikkeling. Het is bijvoorbeeld niet zo dat lichaamslengte kwadratisch of exponentieel toeneemt met de hoeveelheid voeding die je eet, iets wat bijvoorbeeld wel geldt voor uitzetting door temperatuur. Verder hangt iemands lichaamslengte positief samen met zijn gewicht. Ook gewicht is niet een variabele die exponentieel toeneemt met hoeveel je eet of beweegt, maar een lineaire ontwikkeling kent. We weten dan ook allemaal dat lichaamslengte en gewicht een positieve relatie kennen, ook al is die niet één op één. Zo weten we bijvoorbeeld ook allemaal dat inkomen en gezondheid een positieve relatie kennen.

De waarde van de correlatie maat ligt dan ook tussen min één (-1) en plus één (1). Waarbij -1 aangeeft dat de ene variabele stijgt als de andere daalt, nul (0) aangeeft dat er geen relatie is en +1 aangeeft dat beide variabele even sterk stijgen. Dat kan betekenen dat variabele 1 een directe invloed heeft op variabele 2, maar de invloed kan ook andersom liggen. Uit de correlatie is die invloed niet te halen. Er is alleen duidelijk dat er een relatie is. Dat kan zelfs betekenen dat er een derde factor is die de relatie veroorzaakt. Zo bepalen gezonde voeding en een hygiënische leefomgeving bijvoorbeeld samen met iemands genetische biologie hoe lang en zwaar hij kan worden.

Om de correlatie te berekenen kun je voor rationele en intervalschalen gebruik maken van Pearsons correlatiecoëfficiënt. Die coëfficiënt krijg je door de covariantie van de twee variabelen te nemen en te delen door het product van de standaard deviatie van de twee variabelen. Dus:
CorrelatieX,Y = CovariantieX,Y/(standaard deviatie X maal standaard deviatie Y)
Uit de paragraaf over Covariantie hadden we voor twee sets van factoren met de waardes X1 = 0 en X2 = 20 en Y1 = 5 en Y2 = 15 bepaald dat de covariantie 50 was. De standaard deviatie is de wortel uit de variantie. Voor de variabele X betekent dat de variantie gelijk is aan:
(20-10)2+(0-10)2/2 = 100Wat leidt tot de standaard deviatie van 10, namelijk de wortel uit 100.
Voor Y is de variantie gelijk aan:
(15-10)2+(5-10)2/2 = 25
Waardoor de standaard deviatie uitkomt op 5.
De correlatie voor X en Y komt nu uit op:
Cov X,Y / (st.dev.X)*(st.dev.Y) => 50 / 10*5 => 50/50 = 1.
Er is dus een directe positieve relatie tussen variabele X en Y van 1, iets wat we overigens al wisten omdat de covariantie 50 bedroeg. Het verschil tussen de covariantie en de correlatie is echter, dat de correlatie een vrije maat is. Waar de covariantie bepaald wordt door de meetwaarden van wat men meet, bijvoorbeeld centimeters en kilogrammen, daar is de correlatie gewoon een waarde tussen -1 en 1. Stel dat de waardes van X in dit voorbeeld slaan op kilogrammen, dus X1 = 0 Kg en X2 = 20 Kg en de waardes van Y gaan over centimeters, dus Y1 = 5 cm en Y2 = 15 cm, dan heeft de covariantie de eenheid Kg*cm. De correlatie staat echter los van de kilogrammen en centimeters eenheden, omdat de covariantie gedeeld wordt door het product van de standaard deviatie van X en Y, waardoor je Kg*cm deelt op Kg*cm en de eenheid dus wegvalt.

Het voordeel van dit eenheidsloos vergelijken zorgt er voor dat je de correlatie in veel verschillende situaties kunt gebruiken. Niet alleen in natuurkundige metingen, maar ook bijvoorbeeld in biologische, medische en sociale onderzoeken. Waarbij te allen tijde de beperking blijft gelden dat de onderzoeker zijn hoofd er bij moet houden, want ook al lijkt er een correlatie te bestaan, dan wil dat nog niet zeggen dat die correlatie echt is. Zo kun je met even wat uit proberen altijd wel een correlatie vinden. Bijvoorbeeld tussen de hoogte van het water in de Rijn en de winst van het Nederlandse voetbal elftal op wereldkampioenschappen. Daarmee is niet gezegd dat de hoogte of de winst een directe relatie hebben.

Uiteindelijk blijft altijd gelden dat de correlatie en covariantie hulpmiddelen zijn om te ontdekken of er een relatie is, niet dat er een relatie is. Je zult dus altijd nog secundaire bewijzen moeten meenemen om de relaties die de covariantie en correlatie laten zien aan te tonen.