Dataset

Een gegevensverzameling of dataset is een verzameling van gegevens (data), meestal gepresenteerd in tabelvorm. Elke kolom vertegenwoordigt een bepaalde variabele. De dataset representeert dan een verzameling rijen (ook records genoemd), elk voor één object (in de ruime zin van het woord, het kunnen bijvoorbeeld ook personen zijn). Een rij bevat de waarden voor elk van de variabelen, of attributen, voor het betreffende object, bijvoorbeeld lengte en gewicht.

Een verzameling rijen is op zichzelf niet geordend. Een weergave met de rijen in een andere volgorde is dan niet de weergave van een andere dataset. Ordening kan op basis van de waarde van een variabele. De rijen kunnen ook geordend zijn, los van de waarden van de variabelen.

Als de datatabel van de al of niet geordende dataset maar één kolom heeft wordt deze wel vereenzelvigd met de betreffende (respectievelijk niet of wel) geordende multiset (die eventueel een verzameling is).

Een gegevensverzameling niet in tabelvorm kan de vorm hebben van een karakterstring, zoals een XML-bestand.

De term dataset is afkomstig uit de tijd van de mainframes, waar gegevensverzameling een precies omschreven betekenis bij IBM-mainframes had. Deze betekenis wordt hier niet behandeld.

Eigenschappen

[bewerken | brontekst bewerken]

Een gegevensverzameling heeft verscheidene kenmerken die de structuur en eigenschappen bepalen. Daartoe behoren het aantal en het type van de variabelen en de verschillende statistische kengetallen die erop van toepassing zijn, zoals gemiddelde, standaardafwijking, scheefheid.[1]

In het eenvoudigste geval is er slechts één variabele en bestaat de dataset uit een enkele kolom met waarden, vaak voorgesteld als een lijst. In tegenstelling tot wat de naam doet vermoeden, is zo'n univariate dataset geen verzameling in de gewone wiskundige betekenis, aangezien een bepaalde waarde meer keren kan voorkomen. Als de volgorde er niet toe doet, kan de dataset opgevat worden als een multiset in plaats van een (geordende) lijst.

De waarden kunnen getallen zijn, maar ook gegevens van nominaal of ordinaal niveau zijn. Voor elke variabele zullen normaal gesproken de waarden van hetzelfde niveau zijn, al kunnen er wel gegevens ontbreken, wat op een of andere manier dient te worden aangegeven.

In de statistiek zijn datasets gewoonlijk het resultaat van een steekproef en bevat elke rij de waarnemingen aan een element van de populatie. Sommige moderne statistische software, zoals SPSS, gebruikt nog steeds de klassieke vorm van een dataset voor de gegevens.

Klassieke datasets

[bewerken | brontekst bewerken]

Er bestaan in de statistische literatuur enkele klassieke datasets die uitvoerig geanalyseerd zijn:

[bewerken | brontekst bewerken]