Na wat gepuzzel heb ik een formule gevonden waarmee ik het aantal stemmen per liedje van de Top 2000 probeer te benaderen.
Omdat Radio 2 de stemaantallen helaas niet openbaar maakt, kan ik de nauwkeurigheid van deze formule helaas niet optimaal testen.
Desondanks denk ik dat deze benadering wel gebruikt kan worden om het stemgedrag te analyseren en dat levert een aantal leuke dingen op.
Zie ook het model voor de Top 2000 van 2015
Methode
In een eerder artikel gaf ik aan dat de uitgebrachte stemmen op de liedjes in de Top 2000 hoogstwaarschijnlijk volgens een Zipf verdeling geordend zijn. Verder stond ooit in een FAQ van radio 2 dat: In de Top 2000 van 2006 had de nummer 1 meer dan 10.000 stemmen. De nummer 2000 had er meer dan 150. Ook is te vinden dat de Top 2000 van 2006 1.500.000 stemmen had gekregen.
Met deze waarden heb ik een formule gevonden voor een Zipf-achtige verdeling van de stemmen van de lijst van 2006:
A /(1+((N-1)/30))
Waarbij geldt dat:
- A = aantal stemmen op #1
- N = positie van liedje
- De constante 30 is gevonden door het stemverschil van #1 en #2000 te delen door het aantal posities: (10000 / 150) / 2000 = 1/30
Door het proefondervindelijk verhogen van A kon ik de som van alle stemmen verhogen van 1.500.000 tot ongeveer 3.800.000: het aantal stemmen van de lijst van 2014.
Verdeling van het aantal stemmen per positie
De verdeling van de stemmen voor de Top 2000 ziet er dan zo uit:
Zoals gebruikelijk voor een Zipf-achtige verdeling is goed te zien dat slechts een klein deel van alle liedjes vrij veel stemmen heeft gekregen en dat dit aantal erg snel afloopt. Merk ook op dat deze verdeling voorbij positie 2000 nog ver doorloopt (in deze grafiek heb ik deze afgekapt bij plaats 3000).
Aangezien de stemverschillen in de top 10 / top 20 het grootste zijn en bij zipfverdelingen hier wel vaker afwijkingen voorkomen, acht ik de stemmenverdeling in de top van dit model het minst betrouwbaar. Zo moet bijvoorbeeld bij een perfecte zipf-achtige verdeling het verschil tussen de nummer 1 en 2 aanzienlijk zijn, maar dankzij een eerder bericht weet ik dat Hotel California en Bohemian Rhapsody bijna evenveel punten hebben gekregen. Afgezien van deze onzuiverheden in de top zou dit model de werkelijkheid toch moeten kunnen benaderen.
Verdeling vanaf positie 100
Om iets meer detail te kunnen zien, heb ik de bovenstaande grafiek ingekort voor de plaatsen 100-2000:
Hiermee kun je bijvoorbeeld aflezen dat Angel of Death van Slayer (plaats 210) ongeveer 3140 stemmen heeft gekregen (volgens dit model).
Resultaten van deze analyse
- Ongeveer 15% van de stemmen valt op liedjes die de Top 2000 niet gehaald hebben.
- Het midden van alle stemmen ligt rond plaats 345: de liedjes in de top 345 hebben ongeveer de helft van de stemmen gekregen.
- In 2006 had de nummer 1 ongeveer 10000 stemmen en de nummer 2000 ongeveer 150. Nu, met 3.8 miljoen stemmen moet dit respectievelijk ongeveer 25000 en 370 zijn. De FAQ van Radio 2 geeft (afgezien van het vage ‘meer dan’) nog steeds aan dat deze aantallen 10000 en 150 zijn, maar met een toename van 1.500.000 naar 3.800.000 stemmen lijken me deze verdelingscijfers behoorlijk achterhaald.
Top 25 acts met de meeste stemmen
Met deze benadering van stemaantallen per liedje is ook te zien welke artiesten de meeste stemmen hebben gekregen:
Artiest | Stemmen | Aantal liedjes | Stemmen per liedje |
---|---|---|---|
Queen | 86529 | 24 | 3605 |
Pink Floyd | 83394 | 11 | 7581 |
Coldplay | 75432 | 19 | 3970 |
The Beatles | 70402 | 41 | 1717 |
U2 | 69220 | 21 | 3296 |
The Rolling Stones | 61733 | 30 | 2058 |
Dire Straits | 58505 | 13 | 4500 |
Eagles | 47326 | 10 | 4733 |
Metallica | 44085 | 5 | 8817 |
Bruce Springsteen | 42208 | 20 | 2110 |
Adele | 41796 | 8 | 5225 |
Pearl Jam | 40582 | 5 | 8116 |
Boudewijn de Groot | 36026 | 11 | 3275 |
Racoon | 35820 | 11 | 3256 |
Led Zeppelin | 34934 | 4 | 8734 |
Billy Joel | 34409 | 9 | 3823 |
Fleetwood Mac | 33766 | 18 | 1876 |
Guns N’ Roses | 33189 | 5 | 6638 |
AC/DC | 32462 | 3 | 10821 |
Michael Jackson | 30745 | 22 | 1398 |
Deep Purple | 29634 | 4 | 7409 |
ABBA | 29193 | 21 | 1390 |
Simon & Garfunkel | 28493 | 8 | 3562 |
David Bowie | 27279 | 15 | 1819 |
Golden Earring | 25994 | 10 | 2599 |
N.B. Dit gemiddelde per liedje is gebaseerd op de gegevens van de liedjes die de Top 2000 wel gehaald hebben en vertegenwoordigen ~85% van alle stemmen.
Het is opvallend dat de Beatles, dat volgens mij elk jaar de meest genoteerde act is geweest, hier niet in de Top 3 staat. Ook is goed te zien dat de liedjes van Pink Floyd, Metallica, AC/DC, GNR, Deep Purple en Led Zeppelin een vrij hoog gemiddeld aantal stemmen hebben gekregen. Opvallend genoeg zijn dit allemaal (hard)rockgroepen.
Artiesten met het hoogste gemiddeld aantal stemmen per liedje
Wanneer je de artiesten sorteert op het gemiddeld aantal stemmen per liedje, dan ziet de top 10 er zo uit:
Artiest | Stemmen | Aantal liedjes | Stemmen per liedje |
---|---|---|---|
Claudia De Breij | 15625 | 1 | 15625 |
Pharrel Williams | 13889 | 1 | 13889 |
Wim Sonneveld | 11029 | 1 | 11029 |
AC/DC | 32462 | 3 | 10821 |
Metallica | 44085 | 5 | 8817 |
Led Zeppelin | 34934 | 4 | 8734 |
Klein Orkest | 8427 | 1 | 8427 |
Pearl Jam | 40582 | 5 | 8116 |
Pink Floyd | 83394 | 11 | 7581 |
Deep Purple | 29634 | 4 | 7409 |
Verdeling stemmen per jaar
Verder heb ik nog gekeken naar de verdeling van het aantal stemmen per jaar:
Voor een compactere weergave heb ik 3 liedjes van voor 1956 buiten beschouwing gelaten.
Deze verdeling lijkt grofweg over een te komen met de verdeling van liedjes per jaar in de Top 2000. Het is wel opvallend dat deze grafiek meer pieken en dalen laat zien.
Gemiddeld aantal stemmen per liedje per jaar
Tot slot heb ik ook nog het gemiddeld aantal stemmen per liedje per jaar in een grafiek gezet:
Voor een compactere weergave heb ik 3 liedjes van voor 1956 buiten beschouwing gelaten.
Disclaimer
De bovenstaande resultaten zijn gebaseerd op een model waarmee ik de verdeling van de stemmen op de liedjes in de Top 2000 probeer te benaderen. De daadwerkelijke verdeling kan hier natuurlijk van afwijken. Ik vind het daarom erg jammer dat Radio 2 de daadwerkelijke stemaantallen niet openbaar maakt. Het zou de inzage in deze lijst en daarmee een belangrijk deel van de muziekbeleving in Nederland ten goede komen.
Update 29 dec 2015: Zie ook de aanpassing hiervan voor de Top 2000 van 2015.
prachtig hoe je dit hebt uitgezocht. Zolang R2 geen openheid geeft en (kennelijk) bewust schimmig doet, lijken je conclusies vrij aannemelijk. Al denk ik dat mn dat de top 3 een hele extreme uitschieter geeft en dat het ergens in de top 10 al redelijk afvlakt. Zeker gezien het gemaakte spel om de nr 1 tussen de Bo Rap & Hotel .
🙂
Het blijft gissen hoe de stemmen in de top zich verdeeld hebben. Misschien is het wel leuk dit te vergelijken met de index-cijfers (% in laatste kolom) die te zien zijn in de Dutch Charts lijsten. De percentages geven de verhouding tot de nummer 1 aan.
Hierbij ligt de top 3 soms dicht bij elkaar, en soms steekt de nummer 1 er ver boven uit. En zoals je zegt, in de top 10 zie je al vrij snel een afvlakking waarbij de waarden erg dichtbij elkaar liggen.
Eerder vanavond vertelde Hans Schiffers dat de Top10 van de Top2000 – editie 2014, ongeveer even veel stemmen heeft als de onderste 500 nummers bij elkaar. Wie weet helpt deze info je om de berekeningen nog nauwkeuriger te maken.
Dank voor deze nuttige informatie. 😈
Dit lijkt overeen te komen met het bovenstaande model omdat ook hier het verschil tussen die twee genoemde groepen erg klein is. De Top 10 heeft 218917 stemmen en de liedjes 1501 tm 2000 hebben er 212136: een verschil van slechts 6781 stemmen.
De echte vraag in deze is natuurlijk tot in hoeverre het mogelijk is nummers geautomatiseerd de lijst in te stemmen. Een nummers ergens in de 1900’s laten belanden zou te doen moeten zijn, maar het valt me nog heel erg mee hoeveel stemmen nummers uit bijvoorbeeld de 200’s hebben.
Beste Peter,
Bedankt voor je formule en berekeningen maar de allergrootste vraag blijft natuurlijk hoeveel stemmen iedereen liedje heeft gekregen. Zolang Radio 2 dit niet communiceert blijft er in mijn ogen een zweem van gesjoemel rond de lijst bestaan.
Imagine (mooi nummer hoor) staat m.i. niet toevallig o nummer 1. Natuurlijk het is een hot item met al die aanslagen en dat is vreselijk, maar ik geloof hier echt dat er geplugd (was dat geen beroep in de radio wereld?!) is.
Groet Gertie
Hoi Gertie.
Hoewel ik het ook erg jammer vind, kan ik me wel voorstellen dat Radio 2 de aantallen stemmen niet communiceert. Het beperkt de inzage in het aantal benodigde stemmen om een liedje in de lijst te krijgen, bijvoorbeeld bij lobby acties. Daarnaast geeft het Radio 2 ook meer vrijheid om de invloed van bepaalde lobby acties te beperken.
Zo kan ik me niet voorstellen dat het liedje van de Pokemon actie (Gotta Catch ‘Em All) slechts op plaats 1666 terecht is gekomen. Ik schat dat er hiervoor 500 tot 800 stemmen op dit liedje zijn meegeteld. Dit valt in het niet bij de meer dan 58.000 likes die de bijbehorende Facebook pagina heeft gekregen.
En ook bij Imagine is er volgens mij sprake van een vorm van lobby-en (of noem het pluggen). Imagine sluit natuurlijk goed aan bij de tijd en levert weer mooie Top 2000 persberichten op, maar deze beïnvloeding gaat helaas wel ten koste van de objectiviteit van deze lijst. Idealiter dient elke stemmer volledig onafhankelijk zijn/haar stemmen uit te brengen.
Grappig gedaan.
Maar radio 2 is een publiekszender; kunnen wij als luisteraars dan geen openheid van zaken afdwingen? Ik snap niet waarom zoiets als dit geheim moet blijven. Tenzij ze manipuleren…….
Iets te verbergen hebben dus.
Radio 2 was ook niet blij met de oproep toentertijd om ‘de avond ‘op nr 1 te krijgen…….
Ik dacht dat dat laatste juist gestimuleerd werd door Radio 2. Op Wikipedia staat:
In 2005 kwam het lied [Avond], na een oproep van Radio 2-diskjockeys om eens te stemmen op een ander nummer dan het tot dan toe heersende Bohemian Rhapsody van Queen, terecht op nummer 1
Goedenavond Peter,
Ik zie het niet anders dan dat het clubje oudgedienden in en rond het Hilversumse het wel erg prettig vindt om het zo te laten. Ik erger me al jaren aan de Pink Floyd’s in de top van de lijst. Het niet openbaar maken van de cijfers is een duidelijk teken dat er gemanipuleerd wordt en maakt mij boos. De muziek gaat voor dus boycot ik het niet maar die gasten moeten beseffen dat ze dit niet vol kunnen blijven houden.
Hallo Peter,
ik was dus ook op zoen naar het aantal stemmen per liedje en vind het jammer dat je er niet achter kunt komen. Leuk dat je het op deze manier probeert te benaderen. Net als Arnoud erger ook ik me kapot aan een aantal nummers die volgens mij niet in de top 100 horen te staan, met name Bohemian Rhapsody )Ik ken werkelijk niemand die dit het mooiste nummer ooit vindt) .
maar ik verwacht dat NPO2 dit nooit openbaar gaat maken juist om de strijd zo te houden
Hoi Peter,
Bedankt voor het uitzoekwerk ik vroeg het me al een tijdje af…
Ik begrijp wel dat R2 de exacte telling niet openbaar maakt, het voegt ook niet zoveel toe, het is zoals je zelf al zegt ook mogelijk op deze manier ongewenste beinvloeding te voorkomen.
Al zijn daar ook andere manieren voor zoals max 1 nummer van dezelfde artiest (en wel verplicht de lijst invullen) en minimaal 1 jaar oud bv.
Blijft dat ik zoals velen de mix erg kunnen waarderen.
Nogmaals bedankt voor je uiteenzetting!
R2 is sowieso erg bang dat anderen in hun keuken kijken. Als je reageert op hun platform dan worden die berichten met links naar andere sites (bv over de Top2000) gefilterd en geweigerd. Zo kon ik top2000 liefhebbers niet tippen over http://www.tiptop2000.nl/blog.
Ik begrijp dat er wordt gefilterd op grof taalgebruik ed. maar hoe NPO2 met de top2000 om gaat strookt niet met het feit dat de programma’s van de publieke omroep uit belastingopbrengsten worden betaald. Kortom alle informatie over de top2000 zou van ons allemaal moeten zijn. Dus zeker ook hoeveel stemmen uitgebracht zijn op elke notering.
Aan het eind van de maand weer stemmen, vaak probeer ik op hey bulldog van de beatles te stemmen, maar die staat dan niet in de standaard lijst, nog zo’n schimmige kwestie, wie bepaald de lijst van nummers waarop gestemd kan worden.
Dank voor die linktip. Wat een geweldige site met grafieken over de Top 2000. 😈
Leuk model. Ik vraag me ook af wat het dynamisch effekt is van het overlijden van een artiest is. Je ziet vaak een flinke piek in de top 2000 van het overlijdensjaar. Een jaar later is de score al flink minder. Is dat wellicht te modelleren met een exponentiele funktie?
Ik denk dat effect heel moeilijk te meten is, omdat er volgens mij erg veel factoren hierbij een rol spelen, o.a.:
-tijd overlijden voor aanvang van stemweek (januari of eind november?)
-populariteit voor het overlijden
-aantal liedjes (& posities) reeds aanwezig in T2000
-kanaliseert deze populariteit zich in 1 of meerdere liedjes?
-media aandacht mbt overlijden
-etc.
Als de T2000 een wekelijkse lijst was, dan zou het effect eenvoudiger te meten zijn 🙂
Hoi Peter,
Dank voor deze mooie blog! Ik heb jouw stemdistributie gebruikt om een model te ontwikkelen van wat je kan verwachten aan extra stemmen naar overlijden, die rekening houdt met een aantal van de aspecten die jij noemt en nog een paar extra: https://sjoerdcornelissen.com/2021/03/02/the-effect-of-passing-away-on-top-2000-ranking/, wellicht vind je dat interessant om te lezen!
Dat had niet gekund zonder de schatting van de stemverdeling, dus nogmaals dank daarvoor!
Groet,
Sjoerd
Dag Sjoerd,
Dank voor je reactie.
Wat leuk dat je dat hebt onderzocht, en dat je daarvoor mijn model kon gebruiken. Leuk!
Je vondsten kunnen bijvoorbeeld duidelijker maken waarom bijvoorbeeld in 2009 Ramses 3x in de Top 10 terecht kwam.
In je indrukwekkende artikel lees ik dat het post-overlijden effect mbt tot stemmen in de Top 2000 met 60% is toegenomen sinds 2000. Om hoeveel overleden individuele artiesten gaat het hier eigenlijk?
En misschien nog een leuk idee voor een vervolg onderzoek:
In je artikel beschrijf je de boost n.a.l.v. het overlijden van een artiest. Is het een idee ook eens te kijken naar het post-effect van die boost? Hoeveel is daar bijvoorbeeld 1,2 en 3 jaar later nog van over? Kun je bijvoorbeeld spreken van een vervaltijd formule (zoals bij radioactieve elementen)?
Ha Peter,
* Ja, inderdaad! IIk heb het nog even nagezocht, en bij Ramses Shaffy speelt (volgens het model) met name heel sterk mee dat hij midden in de stemweek overlijdt, op 1 december wanneer op 4 december de stemussen sluiten, wat 2.5x zo sterke boost oplevert t.o.v. 2 weken later overlijden, net na de stemperiode. Daarbovenop was hij daarvoor ook al populair (nog eens 1.7 x zo veel stemmen); dat samen verklaart waarom hij inderdaad zo ontzetten sterk steeg.
* Het gaat om 63 individuele artiesten die zijn overleden die het jaar ervoor ten minste één nummer in de Top 2000 hadden. Niet heel veel, maar voor dit type model voldoende om het effect te schatten. De onzekerheidsmarge is +/- 20%
* Heel interessant vervolgonderzoek! De data is in principe beschikbaar, dus wellicht eens kijken wanneer ik daar tijd voor kan vinden. Zal nog wel ingewikkeld zijn, omdat ik verwacht dat het naast voornoemde effecten ook weer afhangt van wanneer je bent overleden: als de boost heel groot was omdat je net was overleden tijdens de stemperiode (zoals Ramses Shaffy) verwacht ik een groter verval dan als je recentheidsboost veel miner had. Er blijft nog genoeg te onderzoeken 🙂
Dag Sjoerd. Dank voor die aanvullingen 🙂
Volgens het leuke boek De Muziek Zegt Alles uit 2011 hebben de liedjes in de Top 2000 een gemiddelde positiedaling van 12 per jaar. Deze factor zal het meten van het post-boost effect wellicht complexer maken.
Beste Peter,
Hoe kom je aan het percentage stemmen dat buiten de lijst valt? Volgens mij kun je niet met de functie bepalen op hoeveel verschillende nummers gestemd is. Uit eigen verzamelde stemlijsten (809) op Facebook vorig jaar (2021) blijkt dat het percentage stemmen buiten de lijst zo’n 24% is.
MVG,
Eddie Simons
Dag Eddie,
Ik weet inderdaad niet op hoeveel verschillende nummers is gestemd, maar ik weet wel het totaal uitgebrachte stemmen (hierboven in 2014 was dat 3.800.000).
Met het model maakte ik een benadering van het aantal stemmen voor elk van de liedjes in de Top 2000 (positie 1: x aantal stemmen, positie 2: y aantal stemmen etc.).
Het verschil tussen die 3.800.000 en de optelsom van alle stemmen (x+y+…) voor de liedjes 1-2000 is ongeveer 15%.
Het bovenstaande blijft natuurlijk een benadering. Daarnaast lijkt het me goed mogelijk dat er in 2021 op meer liedjes is gestemd dan in 2014 toen ik deze benadering maakte (meer stemmen/stemmers/bredere doelgroep/meer liedjes uitgebracht/vrije keuze etc.), waardoor er meer liedjes (waarop gestemd is) zijn die de Top 2000 niet halen.
Erg leuk te zien dat je met die 809 FB stemlijsten (~28.000 stemmen) de Top 2000 kan benaderen, met zo te zien 170 stemmen voor de #1 en 3 stemmen voor #2000.
Dag Peter,
Maar hierboven zeg je dat je de waarde van A “proefondervindelijk” verhoogt. Ik begrijp dat als je net zolang doorgaat totdat die som van 2000 nummers in de lijst op 3.800.000 stemmen komt. Maar dat aantal is het totaal van alle stemmen, dus hoe weet je dan tot hoever je A moet verhogen?
Wat de Facebooklijst betreft: het gaat om de groep NPO Radio 2 stemlijsten (beheerd door NPO Radio 2 zelf) maar zoals je wellicht gezien hebt, heeft deze lijst nauwelijks enige voorspellende waarde, omdat het een groep is met heel veel metalfans (beslist niet mijn muzieksmaak).
Dag Eddie,
Bij dat proefondervindelijk verhogen heb ik niet gewerkt met de som van de alleen de stemmen op die 2000 liedjes, en ben ik uitgegaan van een ‘long tail’, waarbij de hoeveelheid liedjes waarop gestemd is in theorie tot in het oneindige door zou kunnen gaan (in ieder geval tot er geen stemmen meer op werden uitgebracht).
Met behulp van de bovenstaande formule (die een distributie verhouding tussen de stemmen op de liedjes weergeeft) en de radio 2 FAQ waarden uit 2006 kon ik de som van al deze liedjes (dus niet alleen 1-2000, maar ook de rest (long tail)) gelijkstellen aan het aantal stemmen uit 2006 (1,5 miljoen).
Vervolgens heb ik het aantal stemmen op #1 proefondervindelijk verhoogd (waardoor ook de hoeveeleid stemmen op de overige liedjes proportioneel verhoogd werden, net zolang de totale optelsom van alle liedjes (1-long tail) op 3.800.000 uitkwam; het aantal uitgebrachte stemmen in 2014.
Mbt die Facebook lijst: Ah, dat is spijtig. In theorie zou een representatievere groep tot betere voorspellingen moeten kunnen leiden.
Als ik de getallen van 2006 hanteer (nummer 1 10.000 stemmen, nummer 2000 150 stemmen, totaal 1.5 miljoen stemmen), dan kom ik met de functie met ongeveer 4200 nummers uit op een som van 1,5 miljoen stemmen. Waarbij de functiewaarde van nummer 4200 dan nog wel 72 stemmen is. Heb je dan 4200 nummers gebruikt als uitgangspunt om de waarde A te verhogen? Mijn steekproef van 809 lijstjes komt overigens op ongeveer 6500 nummers uit. Iemand anders in de Facebook groep (Thomas van der Steen) heeft veel meer lijstjes verzameld (1800, ook op Twitter) en komt op ongeveer 11.000 nummers.
Daarnaast denk ik dat er ook een verklaring is waarom jouw percentage stemmen in de lijst hoger is dan mijn steekproef, of de steekproef van Thomas van der Steen. Ik heb een grafiek gemaakt van deze steekproef en een vergelijking met de functiewaarde. (schatting 1). Je ziet dat er tussen nummer 1 en 500 de functie niet goed aansluit bij de werkelijkheid, Dit beeld is overigens precies hetzelfde als ik de steekproef van 2020 van Thomas van der Steen neem. Schatting 2 is overigens een eigen poging met een iets exponentiëlere functie, maar dat geeft ook geen juist verloop.
https://www.esims.nl/weblog/2022/02/benadering_aantal_stemmen_per_.html
Interessante grafiek. Leuk om die verschillende benaderingen te zien, en dat de staart van de Top 2000 hierbij beter overlapt.
Ik ben bij mijn model niet uitgegaan van een totaal aantal liedjes waarop gestemd is. Hoewel interessant, is het volgens mij uberhaupt erg moeilijk dit totaal (6500? 11.000?) te bepalen, zelfs met deze benaderingen.
Visueel gaat dan eigenlijk om de plek in de grafiek waar de curve de lijn y = 1 (1 stem) raakt. Maar een kleine afwijking in de curve bij bijvoorbeeld positie 2000, kan dat raakpunt al behoorlijk verschuiven.