Ik heb mijn twijfels bij sommige.. inhoudelijke (dus widm-thematische) keuzes van het moldel.
Echter, methodisch (dus statistisch etc) ziet alles er uitstekend uit.
Dus wat betreft dit punt:
Als ik het goed begrepen heb, is dit toch het eerste seizoen waarbij er echt voorspeld wordt?
Als in de voorgaande seizoenen het model pas achteraf is toegepast, hecht ik minder waarde aan die voorspellingen. Er zal misschien niet bewust zijn gesjoemeld, maar voorkennis over wie uiteindelijk de Mol is kan ook onbewust de invoer van bepaalde data beïnvloeden.
Het model is per seizoen steeds getraind over alle data minus het betreffende seizoen.
Dus bv de voorspellingen voor seizoen 14 zijn op basis van alle seizoenen behalve 14.
Dat voorkomt overfitting, omdat de testdata niet daadwerkelijk voor de voorspelling wordt gebruikt.
Omdat het model er flink naast zat, kunnen we voorzichtig concluderen dat we een atypisch seizoen hebben dit jaar.
Een mogelijke misslag wijten aan het seizoen ipv het model is niet heel voorzichtig
Ongerelateerde methodische gedachte.
Is het niet wellicht interessant om de kwaliteit vd voorspellingen weer te geven zuiver als de percentages.
Oftewel, als je bv 56% aan iemand geeft in de finale & die persoon de mol is, om dan eveneens te zeggen dat je 56% goed zat (ipv dat je model alles of niets de mol goed had)?
Lijkt me dat je dan beter progressie in opvolgende iteraties kunt achterhalen.
Immers, als je bv 10 mollen op rij goed hebt, dan zegt dat nog niet oeverloos veel als je dat bij een opvolgende iteratie dat wederom scoort.
Maar als je bv overall van 80% in de finale correct aangemerkt naar 82% gaat, dan zie je wel progressie.