Auteur Topic: Gezichtsherkenning-algoritme wijst de Mol aan (gelezen 17806 keer)

« **Reactie #60 Gepost op:** 20-02-2021, 22:46:29 »

Rocky weinig in beeld. Goed voor de gezichtsherkenning.

« **Reactie #61 Gepost op:** 20-02-2021, 22:57:37 »

Dit is wel een leuke wending.

(dat was trouwens een citaat van

Spoiler: "rara" (klik om te tonen/verbergen)

)

Citaat van: molecula op 20-02-2021, 22:40:24

voorkennis over wie uiteindelijk de Mol is kan ook onbewust de invoer van bepaalde data beïnvloeden.

Euh, dat is toch ook de bedoeling? Het hele idee van dit soort algoritmes is volgens mij dat je het data voert en het algoritme patronen genereert en dan aan de hand van de data beoordeelt welke patronen juiste voorspellingen doen en welke niet, en zo de parameters bijstelt. Als je het programma niet vertelt wie de mol is, is er geen manier om de data te sturen. Zeker bij een model dat, zoals ik dit moldel begrijp, geen enkele andere aannames doet dan die data. Ik bedoel, alle andere theorieën zijn gebaseerd op een of andere veronderstelling (molpunten bijvoorbeeld, op het idee dat de mol meer dingen doet die forummers verdacht vinden dan de kandidaten).

Overigens, Splinter had 94,8%. Niet 100%. Het idee van 94,8% is dat er een kans van 5,2% is dat het niet klopt. In principe kan dat dus gewoon. In ongeveer 1 op de 20 keer gebeurt de mogelijkheid die 5,2% kans had. Het zou heel raar zijn als dat nooit zou gebeuren, want "nooit" is 0%.

« **Reactie #62 Gepost op:** 20-02-2021, 23:00:13 »

Volges mij gebruikt het model wel objectief de beschikbare informatie bij elk van de afleveringen. Van elk seizoen zijn er ook voorspellingen voor elke aflevering. Niet alleen de finale. (zie github)

Omdat het model er flink naast zat, kunnen we voorzichtig concluderen dat we een atypisch seizoen hebben dit jaar. Er is behoorlijk met vrijstellingen en jokers gestrooid, misschien dat dat nog iets vertroebelt?

« **Reactie #63 Gepost op:** 20-02-2021, 23:13:43 »

Déze aflevering echter, is de enige kandidaat zónder jokers door. Dus in dat geval zou ik zeggen dat at het beeld eerder verheldert dan vertroebelt.

Als, althans, dit model meeneemt (of op een of andere manier afleidt) dat Rocky Renée verdenkt.

« **Reactie #64 Gepost op:** 20-02-2021, 23:29:00 »

Citaat van: Erik Leppen op 20-02-2021, 22:57:37

Euh, dat is toch ook de bedoeling? Het hele idee van dit soort algoritmes is volgens mij dat je het data voert en het algoritme patronen genereert en dan aan de hand van de data beoordeelt welke patronen juiste voorspellingen doen en welke niet, en zo de parameters bijstelt.

Precies. Mijn punt was dat dit model nog nooit een Mol heeft voorspeld, in reactie op een ander commentaar dat het in de finale altijd juist zat. Als voorgaande seizoenen slechts gebruikt zijn om het model te juist af te stellen, dan kan er dus geen enkele betekenis gehecht worden aan die voorspellingen.

Citaat van: Erik Leppen op 20-02-2021, 22:57:37

Overigens, Splinter had 94,8%. Niet 100%. Het idee van 94,8% is dat er een kans van 5,2% is dat het niet klopt. In principe kan dat dus gewoon.

Tuurlijk kan dat, dat is deze aflevering zelfs bewezen. Maar als je wilt voorspellen wie de Mol is en keer op keer valt de kandidaat met de meeste waarschijnlijkheid af, dan heeft dit model vooralsnog toch weinig voorspellende waarde.

« **Reactie #65 Gepost op:** 20-02-2021, 23:30:53 »

Ik heb mijn twijfels bij sommige.. inhoudelijke (dus widm-thematische) keuzes van het moldel.
Echter, methodisch (dus statistisch etc) ziet alles er uitstekend uit.

Dus wat betreft dit punt:

Citaat van: molecula op 20-02-2021, 22:40:24

Als ik het goed begrepen heb, is dit toch het eerste seizoen waarbij er echt voorspeld wordt?

Als in de voorgaande seizoenen het model pas achteraf is toegepast, hecht ik minder waarde aan die voorspellingen. Er zal misschien niet bewust zijn gesjoemeld, maar voorkennis over wie uiteindelijk de Mol is kan ook onbewust de invoer van bepaalde data beïnvloeden.

Het model is per seizoen steeds getraind over alle data minus het betreffende seizoen.
Dus bv de voorspellingen voor seizoen 14 zijn op basis van alle seizoenen behalve 14.
Dat voorkomt overfitting, omdat de testdata niet daadwerkelijk voor de voorspelling wordt gebruikt.

Citaat van: annebeestje op 20-02-2021, 23:00:13

Omdat het model er flink naast zat, kunnen we voorzichtig concluderen dat we een atypisch seizoen hebben dit jaar.

Een mogelijke misslag wijten aan het seizoen ipv het model is niet heel voorzichtig

Ongerelateerde methodische gedachte.

Is het niet wellicht interessant om de kwaliteit vd voorspellingen weer te geven zuiver als de percentages.
Oftewel, als je bv 56% aan iemand geeft in de finale & die persoon de mol is, om dan eveneens te zeggen dat je 56% goed zat (ipv dat je model alles of niets de mol goed had)?
Lijkt me dat je dan beter progressie in opvolgende iteraties kunt achterhalen.
Immers, als je bv 10 mollen op rij goed hebt, dan zegt dat nog niet oeverloos veel als je dat bij een opvolgende iteratie dat wederom scoort.
Maar als je bv overall van 80% in de finale correct aangemerkt naar 82% gaat, dan zie je wel progressie.

« **Reactie #66 Gepost op:** 22-02-2021, 13:55:45 »

Jammer dat Multifacio nog niet heeft gereageerd. Nou ja, sommige reacties waren ook niet heel aardig.

Voorspelling afl. 9:

Renée 67,0% (was 5,0%)
Rocky 17,8% (was 0,0%)
Charlotte 15,2% (was 0,2%)

https://github.com/Multifacio/Moldel

Ben wel benieuwd naar de "Exam Drop Layer Geometric Mean fix" van 2 dagen geleden ...of iemand die uit kan leggen. Waarom is het nodig om tijdens een seizoen het Moldel aan te passen. Het zou toch zelflerend moeten zijn ...ook (of juist) als het er helemaal naast zit?

« **Reactie #67 Gepost op:** 22-02-2021, 14:33:52 »

Citaat van: Amethyst op 22-02-2021, 13:55:45

https://github.com/Multifacio/Moldel

Ben wel benieuwd naar de "Exam Drop Layer Geometric Mean fix" van 2 dagen geleden ...of iemand die uit kan leggen. Waarom is het nodig om tijdens een seizoen het Moldel aan te passen. Het zou toch zelflerend moeten zijn ...ook (of juist) als het er helemaal naast zit?

Niet gehinderd door enige diepgaande kennis van het moldel kan ik wel een poging tot oppervlakkige interpretatie doen: het klinkt alsof er een bugje zat in de manier waarop de exam layer het gewogen gemiddelde van verschillende meetpunten(?) berekende, en dat Multifacio dat gecorrigeerd heeft. Klinkt als een kleine verbetering, maar of het ook significante gevolgen voor de uitkomst van die laag zou kunnen hebben, geen idee.

'Zelflerende' algoritmes zijn niet per se in staat om hun eigen broncode ook aan te passen.

Dus als er een bug in de code van het algoritme zit, moet je die als programmeur toch echt zelf oplossen.

« **Reactie #68 Gepost op:** 22-02-2021, 14:55:01 »

Vertrouwen hebben in modellen is tegenwoordig niet populair, algoritmes zijn al helemaal onbetrouwbaar. Afgaan op vloggers daarentegen. Die kenners zaten al een paar uitzendingen op de goede mol (not). Ik zou zeggen, ga verder met je Moldel, accepteer de kritiek.

Er zitten een aantal lastige afleveringen tussen, seizoen 20 met een opstandige Leonie, seizoen 19 met Nikki die zich bewust af laat schieten in de test. Het jubileum seizoen met een Nikki die al wist wie de mol was, dus geen kandidaats gedrag vertoond.
Als je er van uitgaat dat een kandidaat betrouwbaar is en een mol niet, dan heb je met dit soort figuren een kwaaie.

« **Reactie #69 Gepost op:** 7-03-2021, 10:34:49 »

En wederom klopt deze theorie weer!! Elk jaar zit de mol bij de 3 die het minst in beeld komen de 1e 3 afleveringen

« **Reactie #70 Gepost op:** 7-03-2021, 11:48:56 »

Citaat van: _Malle_Molloot op 20-02-2021, 22:28:23

Het is maar goed dat we nog niet vanaf aflevering 6 precies weten wie de mol is, dat houdt het mollen nog leuk voor ons molloten. Zelf goed opletten en je gevoel volgen is ook belangrijk.

Ik verwacht de komende seizoenen inderdaad zeker nog niet dat het Moldel na vroege afleveringen (tot en met aflevering 5) er al zeker van is wie de Mol is, maar wie weet. Het zelf blijven speuren naar aanwijzingen blijft dus nog belangrijk.

Citaat van: molE13 op 20-02-2021, 22:46:29

Rocky weinig in beeld. Goed voor de gezichtsherkenning.

Nee, Rocky kwam behoorlijk veel in beeld. In aflevering 1 kwam ze 10.8% in beeld van de keren dat een kandidaat in beeld kwam (10.0% is gemiddeld). In aflevering 2 was dit 15.7% (11.1% is gemiddeld). In aflevering 3 was dit 14.6% (12.5% is gemiddeld). In aflevering 4 was dit 20.5% (14.3% is gemiddeld). En in aflevering 5 was dit 18.5% (16.7% is gemiddeld).

Citaat van: molecula op 20-02-2021, 22:40:24

maar voorkennis over wie uiteindelijk de Mol is kan ook onbewust de invoer van bepaalde data beïnvloeden.

Citaat van: Erik Leppen op 20-02-2021, 22:57:37

Euh, dat is toch ook de bedoeling? Het hele idee van dit soort algoritmes is volgens mij dat je het data voert en het algoritme patronen genereert en dan aan de hand van de data beoordeelt welke patronen juiste voorspellingen doen en welke niet, en zo de parameters bijstelt.

Beiden hebben jullie een punt. Je moet enerzijds als een bepaald machine learning model geen goede resultaten biedt voor het verleden een beter machine learning model pakken. Anderzijds is het ook zo dat als je dit blijft doen je uiteindelijk uitkomt bij een model dat altijd werkt voor het verleden, maar niet werkt voor de toekomst. Je moet dus op zeker hoogte een machine learning model pakken dat niet al te sterk is, maar wel sterk genoeg.

Citaat van: hulpdakdekker op 20-02-2021, 23:30:53

Het model is per seizoen steeds getraind over alle data minus het betreffende seizoen.
Dus bv de voorspellingen voor seizoen 14 zijn op basis van alle seizoenen behalve 14.
Dat voorkomt overfitting, omdat de testdata niet daadwerkelijk voor de voorspelling wordt gebruikt.

Dat klopt, het Moldel wordt geëvalueerd over alle seizoenen 9 t/m het Renaissance seizoen en gebruikt daarbij telkens de andere seizoenen als training data. Dus voor het evalueren van seizoen 19 worden de seizoenen 9 t/m 18, 20 en het Renaissance seizoen als trainingsdata gebruikt. Dit voorkomt inderdaad dat er geoverfit wordt, echter is het wel zo dat ik als modelleur mijn machine learning modellen wel aanpas op basis van hoe accuraat het was in het verleden, wat wel overfitting kan veroorzaken.

Citaat van: Erik Leppen op 20-02-2021, 22:57:37

Overigens, Splinter had 94,8%. Niet 100%. Het idee van 94,8% is dat er een kans van 5,2% is dat het niet klopt. In principe kan dat dus gewoon. In ongeveer 1 op de 20 keer gebeurt de mogelijkheid die 5,2% kans had. Het zou heel raar zijn als dat nooit zou gebeuren, want "nooit" is 0%.

Citaat van: Amethyst op 22-02-2021, 13:55:45

Ben wel benieuwd naar de "Exam Drop Layer Geometric Mean fix" van 2 dagen geleden ...of iemand die uit kan leggen. Waarom is het nodig om tijdens een seizoen het Moldel aan te passen. Het zou toch zelflerend moeten zijn ...ook (of juist) als het er helemaal naast zit?

Nee, dat Renée een kans van 5.2% had dat was een fout in het design. De Geometric Mean fix (een kleine fix) heeft dit inderdaad opgelost. De fout zat hem hierin dat in aflevering 3 tijdens de opdracht 'Kamerraad' rond de 4 antwoorden per kandidaat bekend werden. Het Moldel en ik wisten beiden niet hoe hier mee om te gaan, omdat dit zich in eerdere seizoenen nog niet vaak heeft voor gedaan. In het vorige design vermenigvuldigde het Moldel gewoon de kansen van alle testvragen met elkaar wat extremere voorspellingen kan geven. Door het nemen van de Geometric Mean over al die kansen, als er meerdere antwoorden van dezelfde kandidaat in dezelfde test worden getoond, heb je stabielere resultaten.

« **Reactie #71 Gepost op:** 7-03-2021, 11:51:54 »

Citaat van: Jezet op 22-02-2021, 14:55:01

Vertrouwen hebben in modellen is tegenwoordig niet populair, algoritmes zijn al helemaal onbetrouwbaar. Afgaan op vloggers daarentegen. Die kenners zaten al een paar uitzendingen op de goede mol (not). Ik zou zeggen, ga verder met je Moldel, accepteer de kritiek.

Daar sluit ik me bij aan. Als bekende Molloten het fout hebben wie de Mol is dan zien mensen dat door de vingers, terwijl als een algoritme het fout heeft dan wordt daar schande over gesproken. Hetzelfde geldt natuurlijk ook voor zelf-rijdende auto's. Op het moment dat er een zelf-rijdende auto een ongeluk veroorzaakt is dat meteen overal in het nieuws. Dit terwijl niemand wat te zeggen heeft over de velen auto ongelukken die veroorzaakt worden door menselijke bestuurders.

« **Reactie #72 Gepost op:** 7-03-2021, 12:11:06 »

Dat is toch niet zo vreemd? Je ontwikkelt toch machines, apparaten, robots en software om het beter te doen dan mensen? Als ze dezelfde prestaties zouden leveren als mensen, dan zou de ontwikkeling niet lonend zijn.