De grootste kennisbank van het HBO

Inspiratie op jouw vakgebied

Vrij toegankelijk

Terug naar zoekresultatenDeel deze publicatie

Machine Learning Datakwaliteit NDW

Machine Learning Datakwaliteit NDW

Samenvatting

Het doel van deze opdracht was het vinden van een Machine Learning oplossing om verkeersdata te valideren. De Machine Learning oplossing moest in staat zijn om:


Technisch foute data in verkeersdata te markeren.


Aan te geven waarom de fouten gemarkeerd zijn als fout.


Fouten vinden die niet door een mens gevonden kunnen worden.


Leren van de nieuw gevonden fouten zodat deze ook gevonden kunnen worden in de toekomst.


 
Het bewijs dat de gevonden ML oplossing werkt, moest komen in de vorm van een proof of concept. Voordat er aan de POC is begonnen, is er onderzoek gedaan. Het onderzoek bevatte literatuuronderzoek om ML methode te vinden om verkeersdata te valideren. Hierna kwam er dataonderzoek. Als laatst werden er prototypes gemaakt van de gevonden ML methoden, om te bewijzen dat deze methoden ook echt werken. Met de informatie uit het onderzoek moest er een POC ontworpen en gebouwd worden.
 
Er zijn uiteindelijk twee methoden gevonden in de literatuur:


STL en toets


Voorspellend model en afstand


 
Van deze methoden zijn ook prototypes gebouwd. Het bleek lastiger dan verwacht om te bewijzen dat deze methoden ook technisch foute data kunnen detecteren. Tijdens de prototyping waren de methodes maar gedeeltelijk geïmplementeerd en getest. Er is ook verkeers domeinkennis nodig om te bepalen of een gedetecteerde fout ook daadwerkelijk een datafout is en niet een verkeerskundige situatie(file, minder verkeer feestdag). De afstudeer kon niet zonder verkeerskennis bepalen of de methoden ook echt technische fouten detecteren.
 
Er is gekozen om het project te focussen op het bewijzen dat de ML methoden correct werken. De uiteindelijke POC was daarom ook een applicatie die helpt met het bewijzen dat de gevonden ML oplossingen werken. Er is gekozen om een dashboard als POC te implementeren. 
 
Een dashboard maakt het ook makkelijk om resultaten te creëren. Hierdoor kan een domeinexpert zelf resultaten creëren met verschillende opties zonder te programmeren. Een dashboard is ook visueel waardoor het duidelijk aantoont hoe de ML methoden werken. Hiernaast kost het maken van een dashboard ook ontwikkel en programmeerwerk, wat weer aansluit bij de HBO-i competenties. 
 
Uiteindelijk is de conclusie van het onderzoek dat de methode voorspellend model en afstand potentie heeft om technisch foute data te detecteren in verkeersdata.
 
De onderwerpen in dit verslag zijn lastig als de lezer niet bekend is in het veld van ML en tijdreeksanalyses. Het bevat veel concepten die niet standaard terugkomen in het HBO-ICT curriculum. Tegelijkertijd is er een limiet aan hoe groot het verslag mag zijn. De balans tussen een uitgebreide uitleg en ruimtegebrek is een uitdaging geweest.

Toon meer
OrganisatieSaxion
OpleidingHBO-ICT
Datum2021-11-01
TypeBachelor
TaalNederlands

Op de HBO Kennisbank vind je publicaties van 26 hogescholen

De grootste kennisbank van het HBO

Inspiratie op jouw vakgebied

Vrij toegankelijk