De afgelopen decennia hebben de vakgebieden statistiek, statistisch leren en machine learning een groot aantal nieuwe technieken uitgevonden voor het modelleren van Y = f(X)-relaties, waaronder ‘regression trees’, ‘random forests’, ‘support-vector machines’ and ‘neural networks’. In essentie leggen al dit soort modellen relaties vast in wiskundige vergelijkingen die vergelijkbaar zijn met een lineair regressiemodel Y = c0 + c1X + e. Vergeleken met traditionele statistische modellen heeft machine learning echter de neiging te werken met zeer complexe modellen die vele malen meer variabelen bevatten, waardoor ze complexe en niet-lineaire relaties kunnen vastleggen. Er is geen scherpe grens tussen statistiek en machinaal leren, en veel onderzoekers werken gemakkelijk in beide disciplines. Dat gezegd hebbende, hebben beide gemeenschappen de neiging zich bij het modelleren op verschillende doelen te concentreren, die als volgt kunnen worden gekarakteriseerd.
Ten eerste richt machine learning (en in het bijzonder ‘supervised learning’) zich op voorspellende modellen, terwijl conventionele statistiek zich vaak richt op verklarende (dat wil zeggen causale) modellen. De typische machine learning benadering van bijvoorbeeld onderhoud (maintenance) is bijvoorbeeld het bouwen van een algoritme dat voorspelt wanneer er waarschijnlijk een storing zal optreden op basis van gegevens over trillingspatronen of de concentratie van ijzerdeeltjes in de smering. Trillingspatronen en ijzerdeeltjes zijn goede voorspellers voor een storing, maar veroorzaken deze niet. Door te voorspellen wanneer er een storing optreedt, kan het onderdeel tijdig worden vervangen. Conventionele statistiek daarentegen richt zich van oudsher meer op het identificeren van de oorzaak van de storing, dat wil zeggen op het bouwen van een model dat verklaart waarom een storing optreedt, in plaats van alleen maar te voorspellen wanneer deze zich zal voordoen. Dergelijke verklaringsmodellen zijn nuttiger als het de bedoeling is het defectmechanisme te begrijpen, om zo componenten te kunnen herontwerpen zodat deze sterker wordt.
Ten tweede zijn machine learning-modellen vaak erg complex (dat wil zeggen: ze bevatten heel veel variabelen). Het voordeel is dat dergelijke complexe modellen zeer complexe en niet-lineaire relaties kunnen vastleggen, waardoor toepassingen zoals beeldherkenning en natuurlijke taalverwerking mogelijk zijn. Een nadeel zijn de grote datasets en de enorme rekencapaciteit die nodig is om dergelijke modellen te creëren, maar dit is steeds minder een probleem aangezien de kosten van reken- en gegevensopslagcapaciteit steeds lager worden. Een ernstiger gevolg van de complexiteit van machine learning-modellen is dat ze moeilijk te interpreteren zijn. Voor veel toepassingen is een dergelijke black-box-voorspellingsmachine onbevredigend, bijvoorbeeld wanneer voorspellende algoritmen worden gebruikt om potentiële klanten af te wijzen of te accepteren. Bij dergelijke toepassingen is een ronduit ‘computer zegt nee’ onaanvaardbaar, omdat cliënten vaak recht hebben op een uitleg of rechtvaardiging van de afwijzing. Interpreteerbare AI (explainable AI) is een deelgebied van machine learning dat benaderingen probeert te bedenken die de voorspellingen van complexe algoritmen interpreteerbaar maken. Conventionele statistiek daarentegen richt zich op modellen die niet louter goede voorspellende instrumenten zijn, maar die idealiter de ware mechanismen weergeven die kunnen worden begrepen vanuit de domeintheorie. Als gevolg hiervan heeft de statistiek zich minder op voorspellende kracht gericht, en meer op het testen of effecten reëel zijn, en is statistici van oudsher geleerd om te zoeken naar eenvoudigere in plaats van naar complexere modellen.
Verder lezen?
Wil je graag meer informatie over processen verbeteren en Lean Six Sigma, bekijk onze tekstboeken, een van onze case studies over de implementatie van de Lean Six Sigma methode, of onze onderzoeksartikelen over de effectiviteit van Lean Six Sigma.