Time-Series Classificatie doormiddel van shapelets (1)

Big data kent veel verschillende types van data dat eronder wordt geschaard. Een van de bekendste en daarnaast ook meest beschikbare is sensordata. Sensordata worden vaak opgeslagen in een timeserie; Dat zijn datacollecties van reeksen geïndexeerd met de tijd als parameter.

Het lastige aan het interpreteren van deze datareeksen is het abstracte karakter van interne data. Vaak heeft de Data-Scientist geen diepe domeinkennis over wat realistische meetwaardes binnen deze datareeksen zouden kunnen zijn. Ook de vaak complexe afhankelijkheid tussen verschillende sensoren is lastig te duiden. Hier komt bij dat meer dan 70% van deze timeseries attributen met verschillende meetsnelheden (hertz) kent. Kortom dit type data kent zeker bij hoge meetfrequenties grote datasets wat tevens lastig werkelijk te interpreteren zijn zonder complexe methodes toe te passen. Time-Series Classificatie (TSC) is dan ook een compleet eigen domein binnen het datascience veld met zijn eigen classificatie algoritmes.

Een van de grootste uitdagingen hierin is hoe te meten wat de gelijkheid tussen verschillende timeseries afkomstig van dezelfde en/of meerdere gelijkende systemen. Een manier om hiermee om te gaan is gebruik te maken van shapelets; lokale fase-afhankelijke gelijkheid van een tijdsdomein binnen de timeserie. Shapelet gebaseerde classificatie maakt gebruik van de gelijkheid tussen shapelet en serie als een onderscheidende eigenschap. Een voordeel van deze aanpak is dat een shapelet kan worden geïnterpreteerd en meer inzicht kan verschaffen over het domein.

Een klassiek shapelet gebaseerde oplossingen maakt gebruik van beslisbomen om automatisch de verschillende shapelets in de timeseries te onderscheiden. Het maakt gebruik van de informatieverrijking over de aanpassingen (generaties) van deze beslisbomen om de kwaliteit van de mogelijke shapelet kandidaten te onderscheiden. Het onderscheidt dit door over elke generatie voor elke beslismoment in de beslisboom een nieuwe waarde/gewicht toe te kennen gebruikmakend van de opsomming (enumeratief zoeken) van de uitkomst van de eerdere generatie beslisboom. Het nadeel van deze klassieke methodes is de tijd benodigd om tot een perfecte fit van de aantal shapelets binnen de timeseries te komen (exhaustief zoeken). Tot nu toe wordt dit opgelost door binnen het algoritme het uiteindelijke aantal shapelets door schatting van de gebruiker hard te definiëren. Dit is geen ideale methodiek omdat het optimaliseert naar het aantal shapelets, terwijl het zou moeten optimaliseren naar het maximaal mogelijke onderscheidende karakteristieken. Hierdoor zullen altijd een aantal karakteristieken gecombineerd worden (te weinig shapelets gedefinieerd) of karakteristieken worden opgebroken (te veel shapelets gedefinieerd).

Afgeleide shapelet gebaseerde oplossingen zoals door ons ontwikkeld voor een van onze klanten maakt gebruik van een grondwaarheid over primitieve shapelets (shapelets waarin kleinere shapelets zijn op te delen) om het probleem van klassieke shapelet gebaseerde oplossingen te overkomen. Onze oplossing maakt gebruik van deze shapelet primitief om meerdere modellen te maken in plaats van een universeel model waarin alle shapelets gerepresenteerd zouden kunnen worden. We maken hierbij gebruik van een ‘enkel’ leesmoment over de dataset om de belangrijkste karakteristieken te onderscheiden. Voor elk van deze karakteristieken wordt een nieuwe timeseries gemaakt waarvoor achtereenvolgens een eigen model wordt gemaakt. Deze modellen specialiseren in het verschil tussen de originele timeserie en het gevonden primitieve shapelet. Het belangrijkste voordeel hiervan is de modulaire opbouw waarin een enkel model als een bouwblok kan worden beschouwd. Deze blokopbouw zorgt ervoor dat elk primitieve shapelet een eigen waarde kan hebben binnen het domein. Tevens kunnen primitieve shapelets welke geen probleem beschrijven uit de uiteindelijke oplossing worden gehaald Ook kan de oplossing later worden verrijkt met nieuwe primitieve shapelets komende van opvolgende timeseries welke bij de initialisatie van het project nog niet voorhanden waren.

In opvolgende blog zullen we ingaan hoe onze oplossing gebruikt kan worden om doormiddel van een eventslog waarde toe te kennen aan een classificatie.

Meer artikelen

Open Circle Solutions wint FD Gazellen 2019

Open Circle Solutions wint FD Gazellen 2019

Trots! Want ook dit jaar is Open Circle Solutions weer door het Financieele Dagblad benoemd tot een van de 770 snelst groeiende bedrijven van Nederland. Op dinsdag 5 november a.s. mogen wij de prestigieuze FD Gazellen Award wederom in ontvangst nemen. De FD Gazellen...

No code, low code of is er een beter alternatief?

No code, low code of is er een beter alternatief?

Volgens onderzoeksbureau Gartner zijn het grote internationale merken zoals OutSystems, Mendix, Microsoft en Salesforce die leidend zijn op het gebied van low code applicatie platformen. Door effectieve marketing, het geven van uitstekende demonstraties en een...

Time-Series Classificatie doormiddel van shapelets  (3)

Time-Series Classificatie doormiddel van shapelets (3)

Zoals te lezen in deel 1 en 2 van onze blog blijken shapelets volgens ons een goede manier te zijn om classificatie op time-series data toe te passen. In deel 2 zijn we dieper ingegaan op de methodes welke je gebruikt om een shapelet classifier te trainen. Het trainen...

Nieuwsbrief

Meld je nu aan voor Open Circle Stories en krijg een verzameling artikelen, tips, nieuws en verdiepingen in je mailbox.

Pin It on Pinterest

Share This