Time-Series Classificatie doormiddel van shapelets (1)

Big data kent veel verschillende types van data dat eronder wordt geschaard. Een van de bekendste en daarnaast ook meest beschikbare is sensordata. Sensordata worden vaak opgeslagen in een timeserie; Dat zijn datacollecties van reeksen geïndexeerd met de tijd als parameter.

Het lastige aan het interpreteren van deze datareeksen is het abstracte karakter van interne data. Vaak heeft de Data-Scientist geen diepe domeinkennis over wat realistische meetwaardes binnen deze datareeksen zouden kunnen zijn. Ook de vaak complexe afhankelijkheid tussen verschillende sensoren is lastig te duiden. Hier komt bij dat meer dan 70% van deze timeseries attributen met verschillende meetsnelheden (hertz) kent. Kortom dit type data kent zeker bij hoge meetfrequenties grote datasets wat tevens lastig werkelijk te interpreteren zijn zonder complexe methodes toe te passen. Time-Series Classificatie (TSC) is dan ook een compleet eigen domein binnen het datascience veld met zijn eigen classificatie algoritmes.

Een van de grootste uitdagingen hierin is hoe te meten wat de gelijkheid tussen verschillende timeseries afkomstig van dezelfde en/of meerdere gelijkende systemen. Een manier om hiermee om te gaan is gebruik te maken van shapelets; lokale fase-afhankelijke gelijkheid van een tijdsdomein binnen de timeserie. Shapelet gebaseerde classificatie maakt gebruik van de gelijkheid tussen shapelet en serie als een onderscheidende eigenschap. Een voordeel van deze aanpak is dat een shapelet kan worden geïnterpreteerd en meer inzicht kan verschaffen over het domein.

Een klassiek shapelet gebaseerde oplossingen maakt gebruik van beslisbomen om automatisch de verschillende shapelets in de timeseries te onderscheiden. Het maakt gebruik van de informatieverrijking over de aanpassingen (generaties) van deze beslisbomen om de kwaliteit van de mogelijke shapelet kandidaten te onderscheiden. Het onderscheidt dit door over elke generatie voor elke beslismoment in de beslisboom een nieuwe waarde/gewicht toe te kennen gebruikmakend van de opsomming (enumeratief zoeken) van de uitkomst van de eerdere generatie beslisboom. Het nadeel van deze klassieke methodes is de tijd benodigd om tot een perfecte fit van de aantal shapelets binnen de timeseries te komen (exhaustief zoeken). Tot nu toe wordt dit opgelost door binnen het algoritme het uiteindelijke aantal shapelets door schatting van de gebruiker hard te definiëren. Dit is geen ideale methodiek omdat het optimaliseert naar het aantal shapelets, terwijl het zou moeten optimaliseren naar het maximaal mogelijke onderscheidende karakteristieken. Hierdoor zullen altijd een aantal karakteristieken gecombineerd worden (te weinig shapelets gedefinieerd) of karakteristieken worden opgebroken (te veel shapelets gedefinieerd).

Afgeleide shapelet gebaseerde oplossingen zoals door ons ontwikkeld voor een van onze klanten maakt gebruik van een grondwaarheid over primitieve shapelets (shapelets waarin kleinere shapelets zijn op te delen) om het probleem van klassieke shapelet gebaseerde oplossingen te overkomen. Onze oplossing maakt gebruik van deze shapelet primitief om meerdere modellen te maken in plaats van een universeel model waarin alle shapelets gerepresenteerd zouden kunnen worden. We maken hierbij gebruik van een ‘enkel’ leesmoment over de dataset om de belangrijkste karakteristieken te onderscheiden. Voor elk van deze karakteristieken wordt een nieuwe timeseries gemaakt waarvoor achtereenvolgens een eigen model wordt gemaakt. Deze modellen specialiseren in het verschil tussen de originele timeserie en het gevonden primitieve shapelet. Het belangrijkste voordeel hiervan is de modulaire opbouw waarin een enkel model als een bouwblok kan worden beschouwd. Deze blokopbouw zorgt ervoor dat elk primitieve shapelet een eigen waarde kan hebben binnen het domein. Tevens kunnen primitieve shapelets welke geen probleem beschrijven uit de uiteindelijke oplossing worden gehaald Ook kan de oplossing later worden verrijkt met nieuwe primitieve shapelets komende van opvolgende timeseries welke bij de initialisatie van het project nog niet voorhanden waren.

In opvolgende blog zullen we ingaan hoe onze oplossing gebruikt kan worden om doormiddel van een eventslog waarde toe te kennen aan een classificatie.

Meer artikelen

OCS Academy in het teken van Scrum Awareness

OCS Academy in het teken van Scrum Awareness

De OCS Academy is een repeterend jaarprogramma gericht op de startende consultant. Die leert van een ervaren rot in het vak, die zijn kennis en ervaring op een specifiek onderwerp met zijn jongere collega’s deelt. Dit keer stond de OCS Academy in het teken van Scrum...

OCS Family Event in de Efteling

OCS Family Event in de Efteling

Bij Open Circle Solutions weten we dat er meer is dan alleen werk... Nee, serieus: onderling contact buiten werkuren ís erg belangrijk voor onze cultuur en samenwerking. Niet voor niets organiseren we meerdere events per jaar waar onze medewerkers elkaar treffen in...

Nieuwsbrief

Meld je nu aan voor Open Circle Stories en krijg een verzameling artikelen, tips, nieuws en verdiepingen in je mailbox.

Pin It on Pinterest

Share This