Time-Series Classificatie doormiddel van shapelets (1)

Big data kent veel verschillende types van data dat eronder wordt geschaard. Een van de bekendste en daarnaast ook meest beschikbare is sensordata. Sensordata worden vaak opgeslagen in een timeserie; Dat zijn datacollecties van reeksen geïndexeerd met de tijd als parameter.

Het lastige aan het interpreteren van deze datareeksen is het abstracte karakter van interne data. Vaak heeft de Data-Scientist geen diepe domeinkennis over wat realistische meetwaardes binnen deze datareeksen zouden kunnen zijn. Ook de vaak complexe afhankelijkheid tussen verschillende sensoren is lastig te duiden. Hier komt bij dat meer dan 70% van deze timeseries attributen met verschillende meetsnelheden (hertz) kent. Kortom dit type data kent zeker bij hoge meetfrequenties grote datasets wat tevens lastig werkelijk te interpreteren zijn zonder complexe methodes toe te passen. Time-Series Classificatie (TSC) is dan ook een compleet eigen domein binnen het datascience veld met zijn eigen classificatie algoritmes.

Een van de grootste uitdagingen hierin is hoe te meten wat de gelijkheid tussen verschillende timeseries afkomstig van dezelfde en/of meerdere gelijkende systemen. Een manier om hiermee om te gaan is gebruik te maken van shapelets; lokale fase-afhankelijke gelijkheid van een tijdsdomein binnen de timeserie. Shapelet gebaseerde classificatie maakt gebruik van de gelijkheid tussen shapelet en serie als een onderscheidende eigenschap. Een voordeel van deze aanpak is dat een shapelet kan worden geïnterpreteerd en meer inzicht kan verschaffen over het domein.

Een klassiek shapelet gebaseerde oplossingen maakt gebruik van beslisbomen om automatisch de verschillende shapelets in de timeseries te onderscheiden. Het maakt gebruik van de informatieverrijking over de aanpassingen (generaties) van deze beslisbomen om de kwaliteit van de mogelijke shapelet kandidaten te onderscheiden. Het onderscheidt dit door over elke generatie voor elke beslismoment in de beslisboom een nieuwe waarde/gewicht toe te kennen gebruikmakend van de opsomming (enumeratief zoeken) van de uitkomst van de eerdere generatie beslisboom. Het nadeel van deze klassieke methodes is de tijd benodigd om tot een perfecte fit van de aantal shapelets binnen de timeseries te komen (exhaustief zoeken). Tot nu toe wordt dit opgelost door binnen het algoritme het uiteindelijke aantal shapelets door schatting van de gebruiker hard te definiëren. Dit is geen ideale methodiek omdat het optimaliseert naar het aantal shapelets, terwijl het zou moeten optimaliseren naar het maximaal mogelijke onderscheidende karakteristieken. Hierdoor zullen altijd een aantal karakteristieken gecombineerd worden (te weinig shapelets gedefinieerd) of karakteristieken worden opgebroken (te veel shapelets gedefinieerd).

Afgeleide shapelet gebaseerde oplossingen zoals door ons ontwikkeld voor een van onze klanten maakt gebruik van een grondwaarheid over primitieve shapelets (shapelets waarin kleinere shapelets zijn op te delen) om het probleem van klassieke shapelet gebaseerde oplossingen te overkomen. Onze oplossing maakt gebruik van deze shapelet primitief om meerdere modellen te maken in plaats van een universeel model waarin alle shapelets gerepresenteerd zouden kunnen worden. We maken hierbij gebruik van een ‘enkel’ leesmoment over de dataset om de belangrijkste karakteristieken te onderscheiden. Voor elk van deze karakteristieken wordt een nieuwe timeseries gemaakt waarvoor achtereenvolgens een eigen model wordt gemaakt. Deze modellen specialiseren in het verschil tussen de originele timeserie en het gevonden primitieve shapelet. Het belangrijkste voordeel hiervan is de modulaire opbouw waarin een enkel model als een bouwblok kan worden beschouwd. Deze blokopbouw zorgt ervoor dat elk primitieve shapelet een eigen waarde kan hebben binnen het domein. Tevens kunnen primitieve shapelets welke geen probleem beschrijven uit de uiteindelijke oplossing worden gehaald Ook kan de oplossing later worden verrijkt met nieuwe primitieve shapelets komende van opvolgende timeseries welke bij de initialisatie van het project nog niet voorhanden waren.

In opvolgende blog zullen we ingaan hoe onze oplossing gebruikt kan worden om doormiddel van een eventslog waarde toe te kennen aan een classificatie.

Meer artikelen

Open Circle Solutions kijkt terug op 2019 en vooruit naar 2020

Open Circle Solutions kijkt terug op 2019 en vooruit naar 2020

Wat de hoogtepunten waren van 2019? Onder andere dat we wederom de FD Gazellen 2019 wonnen, omdat we applicaties bouwen en toepassingen bedenken die beoordeeld worden als vernieuwend en anders. Daarnaast zijn we trots dat ons recent een Europese aanbesteding bij Zorg...

Migreren naar de public cloud. Hoe zie je door de wolken het bos?

Migreren naar de public cloud. Hoe zie je door de wolken het bos?

Het is druk in de wereld van public cloud. Veel organisaties stappen volledig of gedeeltelijk over naar een publieke cloudomgeving. En dat heeft een goede reden. Als je deze overstap zelf ook overweegt, dan zijn er meerdere alternatieven. Maar wat is bepalend bij de...

Klantcase ZIN: Gestandaardiseerd samenwerken in de zorg

Klantcase ZIN: Gestandaardiseerd samenwerken in de zorg

ZIN, Zorginstituut Nederland, besloot in 2019 opnieuw een Europese aanbesteding uit te schrijven voor het IT-beheer. Na het doornemen van offertes van meerdere partijen werd in september 2019 de gunning aan Open Circle Solutions gegeven. Waarom maakten zij deze keuze...

Nieuwsbrief

Meld je nu aan voor Open Circle Stories en krijg een verzameling artikelen, tips, nieuws en verdiepingen in je mailbox.

Pin It on Pinterest

Share This