본문 바로가기
AI · 인공지능/AI 칼럼

미래를 예측하는 부품! 시계열 특징 Shapelets이란?

by 두우우부 2020. 1. 9.
반응형

3개의 요점

✔️ 미래를 예측하는 부품의 생성 방법 GENDIS

✔️ 정밀하고 빠르게 생성이 가능

✔️ 진화 계산(evolution computation)을 사용함으로써 계산량 감소

 

미래를 예측하고자 하는 시계열 문제는 인간에게 그럴싸한 욕망입니다. 일반적인 시계열 문제 (주가 예측이나 날씨 예측)에서는 시계열 특징 Shapelets파악의 중요성이 논의되고 있습니다. 그러나 Shapelets추출은 계산시간이 많이 걸리고, 정확한 추출이 어려워 문제가 되고 있습니다. 이번에는 '진화 계산을 사용한 빠르고 정확한 추출방법'에 대해 알아보겠습니다.

 

Shapelets란?

Shapelets는 간단히 말하면 학습 데이터의 중요한 서브 시퀀스(일부분)입니다.

 

위의 그림은 개념도이며, 학습 데이터의 중요한 서브 시퀀스가 정해져 있으면 테스트 시 그것을 사용하여 미래 예측을 하기에 용이합니다. 예를 들어, 간단한 예측 방법으로 0 ~ [t-1] 시간까지의 테스트 계열에 가까운 Shapelets의 t 시간의 수치예측을 생각해볼 수 있습니다.

 

기존의 방식과 그 문제점

그럼 어떻게 Shapelets를 추출하는 것인가?

 

Shapelets가 제시되었던 2009년에는 시퀀스에서 모든 서브 시퀀스를 추출하는 방법이 제안되었습니다. 그러나 이 기술은 데이터수가 증가하면 폭발적으로 계산시간이 증가하기 때문에 현실적이지 않았습니다. 이후 Shapelets Transform(ST)라는 기술이 2012년에 등장합니다. ST는 매우 강력한 기술이지만, 계산시간이 데이터수에 의존적인 문제는 여전히 해결되지 않았습니다.

 

그 후, 머신러닝에 의한 Shapelets의 추출 방법인 Learning Timeseries Shapelets(LTS)가 2014년에 제안됩니다. LTS는 ST보다 약간 정확도는 떨어지지만 계산시간을 크게 줄이는 데 성공합니다. 그러나 LTS는 가장 중요한 파라미터 중 하나인 Shapelets의 길이 자체를 Hyper Parameter로 가지고 있기 때문에 튜닝에 많은 시간이 소요됩니다.

 

정리하면 이렇습니다

구분 정밀도 계산 시간
Shapelets Transform(ST) 좋음 나쁨
Learning Timeseries Shapelets (LTS) 보통 보통 (Shapelets길이조정 필요)

참고로 ST는 2017년에 85개의 시계열 데이터셋에서 36개의 기법과 비교한 결과, 가장 좋은 정확도를 보여주고 있습니다.

 

진화 계산에 의한 Shapelets추출

제안된 기법의 목적은 단시간에 높은 정밀도를 내는 것입니다. 그리고 총 계산시간을 단축하기 위해서는 Shapelets 길이를 미리 지정하지 않고 추출하는 것이 필수입니다.

 

그래서 메타 휴리스틱 기법으로 유연한 목적함수 설정이 가능한 진화 계산을 사용합니다. 진화 계산을 사용하면 다음과 같은 이점을 얻을 수 있습니다.

 ●  메타 휴리스틱 기법이므로 ST에 비해 단시간에 실행이 가능

 ●  유연한 목적함수(=해법 표현)가 가능하기에 Shapelets길이를 고정하지 않아도 된다.

 

진화 계산의 목적함수는 다음과 같이 설정되어 있습니다. Shapelets 입력 데이터의 거리 행렬에서 학습된 함수와 True값 사이의 오차가 Shaplets의 평가 수치입니다. 제안된 방법은 h에 로지스틱 회귀를 사용하고 있습니다.

 

 

또한 일반적으로 Shapelets는 학습 데이터의 서브 시퀀스이지만, 제안된 기법은 서브 시퀀스가 아니라 테스트 시 유효한 특징량입니다. 따라서 더 고차원의 특징량을 얻을 수 있는 것도 장점입니다.

 

이것은 진화 계산 중에 두 개의 해답(Shapelets)을 섞는 조작을 합니다만, 이때 두 Shapelets의 평균치를 새로운 답(Shapelets)으로 해서, 학습 데이터에 포함되지 않는 시퀀스를 만들어낼 수 있습니다.

 

위의 그림은 두 설루션 S'와 S"를 섞어 새로운 설루션 S*를 만드는 이미지입니다. 제안된 방법에서는 이러한 작업을 반복함으로써 시계열 클래스 분류를 수행하는 데 있어 가장 적합한 Shapelets를 구합니다.

 

실험

실험에서는 85개의 시계열 데이터셋에 대해 유효성 검증을 했습니다. 85개의 데이터셋의 평균 순위는 아래 그림과 같습니다.

값이 낮은 쪽이 평균 순위가 높은 것을 나타냅니다. 가장 순위가 높은 것은 ST입니다. 그리고 그다음이 제안된 방법인 GENEDIS입니다. 그 아래가 LTS이고 ST와 GENDIS 사이의 검은색 굵은 선은 검정 결과 유의차(통계적 검정법에 의하여 통계적으로 유의미하다고 결론된 평균이나 비율의 차이)는 없었음을 나타냅니다.

 

이 결과로부터 GENEDIS는 ST와 거의 동일한 정밀도를 내는 것을 알 수 있습니다. 또한, ST보다는 확실히 빠르게 탐색할 수 있습니다.

 

정리

이번 논문을 정리하면 Shapelets의 탐색방법은 아래와 같이 분류할 수 있습니다.

구분 정밀도 계산 시간
제안된 방법 (GENDIS) 좋음 좋음
Shapelets Transform (ST) 좋음 나쁨
Learning Timeseries Shapelets (LTS) 보통 보통 (Shapelets 길이조정 필요)

이번에 소개한 Shapelets는 마이너 한 기법으로 분류됩니다. 그러나 시계열 특징을 추출하는 데 있어서는 분명히 유효한 기법입니다. Shapelets가 유행하지 못한 가장 큰 원인은 계산시간 때문입니다. 이번에는 이것을 해결하는 방안을 제시했습니다.

 

만약 더 좋은 방법이 제안되고 연구가 계속된다면 향후 Shapelets가 시계열 클래스 분류 · 회귀의 돌파구가 될지도 모릅니다.

GENDIS : GENetic DIscovery of Shapelets
written by Gilles Vandewiele, Femke Ongenae, Filip De Turck

(Submitted on 13 Sep 2019)
Subjects : Neural and Evolutionary Computing (cs.NE); Machine Learning (cs.LG); Machine Learning (stat.ML)

 

GENDIS: GENetic DIscovery of Shapelets

In the time series classification domain, shapelets are small time series that are discriminative for a certain class. It has been shown that classifiers are able to achieve state-of-the-art results on a plethora of datasets by taking as input distances fr

arxiv.org

GENDIS. GENetic DIscovery of Shapelets.pdf
0.79MB

반응형