논문 요약

1. Why AIOps?

클라우드 컴퓨팅의 확대로 인해 서비스의 규모과 복잡성이 드라마틱하게 증가하였다. 그리고 점점 증가하는 서비스의 규모와 복잡성은 소프트웨어 및 서비스 엔지니어에게 DevOps를 사용하여 효율적이고 효과적으로 서비스를 구축 및 운영할 필요성을 요구하게 되었다. 그래서 AI를 이용해서 DevOps를 다루는 AIOps라는 개념이 나오게 되었다.

2. Our Vision of AIOps

- High service intelligence

quality degration, cost increase, workload bump와 같은 문제가 발생한 것을 즉각적으로 알아챌 수 있으며, 미래에 일어날 일을 예측할 수 있어야 한다.

 

- High customer satisfaction

소비자의 만족도를 높이기 위해 소비자의 사용 패턴을 이해하고 주도적인 행동을 취한다.

 

- High engineering productivity

AI / ML 기술을 통해 시스템 동작 패턴을 배우고, 필요한 아키텍처 변경 및 서비스 적응 전략 변경 등을 위한 서비스 동작 및 고객 활동의 미래를 예측한다.

3. Real-World Challenges

- Gaps in innovation methodologies and mindset

AIOps 솔루션 구축을 위해서는 전반적인 내용에 대한 이해가 필요하다. 그러나 다양한 분야의 사람들이 AIOps 솔루션을 구축할 수 있게 도와줄 방법론이 부족하다. AIOps 솔루션의 필수적인 방법론은 과거의 많은 양의 데이터로 부터 패턴을 확인하여 미래를 예측하는 것이다. 하지만 이는 기존의 엔지니어링 사고 방식과 실질적으로 다르다.

 

- Engineering changes needed to support AIOps

아직 AIOps-oriented engineering은 초기단계이고, AIOps에 맞는 변화가 필요하다. 특히 기존에 있는 데이터는 AIOps 솔루션의 요구를 충족시키지 못하고 있다. 데이터 량도 부족하고 데이터의 품질도 개선이 필요하다. 그래서 새로운 계측 및 원격 측정 수집 방법이 필요하다.

 

- Difficulty on building ML models for AIOps

supervised machine learning model에 필요한 라벨을 얻기 힘들고, 의존성과 관계가 너무 복잡하다.

4. Research Innovations on AIOps

- Cross-disciplinary research

AIOps의 발전을 위해서는 system design, software engineering, big data, artificial intelligence, machine learning, distributed computing, information visualization과 같은 분야의 연구자들이 함께 협력해야 한다.

 

- Close collaboration between academia and industry

학계와 산업 간의 파트너십이 필요하다. 소프트웨어 및 서비스 엔지니어의 산업에서 이루어지는 실제 고통을 이해할 필요가 있다.

논문 리뷰

이 논문에서는 AIOps를 정의하고 AIOps가 추구해야할 방향과 직면하고 있는 문제를 다루고 있다. 사실 전반적인 내용은 처음 AIOps라는 키워드를 들었을 때 떠올랐던 내용과 거의 유사하다. AIOps는 시스템에서 발생하는 데이터를 인풋 데이터로 사용되게 될 것인데, 보통 기존 시스템에서 발생하는 데이터라는 것은 통일되지 않고 값 자체가 정량적으로 의미가 없는 T/F인 형태 등 실제로 사용하기에는 어려운 형태로 있을 가능성이 높을 것이라는 생각이 들었다. 그리고 이 논문에서도 이와 비슷한 부분을 지적하고 있다. 그리고 인프라 관련 공부를 하면서 많이 드는 생각인데, 인프라가 있어야 공부를 하는데 없이 공부하려니 어떻게 공부하고 연구해야할지 감이 잘 안잡히고는 하는데 AIOps에서도 그런 점 때문에 산업과 학계의 협업의 필요성을 주장하고 있었다. 그러나 이 논문에서는 AIOps에서 다뤄지는 실질적인 연구 내용이 담겨있지는 않아 자세한 내용은 다른 논문을 찾아서 읽어봐야 할 것 같다.

 

참고 문헌

AIOps: Real-World Challenges and Research Innovations, Yingnong Dang, Qingwei Lin, Peng Huang, 2019

+ Recent posts