본문 바로가기
DevOps

AWS Summit Korea 2022- DevOpsGuru

by 코딩+아빠 2023. 6. 29.

DevOps Guru

출처: AWS Summit KOREA 2022. DevOpsGuru

관찰가능성? 제어 이론에서는 시스템의 외부출력 정보로 시스템의 내부 상태를 얼마나 잘 추론 할 수 있는지를 의미한다. 자제 관찰 가능성 요구사항에 AWS CloudWatch가 사용된다.

 

  • 로그
    • Cloudwatch 에인전트를 통해 API 호출 및 기타 메커니즘을 사용하여 AWS뿐만 아니라 온프레미스 리소스의 환경에서도 수집 할 수 있다.
    • 로그 인사이트에서 쿼리 언어를 사용하여 여러 로그 그룹에서 로그 데이터를 분석할 수 있다.
    • 내용 및 수집 이유
      • 시간 경과에 따른 발생한 개별 이벤트에 대한 타임스탬프가 기록되어 있어서 긴급하고 예측할 수 없는 행동을 발견하는데 유요하다.
  • 메트릭
    • Cloudwatch 에인전트로 메트릭을 수집한다.
    • 기본적인 하이퍼바이저에서 수집되는 메트릭뿐만 아니라 메모리나 디스크 IO와 같은 정보도 수집 가능하다.
    • 수집된 메트릭은 메트릭 수식, 대시보드, 기타 메트릭 관련 기능을 사용하여 분석 할 수 있다.
    • 내용 및 수집 이유
      • 시간 간격에 따라 측정된 data의 숫자 표현으로 추세 예측을 식별하는데 유용하다
  • 트레이스
    • AWS X-Ray를 사용해 수집할 수 있다.
    • AWS X-Ray 에이전트, API 호출을 등을 통해 분산환경에서 트레이스를 수집할 수 있고, 수집된 트레이스 세트들을 분석하거나 필터링 AWS X-Ray Analytics와 같은 도구를 사용하여 권본 원인, 결함, 대기 시간 소스등을 식별할 수 있다.
    • 내용 및 수집 이유
      • 분산 시스템을 통한 종단 간 요청 흐름을 표현하여 요청이 통과하는 경로와 요청 구조에 대한 가시성을 제공한다.

 

식별하는데 사용되어진 data들은 여전히 분리되어 있고 문제를 해결하면서 서로 다른 시간에 발생한 분석 작업들과 data 통합을 위해 data의 상관관계를 찾는 일을 반복해야 한다.

그래서 식별하는 필요한 전체 프로세스를 다룰 수 있는 플랫폼이 필요하다

 

 

  • 탐지 단계에서는 사용자가 오류를 보고할 때까지 인지를 못 하거나 모니터링 툴 등으로 설정한 오류 감지 메커니즘을 사용하는 대신 Synthetics 경고를 받거나 수집된 트레이스에서 탐지된 이상을 통해 AWS X-Ray Insight에서 알림을 받을 수 있으므로 MTTD가 단축될 수 있다.
  • 식별 단계에서는 ServiceLens를 사용하여 로그,메트릭,트레이스 데이터의 상관관계를 지정할 수 있으며, 컨텍스트나 범위를 전환하지 않고 심층분석 도구로 이동할 수 있다. 그래서 식별 시간과 노력을 단축시킬 수 있다.

 

그러나 수백 대의 서버를 운영하는 환경에서는 또 다른 많은 작업이 필요하게 된다.

시스템이 확장이 되면 운영팀은 생성되는 로그와 메트릭의 다양성과 속도를 처리해야 한다. 처리하면서 생성되는 data를 적정한 리소스 혹은 이슈에 연결하는 작업을 해야 한다. 앱이나 리소스가 변경되거나 삭제 될 때마다 모니터링 대상에 대한 변경을 해야 하며 때로는 그 작업에 대해 전문지식을 습득해야 한다.

많은 경보와 알림으로 인해 경보 소음이 발생할 수 있어 오히려 근본 원인을 식별하기 어려워질 수 있다.

그래서 모니터링과 관찰 가능성을 위한 많은 부분을 자동화해야 한다.

 

AWS DevOpsGuru

AWS DevOpsGuru는 애플리케이션을 모니터링하여 가용성을 개선하고 MTTR (Mean Time To Retrive)을 줄이는 완전 관리형 기계학습 기반의 서비스이다.

AWS Cloudwatch, X-ray, CloudTaril 등으로 수집한 데이타로 기계학습을 활용하여 이슈 발생에 따른 DATA를 연결하고 누락되거나 잘 못 구성된 경보, 리소스 고갈에 대한 조기 경고, 서비스 중단으로 이어질 수 있는 코드 및 구성 변경과 같은 운영 문제를 자동으로 감지 할 수 있다. 운영자의 기계학습 경험과 아무런 관련이 없다. Amazon.com의 고가용성, 구축, 확장 및 유지 관리했던 지식을 기반으로 만들어진 모델을 사용하는 것이다.

 

출처: AWS Summit KOREA 2022. DevOpsGuru

AWS DevOpsGuru 특징

  • 콘솔로 사용하기 쉽다.
  • 운영 문제를 자동으로 감지하여 서로 다른 data, 메트릭의 스트림을 지속적으로 분석하여 애플리케이션 동작을 결정한다.
  • 기계학습을 기반으로 한 인사이트를 제공하여 신속한 문제 해결을 지원한다.
  • AWS 워크 로드가 추가되어도 별도 셋업이 필요 없다.
  • 경보 피로를 감소시킬 수 있다.
출처: AWS Summit KOREA 2022. DevOpsGuru

AWS DevOpsGuru 작동원리

DevOpsGuru를 활성화하면 CloudWatch 메트릭이나 로그에서 분석을 위한 운영 데이타를 수집하고 기계학습 디텍터를 사용해 이상을 감지한다.

모든 리소스에 대한 대기시간, 오류율, 요청 비율과 같은 메트릭을 자동으로 분석하여 정상적인 작동 범위를 먼저 설정한다. 그 후 사전 훈련된 기게 학습 모델을 사용하여 설정된 기준과의 편차를 식별한다.

이상이 감지되면 CloudTrail 로그를 조회하고 해당 이상과 관련된 이벤트를 수집하여 상호 연관시키고 규정된 지침에 따라 권장 사항을 구성한다. 이 모든 정보를 패키징 하여 운영자에게 인사이트를 제공한다

또한 웹 애플리케이션 지연 시간 급증, 디스크 공간 부족, 잘못된 코드 배포 또는 메모리 누수와 같은 관련 애플리케이션이나 인프라 메트릭에 대한 문제도 연관지어 찾아낸다.

 

출처: AWS Summit KOREA 2022. DevOpsGuru

반응형

'DevOps' 카테고리의 다른 글

Ansible Playbooks  (0) 2023.06.27
Chaos Engineering Solution 그렘린 workshop  (0) 2023.06.26
Chaos Engineering Tools  (0) 2023.06.26
DevOps or DevOoops!  (0) 2023.06.26