Site Reliability Engineering

resource: https://sre.google/sre-book/preface/

GPT Summarize#

사이트 신뢰성 엔지니어링(SRE) 문서는 Google에서 개발한 시스템 운영 관리의 현대적 접근 방식을 다루고 있습니다. 이 문서는 대규모 시스템을 안정적이고 효율적으로 관리하기 위해 SRE 원칙과 실천 방안을 소개합니다. 주요 내용을 요약하면 다음과 같습니다.

1. 사이트 신뢰성 엔지니어링(SRE)이란?#

정의: SRE는 소프트웨어 엔지니어링 원칙을 IT 운영에 적용하여 시스템을 안정적이고 확장 가능하게 만드는 것을 목표로 합니다.
SRE의 역할: 사이트 신뢰성 엔지니어는 시스템의 안정성 및 자동화를 책임지며 개발과 운영 사이의 연결 역할을 합니다.

2. SRE의 핵심 원칙#

위험 수용: SRE는 완벽한 안정성이 항상 필요하지 않다는 것을 인정합니다. 이를 위해 서비스 수준 목표(SLO)를 설정하고 일정한 실패 허용 범위를 관리합니다.
서비스 수준 목표(SLO): SLO는 각 서비스의 목표 안정성 수준을 정의하며, 사용자 기대와 비즈니스의 투자 가능성을 균형 있게 고려합니다.
서비스 수준 지표(SLI): SLI는 서비스의 성능을 나타내는 지표로, 지연 시간, 가용성, 오류율과 같은 항목이 포함됩니다.
에러 버짓(Error Budget): 각 서비스는 허용 가능한 실패 수준인 에러 버짓을 가지고 있으며, 이를 통해 새로운 기능 개발과 안정성 개선에 집중할 시기를 결정합니다.

3. 자동화를 통한 반복 업무(토일) 제거#

토일(Toil): 반복적이고 수작업으로 수행되는, 확장성이 부족한 운영 업무를 의미합니다.
자동화: SRE는 이러한 토일을 최대한 자동화하여 엔지니어들이 가치 있는 개발 작업에 집중할 수 있도록 합니다.

4. 안정성 엔지니어링#

사건 대응 및 관리: SRE는 사건을 탐지, 관리, 분석하기 위한 프로세스를 수립하며, 사후 분석을 통해 지속적인 개선을 도모합니다.
용량 계획: SRE 팀은 예측과 지표를 통해 서비스에 필요한 자원을 사전에 확보하여 안정성을 유지합니다.
릴리스 엔지니어링: 새로운 기능이나 업데이트를 안정적으로 배포하여 시스템의 불안정성을 최소화합니다.

5. SRE 사고방식#

비난 없는 문화: SRE는 엔지니어가 사건을 두려움 없이 보고할 수 있는 문화를 조성하여 투명성과 지속적인 개선을 장려합니다.
실패로부터 배우기: 실수를 비난하지 않는 사후 분석 문화를 통해 오류를 문서화하고, 향후 유사 사건 발생을 예방합니다.

6. 개발과의 협업#

모니터링 및 알림: SRE는 개발자와 협력하여 시스템 상태에 대한 유용한 통찰을 제공하는 모니터링을 구현합니다.
테스트와 지속적 통합: SRE는 엄격한 테스트와 지속적 통합을 통해 문제가 실제 환경에 배포되기 전에 예방할 수 있도록 합니다.

SRE의 궁극적인 목표#

안정성과 효율성: 다양한 조건에서 서비스가 안정적으로 유지되도록 하며, 필요한 비용과 노력을 최적화합니다.
확장성: 시스템이 성장하더라도 운영 안정성을 유지하면서 자원 요구 사항이 비례하여 증가하지 않도록 합니다.

이 접근 방식은 단순히 실패를 방지하는 것만이 아니라, 시스템의 탄력성을 유지하면서도 개발 속도를 균형 있게 조절하는 것을 강조하는 현대적인 운영 모델로 널리 채택되고 있습니다.