Lead Site Reliabily Engineer в One Cloud

Уровень зарплаты: не указан
Москва
От 3 до 6 лет, Полный день, Полная занятость
Дата публикации: 23.12.2025 с сайта hh.ru

Общее описание

One Cloud — это технологический фундамент для всех продуктов компании. Мы предоставляем единую среду запуска приложений, хранилищ, баз данных и любых других сервисов.

Сейчас One Cloud — это 12 000 серверов в 9 дата-центрах, загрузка более 1 000 000 процессорных ядер, объём хранилища в 5000 терабайт и 400 Тбит/сек по сети.

Перед командой стоят задачи развития и масштабирования, повышения надёжности, разработки внутренних инструментов и онбординг новых проектов. Ключевая цель — стать самым передовым внутренним облаком среди аналогичных платформ.

Мы ищем Site Reliability Engineer, готовых разделить с нами задачи по эксплуатации, инцидент-менеджменту, R&D, а также принять технический вызов кратного роста Облака и амбициозности поставленных перед командой задач.

Стек: Linux, Python, Go, CFEngine, AWX.

Задачи

  • Управлять командой от пяти человек
  • Эксплуатировать парк серверов облака (в том числе bare metal) — более 10 000 хостов
  • Постоянно обновлять парк серверов — мы стараемся эффективнее использовать каждый юнит в дата-центрах
  • Управлять инцидентами — в связке с командами мониторинга и разработки устранять сбои и предотвращать их повторение
  • Автоматизировать процессы эксплуатации и оркестрации — при наших объёмах задачи решаются через код
  • Участвовать в разработке и внедрении новой функциональности облака

Требования

  • Коммерческий опыт работы в релевантной роли лида команды от трёх лет
  • Опыт работы с серверной инфраструктурой на базе Linux, уверенные знания Linux
  • Опыт работы с сетью — iptables, BGP, VRRP
  • Опыт работы с SCM — Puppet, Salt, Ansible
  • Опыт автоматизации на Bash

Будет плюсом

  • Опыт работы с системами на базе RHEL
  • Опыт работы с веб-хостингом — nginx, серверы приложений, MySQL, Postgres
  • Опыт работы с CFEngine, Cassandra, Zabbix и Vault
  • Знание Go и Java