ru

Site Reliability Engineering. Надежность и безотказность как в Google

Notify me when the book’s added
To read this book, upload an EPUB or FB2 file to Bookmate. How do I upload a book?
  • missspraggyhas quoted2 years ago
    Мы думаем, что Маргарет Гамильтон, работавшая над программой «Аполлон» во время учебы в MIT, первой продемонстрировала все основные черты SR-инженера
  • Timofey Buninhas quoted3 years ago
    Надеяться — это плохая стратегия.
  • Timofey Buninhas quoted3 years ago
    Реализация эфемерна, а задокументированное обоснование бесценно.
  • Dmitry Rybalkahas quoted5 years ago
    Что может пойти не так?», «Какие действия мы можем предпринять для того, чтобы справиться с проблемами до того, как они приведут к сбою или потере данных?».
  • Dmitry Rybalkahas quoted6 years ago
    Но при этом у менеджера есть две особые обязанности, которых нет у TL: управление производительностью и выполнение всей той работы, которой не занимается кто-то другой.
  • Dmitry Rybalkahas quoted6 years ago
    Например, сервису по мере его роста нужен способ увеличить количество сконфигурированных виртуальных машин (virtual machines, VM). Команда, выполняющая операционную работу, отвечает увеличением количества администраторов, управляющих этими VM. SR-инженеры вместо этого концентрируются на написании ПО или избавлении от проблем с масштабируемостью, чтобы количество людей, необходимое для работы сервиса, не увеличивалось согласно функции увеличения нагрузки на сервис.
  • Dmitry Rybalkahas quoted6 years ago
    Операционная работа против нелинейного масштабирования
    Термин «операционная работа» характеризует определенный метод поддержания сервиса в рабочем состоянии.
  • Dmitry Rybalkahas quoted6 years ago
    вводить новых людей только в том случае, если усложняется сервис. Вместо этого попробуйте обратить внимание на то, как полезные новые навыки снижают время, за которое выполняются тикеты.
  • Dmitry Rybalkahas quoted6 years ago
    Имейте в виду: чтобы быть экспертом, мало знать, как работает система. Настоящие знания приходят с изучением причин, почему система не работает.
  • Dmitry Rybalkahas quoted6 years ago
    Нам пришлось заменить sshd аутентифицируемым, управляемым ACL (Access Control List — список управления доступом), основанным на RPC-демоне Local Admin Daemon, также известном как Admin Server.
fb2epub
Drag & drop your files (not more than 5 at once)