Почему я перестал приравнивать надежность к времени безотказной работы

Долгое время я оценивал системы хранения по тому, как часто они были «включены». Высокая доступность звучала как конечная цель. Если данные всегда доступны, все остальное казалось второстепенным.

Со временем этот способ мышления перестал иметь смысл.

Время безотказной работы обычно выглядит отлично в начале, когда участие высоко, а стимулы свежи. Настоящий стресс возникает позже — когда активность замедляется, узлы покидают систему, и никто больше не следит внимательно. Вот тогда надежность перестает быть о процентах и начинает быть о поведении.

Walrus изменил мой взгляд на это, потому что он не рассматривает восстановление как состояние сбоя. Он рассматривает это как нечто нормальное. Данные деградируют. Фрагменты пропадают. Система не паникует и не требует идеальной координации для исправления. Ремонт является рутинным, ограниченным и предсказуемым.

Это для меня важнее, чем заявления «всегда включен». Система, которая может восстановиться с минимальными затратами, часто более надежна со временем, чем та, которая обещает совершенство, пока вдруг не может его обеспечить.

Что мне также нравится, так это то, что этот образ мышления проявляется повсюду — стимулы, управление, правила доступа. Ничто не предполагает постоянного внимания. Ничто не полагается на идеальные условия.

Я видел слишком много систем, которые разваливались не из-за потери данных, а потому что исправление мелких проблем становилось слишком дорогим или слишком сложным. Walrus кажется созданным для того, чтобы избежать этого медленного разложения.

В наши дни я меньше доверяю системам по тому, как они ведут себя на пике, и больше по тому, как спокойно они справляются с небольшими проблемами. Вот где на самом деле обитает долгосрочная надежность.

#walrus $WAL @Walrus 🦭/acc