Toleransi kesalahan adalah adalah properti yang memungkinkan sistem untuk terus beroperasi dengan benar jika terjadi kegagalan (atau satu atau lebih kesalahan dalam) beberapa komponennya. Jika kualitas operasinya menurun sama sekali, penurunan tersebut sebanding dengan tingkat keparahan kegagalan, dibandingkan dengan sistem yang dirancang secara naif, di mana bahkan kegagalan kecil dapat menyebabkan kerusakan total. Toleransi kesalahan sangat dicari dalam ketersediaan tinggi atau sistem kritis-kehidupan. Kemampuan mempertahankan fungsionalitas ketika bagian-bagian dari sistem rusak disebut sebagai degradasi yang anggun.[1]
Sebuah desain toleransi kesalahan memungkinkan sistem untuk melanjutkan operasi yang dimaksudkan, mungkin pada tingkat yang dikurangi, daripada gagal sepenuhnya, ketika beberapa bagian dari sistem gagal.[2] Istilah ini paling sering digunakan untuk menjelaskan sistem komputer yang dirancang untuk terus beroperasi penuh atau kurang lebih dengan, mungkin, pengurangan throughput atau peningkatan waktu respons jika terjadi beberapa kegagalan parsial. Artinya, sistem secara keseluruhan tidak terhenti karena adanya masalah baik di hardware maupun software. Contoh di bidang lain adalah kendaraan bermotor yang didesain agar tetap dapat dilalui jika salah satu bannya bocor, atau struktur yang mampu mempertahankan keutuhannya jika ada kerusakan akibat sebab-sebab seperti kelelahan, korosi, pembuatan kekurangan, atau dampak.
Referensi