Reddit รายงานเว็บล่ม 5 ชั่วโมง หลังอัพเกรด เพราะ Kubernetes เลิกใช้ชื่อโหนดว่า master – SMS Marketing ราคาถูกที่สุด
เมื่อกลางเดือนมีนาคมที่ผ่านมาในวันที่ 14 มีนาคมหรือวัน Pi Reddit เว็บบอร์ดยอดนิยม ล่มไปเป็นเวลา 5 ชั่วโมง (ทางเว็บระบุว่าล่มนาน 314 นาทีตรงกับหมายเลข Pi เหมือนกัน) ตอนนี้ทางเว็บก็ออกราานงานว่าเกิดอะไรขึ้นในตอนนั้น
การล่มครั้งนี้เกิดจากทีมงานอัพเกรด Kubernetes จากเวอร์ชั่น 1.23 ไปยัง 1.24 แล้วระบบล่ม โดยทีมงานค่อยๆ อัพเกรดมาแล้วหลายคลัสเตอร์ แต่วันเกิดเหตุนั้นเป็นการอัพเกรดคลัสเตอร์สำคัญที่สุด คือ ระบบ Reddit ดั้งเดิมที่มีโค้ดเก่า
หลังการสั่งอัพเกรดไปสองนาทีเว็บดับลงทันที และทีมงานพบว่าระบบเน็ตเวิร์ค (container network interface – CNI) ของคลัสเตอร์ไม่ทำงาน คอนเทนเนอร์ calico-kube-controllers ค้างอยู่ที่สถานะ ContainerCreating ทีมงานพยายามลบคอนเทนเนอร์ทิ้งเพื่อให้ Kubernetes สร้างคอนเทนเนอร์กลับขึ้นมาแต่ก็ไม่สำเร็จ จนสุดท้ายทีมงานตัดสินใจกู้ระบบจาก backup
หลังจากสอบสวนต้นต่อของปัญหาครั้งนี้ ทีมงานก็พบว่าปัญหาอยู่ในคอนฟิกของ Calilco ที่ใช้ควบคุมเน็ตเวิร์ค โดยคอนฟิก BGPPeer นั้นตั้ง nodeSelector ไว้ว่าต้องเป็น Kubernetes master แต่ทาง Kubernetes ตัดสินใจเปลี่ยนชื่อจาก main เป็น control-plane ทำให้คอนฟิกไม่ทำงาน
Kubernetes ตัดสินใจเลิกใช้ว่า master เป็นชื่อโหนดมาตั้งแต่ปี 2020 เนื่องจากเป็นคำไม่เหมาะสม โดยเริ่มใช้คำว่า control-plane มาตั้งแต่เวอร์ชั่น 1.20 และในเวอร์ชั่น 1.24 ก็เลิกซัพพอร์ตคำว่า master
ที่มา – Reddit