AWS อธิบายเหตุผลที่น่าอายสำหรับการหยุดทำงานของระบบคลาวด์ขนาดใหญ่เมื่อสัปดาห์ที่แล้ว

AWS อธิบายเหตุผลที่น่าอายสำหรับการหยุดทำงานของระบบคลาวด์ขนาดใหญ่เมื่อสัปดาห์ที่แล้ว

Amazon ได้ชี้แจงเกี่ยวกับการหยุดทำงานของ AWS ครั้งใหญ่ที่เกิดขึ้นเมื่อสัปดาห์ที่แล้ว ยักษ์ใหญ่ด้านเทคโนโลยีเปิดเผยว่าความพยายามในการเพิ่มความจุของเซิร์ฟเวอร์ทำให้เกิดการหยุดทำงานที่ไม่คาดคิดในภูมิภาค AWS US-EAST-1 สาเหตุของการหยุดทำงานคือการเพิ่มความจุเล็กน้อยให้กับบริการ Kinesis ของ AWS ซึ่งใช้เพื่อรองรับข้อเสนออื่นๆ ของ AWS จำนวนมาก เซิร์ฟเวอร์ Kinesis จะสร้างเธรดใหม่สำหรับเซิร์ฟเวอร์อื่นๆ ที่เกี่ยวข้องกับฟรอนต์เอนด์ AWS เพื่อให้สามารถสื่อสารระหว่างกันได้ ความจุเพิ่มเติมทำให้เซิร์ฟเวอร์เกินจำนวนเธรดสูงสุดที่อนุญาต แม้ว่า AWS จะค้นพบสาเหตุของปัญหาได้ค่อนข้างรวดเร็ว แต่การนำทุกอย่างกลับมาออนไลน์อีกครั้งไม่ใช่เรื่องง่าย การกู้คืนเซิร์ฟเวอร์เร็วเกินไปอาจทำให้เกิดข้อผิดพลาด ขอเวลาแฝง หรือแม้แต่กำจัดเซิร์ฟเวอร์บางส่วนออกจากฟลีต เป็นผลให้ Amazon สามารถกู้คืนเซิร์ฟเวอร์ได้ครั้งละไม่กี่ร้อยเซิร์ฟเวอร์เท่านั้น ซึ่งทำให้กระบวนการกู้คืนล่าช้า

การปรับปรุงที่จะดำเนินการ

Amazon กำลังดำเนินการตามข้อเสนอต่างๆ ที่จะช่วยป้องกันเหตุการณ์ที่คล้ายกันไม่ให้เกิดขึ้นอีกในอนาคต “ในระยะเวลาอันสั้น เราจะย้ายไปยังเซิร์ฟเวอร์และโปรเซสเซอร์หน่วยความจำขนาดใหญ่ขึ้น ซึ่งจะช่วยลดจำนวนเซิร์ฟเวอร์ทั้งหมด และลดเธรดที่เซิร์ฟเวอร์แต่ละเครื่องต้องใช้ในการสื่อสารข้ามฟลีต” บทความ AWS อธิบาย “สิ่งนี้จะช่วยเพิ่มพื้นที่ว่างอย่างมากในจำนวนเธรดที่ใช้ เนื่องจากจำนวนเธรดทั้งหมดที่เซิร์ฟเวอร์แต่ละเซิร์ฟเวอร์ต้องรักษาจะเป็นสัดส่วนโดยตรงกับจำนวนเซิร์ฟเวอร์ในฟลีต การมีเซิร์ฟเวอร์น้อยลงหมายความว่าแต่ละเซิร์ฟเวอร์จัดการเธรดน้อยลง เรากำลังเพิ่มการแจ้งเตือนโดยละเอียดสำหรับการใช้เธรดในบริการ "นอกจากนี้ AWS มุ่งมั่นที่จะดำเนินการทดสอบการเพิ่มขีดจำกัดจำนวนเธรดให้เสร็จสิ้น และปรับปรุงเวลาเริ่มต้นแบบ Cold ของฟลีตส่วนหน้า นอกจากนี้บริษัทยังขออภัยสำหรับการหยุดทำงาน ซึ่งทำให้ไซต์ที่มีชื่อเสียงระดับสูงหลายแห่งต้องออฟไลน์ รวมถึง Coinbase , Flickr และโรคุ