การหยุดทำงานของ AWS เตือนเราว่าชะตากรรมของอินเทอร์เน็ตอยู่ในมือของคนไม่กี่คน

การหยุดทำงานของ AWS เตือนเราว่าชะตากรรมของอินเทอร์เน็ตอยู่ในมือของคนไม่กี่คน

ในขณะนั้น เราดำเนินการไซต์จากเซิร์ฟเวอร์ส่วนบุคคลและขององค์กร ซึ่งโดยทั่วไปจะอยู่ที่บ้านและสำนักงานของเรา เมื่ออินเทอร์เน็ตเติบโตขึ้น เราได้สร้างชั้นวางเซิร์ฟเวอร์ ตำแหน่ง และศูนย์ข้อมูล อย่างไรก็ตาม เมื่อเวลาผ่านไป บริษัทและบริการทุกขนาดได้ลดการเสียสละของเซิร์ฟเวอร์ให้กับบุคคลที่สาม หรือที่เรียกว่าบริการคลาวด์ในปัจจุบัน

ตรรกะนั้นมั่นคง เราอาศัยอยู่ในบ้าน แต่เราไม่ได้สร้างบ้านของเรา การให้บริการและไซต์ที่กำลังพัฒนาไม่จำเป็นต่อบริการที่พวกเขาจัดหาให้ มันก็เหมือนกับว่าไม่มีเซิร์ฟเวอร์ก็ไม่มีบริการ แต่เซิร์ฟเวอร์ทำงานผ่าน API, สคริปต์ และอัลกอริธึมและโปรแกรมอื่นๆ ที่พัฒนาโดยบริษัทเพื่อส่งมอบสิ่งต่างๆ เช่น สตรีม Netflix ของคุณ รายละเอียดบัญชีกระเป๋าเงิน Coinbase ของคุณ หรือผู้ใช้ Tinder ที่มีศักยภาพรายต่อไป

ความสามารถของบริการคลาวด์ เช่น Amazon Web Services (AWS) และ Azure ของ Microsoft หากคุณจ่ายเงินเพียงพอ การขยายขนาดอย่างรวดเร็ว (หรือลดขนาดลงตามความจำเป็น) จะทำให้การแก้ปัญหาทางธุรกิจที่ชาญฉลาดสำหรับธุรกิจองค์กรใดๆ ทุกขนาด คุณไม่มีทางรู้หรอก เช่น เมื่อใดที่ธุรกิจขนาดเล็กจะกลายเป็นบริษัทใหญ่ และเมื่อใดจะต้องให้บริการผู้ใช้พร้อมกันสิบคนบนไซต์ที่มีจำนวนผู้ใช้ห้าร้อยคน

นี่คือประโยชน์ที่ชัดเจนของบริการเว็บบนคลาวด์ ข้อเสียคือสิ่งที่เกิดขึ้นในสัปดาห์นี้กับ AWS

ความล้มเหลวของ AWS

AWS จำนวนมากล่มสลายในบ่ายวันอังคาร แดชบอร์ด AWS Health ให้ภาพรวมที่ดีของการหยุดทำงานเกือบ 7 ชั่วโมง ในเบื้องหลังมีการโจมตี แฮ็ก หรือการปฏิเสธบริการ (DDoS) อย่างน้อยตามที่ Amazon บอกไว้ เป็น API สองสามตัวที่ทำงานผิดปกติในอุตสาหกรรมบริการขนาดใหญ่

เราทุกคนต่างหวาดกลัวต่อการโจมตี DDoS ที่จำเป็นหรือการโจมตีที่จะละเมิดระบบเหล่านี้ (อันที่จริง ไม่ว่าระบบใดก็ตามที่เราพึ่งพา) และทำให้พวกเขาคุกเข่าลง แต่แทบจะไม่เคยเกิดขึ้นเลย เมื่อ Cloudflare ลดลงในสองพันสิบเก้า ตอนแรกก็ยอมรับว่าเป็นการโจมตีระบบของพวกเขา อย่างไรก็ตาม เราค้นพบอย่างรวดเร็วว่าเป็นเพียงการใช้งานซอฟต์แวร์ที่ไม่ดี โดยเฉพาะอย่างยิ่งความล้มเหลวของมนุษย์

แม้ว่าจะมีการหยุดทำงานของ AWS ในสิ่งที่ Amazon เรียกว่า "ภูมิภาค US-EAST-1" ผลกระทบก็มีนัยสำคัญและแพร่หลาย สิ่งนี้เกิดขึ้นได้บนแพลตฟอร์มที่ต้องเผชิญกับผู้บริโภคเช่น Disney + และ Amazon.com และบริการบางอย่างของ Alexa

เมื่อฉันโพสต์ข้อความปัจจุบันบน Twitter ฉันรู้สึกซาบซึ้งที่มีผู้คนมากมายที่แทบจะเอาหัวโขกหน้าและอุทานว่า "เพราะฉะนั้นฉันออกไป!"

สำหรับฉันแล้ว ผู้ใช้เหล่านี้หลายคนไม่รู้ว่า AWS อยู่เบื้องหลังผู้ใช้และระบบธุรกิจที่พวกเขาต้องการ นอกจากนี้ ไม่มีใครมีตัวเลขที่แน่นอนอย่างแน่นอน (นอกเหนือจาก Amazon) แต่รายงานล่าสุดอ้างว่า AWS ให้บริการผู้คนนับล้าน Azure ของ Microsoft ยังรายงานผู้ใช้หลายล้านคนและบริษัท Fortune ส่วนใหญ่ห้าร้อยแห่ง Google Cloud มีชื่อใหญ่ๆ เช่น Verizon, NewsCorp และ Fb

ต้องมีอะไรเปลี่ยนแปลงหรือไม่?

การใช้บริการคลาวด์อย่างแพร่หลายไม่ใช่เรื่องเลวร้าย แม้ว่าการขาดข้อมูลอาจนำไปสู่ความสับสนและลายนิ้วมือได้ เช่น ผู้ที่ไม่สามารถย้ายคำสั่งบนระบบของเขา และได้รับข้อความแสดงข้อผิดพลาดหลายครั้งว่าระบบของเขาเป็นผู้จัดจำหน่ายภายนอก . เช่น AWS)

การรวมกันของการเข้าถึงระบบคลาวด์อย่างกว้างขวางและการขาดข้อมูลตามเวลาจริงและข้อเสนอแนะทั่วไปสำหรับลูกค้าบริการที่เสียเปรียบทำให้เกิดความกังวล ขนาดของความมืดมนเป็นสิ่งที่น่ากังวลอย่างยิ่ง โดยเฉพาะอย่างยิ่งหากเราพิจารณาว่าการดับถัดไปนั้นหลีกเลี่ยงไม่ได้

ไปเป็นวันที่แร็คเซิร์ฟเวอร์ของใครบางคนล้มเหลวและไซต์ล้มเหลว ขณะนี้เรามีปัญหาขัดข้องเล็กน้อยในระบบคลาวด์ขนาดใหญ่ เช่น AWS, Axure และ Cloudflare ที่ทำให้เกิดคลื่นสึนามิ

มีคนบน Twitter ถามว่า "เกิดอะไรขึ้นกับการปรับขนาดและโหลดบาลานซ์" "เป็นคำถามที่ดี AWS สร้างขึ้นจากคลัสเตอร์เซิร์ฟเวอร์คลาวด์ที่แยกจากกันหลายร้อยคลัสเตอร์และนำเสนอความซ้ำซ้อน การปรับขนาด และการจัดสรรภาระงานมากมาย และอีกครั้ง บางครั้งนั่นยังไม่เพียงพอ ระบบที่ซับซ้อนอาจทำงานผิดปกติและเปราะบางเป็นพิเศษต่อการอัปเดตซอฟต์แวร์ที่อาจชนกัน ด้วยโค้ดที่ล้าสมัย เนื่องจากความจริงที่ว่าบริการคลาวด์เหล่านี้มีประสิทธิภาพและกระจายได้ดี รวมถึง AWS พวกเขายังคงตั้งโปรแกรม เรียกใช้ และบำรุงรักษาโดยมนุษย์ที่ผิดพลาดได้

แล้วเราจะให้ความรู้แก่สาธารณชนได้ดีขึ้นได้อย่างไร และที่สำคัญกว่านั้นคือปกป้อง AWS, Azure, Cloudflare และอื่นๆ จากความล้มเหลวประเภทนี้ ซึ่งไม่เพียงส่งผลให้ไซต์และบริการที่ไม่ได้ใช้งานเท่านั้น แต่ยังทำให้ผู้คนหลายล้านคนสูญเสียไปด้วย ดอลลาร์อเมริกัน?

อาจถึงเวลาที่ต้องถอยกลับไปตรวจสอบความสมบูรณ์และความปลอดภัยของระบบคลาวด์ ในลักษณะเดียวกับที่เราตรวจสอบระบบน้ำ ดูเหมือนไม่มีอะไรใหญ่เกินไปที่จะล้มเหลว แต่ทั้งหมดมีความสำคัญเกินกว่าจะเสียหาย ละเมิดหรือสูญหาย