عامل انسانی: چگونه شرکت ها می توانند از بلایای ابری جلوگیری کنند

عامل انسانی: چگونه شرکت ها می توانند از بلایای ابری جلوگیری کنند

به خبرنامه های روزانه و هفتگی ما بپیوندید تا از آ،ین به روز رس، ها و محتوای انحصاری در مورد پوشش هوش مصنوعی پیشرو در صنعت ما مطلع شوید. او بیشتر یاد می گیرد


شرکت‌های بزرگ سخت کار می‌کنند تا مطمئن شوند خدماتشان مختل نمی‌شود، و دلیل آن ساده است – قطعی‌های عمده به برند شما آسیب می‌زند و مشتریان را به سمت محصولات رقیب با سابقه بهتر سوق می‌دهد.

ایجاد یک سرویس اینترنتی قابل اعتماد یک مشکل فنی دشوار است، اما همچنین یک چالش انس، برای رهبران تجاری است. ایجاد انگیزه در تیم های مهندسی خود برای سرمایه گذاری در کار قابلیت اطمینان می تواند دشوار باشد، زیرا اغلب به ،وان هیجان انگیزتر از توسعه ویژگی های جدید در نظر گرفته می شود.

در مقیاس بزرگ، مشوق ها غالب هستند. شرکت های بزرگ فناوری هزاران کارمند را استخدام می کنند و صدها سرویس اینترنتی را اداره می کنند. در طول سال‌ها، آن‌ها راه‌های هوشمندانه‌ای برای اطمینان از ساخت سیستم‌های قابل اعتماد توسط مهندسان خود ارائه کرده‌اند. این مقاله تکنیک‌های ارگونومی را مورد بحث قرار می‌دهد که به طور گسترده در موفق‌ترین شرکت‌های فناوری در تاریخ موفق بوده‌اند. شما می تو،د این را در شرکت خود اعمال کنید، خواه کارمند یا رهبر باشید.

چرخ می چرخد

بررسی عملیاتی AWS یک جلسه هفتگی است که برای کل شرکت باز است. در هر جلسه، “Wheel of Fortune” می چرخد ​​تا یک سرویس AWS تصادفی را از میان صدها سرویس برای بررسی زنده انتخاب کند. تیم مورد بررسی باید به سؤالات رهبران عملیاتی با تجربه در مورد داشبوردها و معیارهای آنها پاسخ دهد. در این جلسه صدها کارمند، ده ها مدیر و تعدادی از معاونان رئیس جمهور حضور دارند.

این انگیزه هر تیم برای به دست آوردن یک سطح اولیه از کارایی عملیاتی است. حتی اگر احتمال انتخاب یک تیم منفرد کم باشد (در AWS، کمتر از 1%)، به ،وان مدیر یا سرپرست فنی تیم، واقعاً نمی خواهید در آن روز در مقابل نیمی از شرکت نادان ظاهر شوید. شما کار می کنید از شانس.

مهم است که معیارهای قابلیت اطمینان خود را به طور مرتب بررسی کنید. رهبر، که علاقه فعالی به سلامت عملیاتی دارند این لحن را برای کل سازمان تعیین می کنند. چرخاندن چرخ تنها یک ابزار برای رسیدن به این هدف است.

اما در این بررسی های عملیاتی چه می کنید؟ این ما را به نقطه بعدی هدایت می کند.

اه، قابلیت اطمینان قابل اندازه گیری را تعیین کنید

شما می خواهید «تایم بالا» یا «پنج نه» را داشته باشید، اما این واقعا چه م،ایی برای مشتریان شما دارد؟ تحمل تأخیر برای تعاملات زنده (چت) بسیار کمتر از بارهای کاری ناهمزمان (آموزش مدل یادگیری ماشینی، آپلود ویدیو) است. اه، شما باید منع، کننده چیزی باشد که مشتریان شما به آن اهمیت می دهند.

هنگامی که معیارهای تیم را بررسی می کنید، از آنها بخواهید اه، قابل اطمینان قابل اندازه گیری را توصیف کنند. مطمئن شوید که متوجه شده اید – و آنها هم می دانند – چرا این اه، را انتخاب کرده اید. سپس از آنها بخواهید از داشبوردهایی برای نشان دادن دستیابی به این اه، استفاده کنند. داشتن اه، قابل اندازه گیری به شما کمک می کند تا اقدامات قابل اعتماد را به روش داده محور اولویت بندی کنید.

این ایده خوبی است که روی مشکلات لکه بینی تمرکز کنید. اگر چیزی غیرعادی در داشبورد آنها مشاهده کردید، از آنها بخواهید که مشکل را توضیح دهند، اما همچنین از آنها بپرسید که آیا در حین تماس از مشکل مطلع شده اند یا خیر. در حالت ایده‌آل، قبل از اینکه مشتریانتان این کار را انجام دهند، باید متوجه شوید که چیزی اشتباه است.

هرج و مرج را در آغوش بگیرید

یکی از انقلابی‌ترین تغییرات ذهنی در انعطاف‌پذیری ابر، مفهوم تزریق ش،ت به تولید است. نتفلی، این مفهوم را به ،وان “مهندسی هرج و مرج” رسمی کرده است – و این ایده همانقدر جالب است که از نامش پیداست.

نتفلی، می خواست مهندسان خود را تشویق کند تا بدون توسل به مدیریت ،د، سیستم های مقاوم به خطا بسازند. آنها استدلال می ،د که اگر ،ابی سیستمیک به جای استثنا به ،وان یک هنجار در نظر گرفته شود، مهندسان چاره ای جز ساختن سیستم های مقاوم به خطا ندارند. مدتی طول کشید تا به آنجا برسیم، اما در نتفلی،، هر چیزی از سرورهای منفرد گرفته تا کل مناطق دسترسی به طور معمول در مرحله تولید خاموش می شود. انتظار می‌رود هر سرویس به طور خودکار چنین ،ابی‌هایی را بدون هیچ تأثیری بر در دسترس بودن سرویس برطرف کند.

این استراتژی گران و پیچیده است. اما اگر محصولی را ارسال می‌کنید که در آن زمان بالا نیاز مطلق است، تزریق ش،ت به تولید یک راه بسیار مؤثر برای به دست آوردن چیزی شبیه “اثبات سلامت” است. اگر محصول شما به این نیاز دارد، آن را در اسرع وقت ارسال کنید. هرگز آسان تر و ارزان تر از امروز نخواهد بود.

اگر مهندسی آشفتگی بیش از حد به نظر می رسد، حداقل باید از تیم های خود بخواهید که یک یا دو بار در سال یا قبل از راه اندازی هر ویژگی مهم، «روزهای بازی» (عملیات آموزشی قطعی شبیه سازی شده) را انجام دهند. در طول روز بازی، شما سه نقش خاص خواهید داشت – اولی یک قطع برق را شبیه‌سازی می‌کند، دومی بدون اینکه از قبل بداند چه چیزی ،اب است، آن را برطرف می‌کند و سومی مشاهده می‌کند و یادداشت‌های دقیق می‌گیرد. در مرحله بعد، کل تیم باید دور هم جمع شوند و یک حادثه شبیه سازی شده را پس از مرگ انجام دهند (به زیر مراجعه کنید). روز بازی شکاف‌ها را نه تنها در نحوه برخورد سیستم‌های شما با قطعی برق، بلکه در نحوه مدیریت مهندسین شما نیز آشکار خواهد کرد.

شما یک روند سخت پس از مرگ دارید

پس از مرگ یک شرکت چیزهای زیادی در مورد فرهنگ آن نشان می دهد. هر شرکت بزرگ فناوری از تیم‌هایی می‌خواهد که گزارش‌های پس از مرگ را در مورد قطعی‌های بزرگ بنویسند. این گزارش باید حادثه را توصیف کند، علل ریشه ای آن را بررسی کند و اقدامات پیشگیرانه را شناسایی کند. فرآیند کالبد شکافی باید دقیق باشد و از استانداردهای بالایی برخوردار باشد، اما هرگز نباید افراد را مقصر بداند. نوشتن پس از مرگ یک تمرین اصلاحی است، نه تنبیهی. اگر مهندس اشتباهی مرتکب شود، مسائل اساسی وجود دارد که باعث شده اشتباه رخ دهد. شاید به آزمایش بهتر یا نرده های محافظ بهتر در اطراف سیستم های حیاتی خود نیاز داشته باشید. به سراغ آن شکاف های سیستمیک بروید و آنها را برطرف کنید.

طراحی یک فرآیند قوی پس از مرگ می‌تواند موضوعی برای یک مقاله باشد، اما به جرات می‌توان گفت که داشتن آن می‌تواند به جلوگیری از قطع برق بعدی کمک کند.

به کار قابل اعتماد پاداش دهید

اگر مهندسان این تصور را داشته باشند که فقط ویژگی‌های جدید منجر به افزایش و ارتقاء می‌شوند، کار قابلیت اطمینان در جایگاه دوم قرار می‌گیرد. ا،ر مهندسان باید بدون در نظر گرفتن ارشدیت، به تعالی عملیاتی کمک کنند. به بهبود قابلیت اطمینان در بررسی عملکرد خود پاداش دهید. مهندسان ارشد خود را مسئول پایداری سیستم هایی که نظارت می کنند، قرار دهید.

اگرچه ممکن است این توصیه بدیهی به نظر برسد، اما از دست دادن آن آسان است.

نتیجه گیری

در این مقاله، برخی از ابزارهای ضروری را بررسی کردیم که قابلیت اطمینان را در فرهنگ شرکت شما تعبیه می کند. استارت‌آپ‌ها و شرکت‌های در مراحل اولیه معمولاً قابلیت اطمینان را در اولویت قرار نمی‌دهند. این قابل درک است – شرکت نوپای شما باید با وسواس بر اثبات تن، محصول با بازار برای اطمینان از بقا تمرکز کند. با این حال، هنگامی که یک پایگاه مشتری بازگشتی دارید، آینده شرکت شما به حفظ اعتماد بستگی دارد. انسان ها با قابل اعتماد بودن اعتماد پیدا می کنند. همین امر در مورد خدمات اینترنتی نیز صدق می کند.

Aditya Visweswaran یک مهندس نرم افزار ارشد در تیم پلتفرم امنیتی در Google Cloud است.

تصمیم گیرندگان داده

به انجمن VentureBeat خوش آمدید!

DataDecisionMakers مک، است که در آن کارشناسان، از جمله افراد فنی که کار داده را انجام می دهند، می توانند بینش ها و نوآوری های داده را به اشتراک بگذارند.

اگر می‌خواهید درباره ایده‌های پیشرفته، اطلاعات پیشرفته، بهترین شیوه‌ها و آینده فناوری داده و داده مطالعه کنید، به ما در DataDecisionMakers بپیوندید.

شما همچنین ممکن است در نظر داشته باشید که مقاله ای از خودتان ارائه دهید!

اطلاعات بیشتر را از DataDecisionMakers بخو،د


منبع: https://venturebeat.com/programming-development/the-human-factor-،w-companies-can-prevent-cloud-disasters/