به خبرنامه های روزانه و هفتگی ما بپیوندید تا از آ،ین به روز رس، ها و محتوای انحصاری در مورد پوشش هوش مصنوعی پیشرو در صنعت ما مطلع شوید. او بیشتر یاد می گیرد
شرکتهای بزرگ سخت کار میکنند تا مطمئن شوند خدماتشان مختل نمیشود، و دلیل آن ساده است – قطعیهای عمده به برند شما آسیب میزند و مشتریان را به سمت محصولات رقیب با سابقه بهتر سوق میدهد.
ایجاد یک سرویس اینترنتی قابل اعتماد یک مشکل فنی دشوار است، اما همچنین یک چالش انس، برای رهبران تجاری است. ایجاد انگیزه در تیم های مهندسی خود برای سرمایه گذاری در کار قابلیت اطمینان می تواند دشوار باشد، زیرا اغلب به ،وان هیجان انگیزتر از توسعه ویژگی های جدید در نظر گرفته می شود.
در مقیاس بزرگ، مشوق ها غالب هستند. شرکت های بزرگ فناوری هزاران کارمند را استخدام می کنند و صدها سرویس اینترنتی را اداره می کنند. در طول سالها، آنها راههای هوشمندانهای برای اطمینان از ساخت سیستمهای قابل اعتماد توسط مهندسان خود ارائه کردهاند. این مقاله تکنیکهای ارگونومی را مورد بحث قرار میدهد که به طور گسترده در موفقترین شرکتهای فناوری در تاریخ موفق بودهاند. شما می تو،د این را در شرکت خود اعمال کنید، خواه کارمند یا رهبر باشید.
چرخ می چرخد
بررسی عملیاتی AWS یک جلسه هفتگی است که برای کل شرکت باز است. در هر جلسه، “Wheel of Fortune” می چرخد تا یک سرویس AWS تصادفی را از میان صدها سرویس برای بررسی زنده انتخاب کند. تیم مورد بررسی باید به سؤالات رهبران عملیاتی با تجربه در مورد داشبوردها و معیارهای آنها پاسخ دهد. در این جلسه صدها کارمند، ده ها مدیر و تعدادی از معاونان رئیس جمهور حضور دارند.
این انگیزه هر تیم برای به دست آوردن یک سطح اولیه از کارایی عملیاتی است. حتی اگر احتمال انتخاب یک تیم منفرد کم باشد (در AWS، کمتر از 1%)، به ،وان مدیر یا سرپرست فنی تیم، واقعاً نمی خواهید در آن روز در مقابل نیمی از شرکت نادان ظاهر شوید. شما کار می کنید از شانس.
مهم است که معیارهای قابلیت اطمینان خود را به طور مرتب بررسی کنید. رهبر، که علاقه فعالی به سلامت عملیاتی دارند این لحن را برای کل سازمان تعیین می کنند. چرخاندن چرخ تنها یک ابزار برای رسیدن به این هدف است.
اما در این بررسی های عملیاتی چه می کنید؟ این ما را به نقطه بعدی هدایت می کند.
اه، قابلیت اطمینان قابل اندازه گیری را تعیین کنید
شما می خواهید «تایم بالا» یا «پنج نه» را داشته باشید، اما این واقعا چه م،ایی برای مشتریان شما دارد؟ تحمل تأخیر برای تعاملات زنده (چت) بسیار کمتر از بارهای کاری ناهمزمان (آموزش مدل یادگیری ماشینی، آپلود ویدیو) است. اه، شما باید منع، کننده چیزی باشد که مشتریان شما به آن اهمیت می دهند.
هنگامی که معیارهای تیم را بررسی می کنید، از آنها بخواهید اه، قابل اطمینان قابل اندازه گیری را توصیف کنند. مطمئن شوید که متوجه شده اید – و آنها هم می دانند – چرا این اه، را انتخاب کرده اید. سپس از آنها بخواهید از داشبوردهایی برای نشان دادن دستیابی به این اه، استفاده کنند. داشتن اه، قابل اندازه گیری به شما کمک می کند تا اقدامات قابل اعتماد را به روش داده محور اولویت بندی کنید.
این ایده خوبی است که روی مشکلات لکه بینی تمرکز کنید. اگر چیزی غیرعادی در داشبورد آنها مشاهده کردید، از آنها بخواهید که مشکل را توضیح دهند، اما همچنین از آنها بپرسید که آیا در حین تماس از مشکل مطلع شده اند یا خیر. در حالت ایدهآل، قبل از اینکه مشتریانتان این کار را انجام دهند، باید متوجه شوید که چیزی اشتباه است.
هرج و مرج را در آغوش بگیرید
یکی از انقلابیترین تغییرات ذهنی در انعطافپذیری ابر، مفهوم تزریق ش،ت به تولید است. نتفلی، این مفهوم را به ،وان “مهندسی هرج و مرج” رسمی کرده است – و این ایده همانقدر جالب است که از نامش پیداست.
نتفلی، می خواست مهندسان خود را تشویق کند تا بدون توسل به مدیریت ،د، سیستم های مقاوم به خطا بسازند. آنها استدلال می ،د که اگر ،ابی سیستمیک به جای استثنا به ،وان یک هنجار در نظر گرفته شود، مهندسان چاره ای جز ساختن سیستم های مقاوم به خطا ندارند. مدتی طول کشید تا به آنجا برسیم، اما در نتفلی،، هر چیزی از سرورهای منفرد گرفته تا کل مناطق دسترسی به طور معمول در مرحله تولید خاموش می شود. انتظار میرود هر سرویس به طور خودکار چنین ،ابیهایی را بدون هیچ تأثیری بر در دسترس بودن سرویس برطرف کند.
این استراتژی گران و پیچیده است. اما اگر محصولی را ارسال میکنید که در آن زمان بالا نیاز مطلق است، تزریق ش،ت به تولید یک راه بسیار مؤثر برای به دست آوردن چیزی شبیه “اثبات سلامت” است. اگر محصول شما به این نیاز دارد، آن را در اسرع وقت ارسال کنید. هرگز آسان تر و ارزان تر از امروز نخواهد بود.
اگر مهندسی آشفتگی بیش از حد به نظر می رسد، حداقل باید از تیم های خود بخواهید که یک یا دو بار در سال یا قبل از راه اندازی هر ویژگی مهم، «روزهای بازی» (عملیات آموزشی قطعی شبیه سازی شده) را انجام دهند. در طول روز بازی، شما سه نقش خاص خواهید داشت – اولی یک قطع برق را شبیهسازی میکند، دومی بدون اینکه از قبل بداند چه چیزی ،اب است، آن را برطرف میکند و سومی مشاهده میکند و یادداشتهای دقیق میگیرد. در مرحله بعد، کل تیم باید دور هم جمع شوند و یک حادثه شبیه سازی شده را پس از مرگ انجام دهند (به زیر مراجعه کنید). روز بازی شکافها را نه تنها در نحوه برخورد سیستمهای شما با قطعی برق، بلکه در نحوه مدیریت مهندسین شما نیز آشکار خواهد کرد.
شما یک روند سخت پس از مرگ دارید
پس از مرگ یک شرکت چیزهای زیادی در مورد فرهنگ آن نشان می دهد. هر شرکت بزرگ فناوری از تیمهایی میخواهد که گزارشهای پس از مرگ را در مورد قطعیهای بزرگ بنویسند. این گزارش باید حادثه را توصیف کند، علل ریشه ای آن را بررسی کند و اقدامات پیشگیرانه را شناسایی کند. فرآیند کالبد شکافی باید دقیق باشد و از استانداردهای بالایی برخوردار باشد، اما هرگز نباید افراد را مقصر بداند. نوشتن پس از مرگ یک تمرین اصلاحی است، نه تنبیهی. اگر مهندس اشتباهی مرتکب شود، مسائل اساسی وجود دارد که باعث شده اشتباه رخ دهد. شاید به آزمایش بهتر یا نرده های محافظ بهتر در اطراف سیستم های حیاتی خود نیاز داشته باشید. به سراغ آن شکاف های سیستمیک بروید و آنها را برطرف کنید.
طراحی یک فرآیند قوی پس از مرگ میتواند موضوعی برای یک مقاله باشد، اما به جرات میتوان گفت که داشتن آن میتواند به جلوگیری از قطع برق بعدی کمک کند.
به کار قابل اعتماد پاداش دهید
اگر مهندسان این تصور را داشته باشند که فقط ویژگیهای جدید منجر به افزایش و ارتقاء میشوند، کار قابلیت اطمینان در جایگاه دوم قرار میگیرد. ا،ر مهندسان باید بدون در نظر گرفتن ارشدیت، به تعالی عملیاتی کمک کنند. به بهبود قابلیت اطمینان در بررسی عملکرد خود پاداش دهید. مهندسان ارشد خود را مسئول پایداری سیستم هایی که نظارت می کنند، قرار دهید.
اگرچه ممکن است این توصیه بدیهی به نظر برسد، اما از دست دادن آن آسان است.
نتیجه گیری
در این مقاله، برخی از ابزارهای ضروری را بررسی کردیم که قابلیت اطمینان را در فرهنگ شرکت شما تعبیه می کند. استارتآپها و شرکتهای در مراحل اولیه معمولاً قابلیت اطمینان را در اولویت قرار نمیدهند. این قابل درک است – شرکت نوپای شما باید با وسواس بر اثبات تن، محصول با بازار برای اطمینان از بقا تمرکز کند. با این حال، هنگامی که یک پایگاه مشتری بازگشتی دارید، آینده شرکت شما به حفظ اعتماد بستگی دارد. انسان ها با قابل اعتماد بودن اعتماد پیدا می کنند. همین امر در مورد خدمات اینترنتی نیز صدق می کند.
Aditya Visweswaran یک مهندس نرم افزار ارشد در تیم پلتفرم امنیتی در Google Cloud است.
تصمیم گیرندگان داده
به انجمن VentureBeat خوش آمدید!
DataDecisionMakers مک، است که در آن کارشناسان، از جمله افراد فنی که کار داده را انجام می دهند، می توانند بینش ها و نوآوری های داده را به اشتراک بگذارند.
اگر میخواهید درباره ایدههای پیشرفته، اطلاعات پیشرفته، بهترین شیوهها و آینده فناوری داده و داده مطالعه کنید، به ما در DataDecisionMakers بپیوندید.
شما همچنین ممکن است در نظر داشته باشید که مقاله ای از خودتان ارائه دهید!
اطلاعات بیشتر را از DataDecisionMakers بخو،د
منبع: https://venturebeat.com/programming-development/the-human-factor-،w-companies-can-prevent-cloud-disasters/