Netflix' Chaos Monkey And Supply Chain

Jeg hadde nylig en samtale med Carlos Crespo, Chief Operating Officer i Zaras morselskap Inditex, der han nevnte et programvareverktøy laget av Netflix for over et tiår siden for å institusjonalisere systemets motstandskraft. Navnet er fengende, og for leverandørkjedeledere som prøver å gjenoppfinne sine forsyningsnettverk for turbulente tider, er det uimotståelig. Og likevel en GoogleGOOG
søk etter "forsyningskjeden kaos monkey" ga nøyaktig ett sitat, fra 2012.

Hvorfor bruker vi ikke denne ideen på motstandskjeden?

Hva er Chaos Monkey?

Det er en programvareverktøy, og mer generelt, et ingeniørprinsipp som tilfeldig stenger deler av et komplekst system som tvinger operatører til å komme seg live. Litt som en overraskelsesbrannøvelse, men daglig, og på tilfeldige måter og steder. Tanken er at det å bli flink til å løse systemproblemer raskt er en læringsprosess som bør dra nytte av en brattere læringskurve.

Bakgrunnen handler om hvordan Netflix skalert sin strømmevirksomhet på Amazon Web Services mens de gikk over fra å sende DVDer til kundens dørstokker. Ved første rødhet er det en logisk tilnærming til systemredundansplanlegging, som det du forventer fra NASA, men i praksis utnytter den en Netflix kulturell norm for å la individuelle bidragsytere løse sine egne problemer. Som kronisert i "Kaos Engineering” en bok fra 2020 av Casey Rosenthal og Nora Jones som var banebrytende for praksisen hos Netflix, den koker ned til fem prinsipper:

  • Bygg en hypotese rundt steady-state atferd
  • Varier hendelser i den virkelige verden
  • Kjør eksperimenter i produksjon
  • Automatiser eksperimenter for å kjøre kontinuerlig
  • Minimer sprengningsradius

Blandingen av kultur og prosess hos Netflix er viktig fordi den fremmet og utnyttet en åpen kildekode-tilnærming til problemløsning, samtidig som man systematisk snur rattet med tilfeldige nedleggelser fremskynder læringen på tvers av det utvidede teamet.

Supply Chain Resilience og Chaos Engineering

Digital transformasjon i forsyningskjeden har vært varmt i år fordi det hjelper forsyningskjeder med å støtte nye forretningsmodeller og drive mot bærekraftig drift (se BCG X-studien), men også fordi den lover "resiliens". Dessverre koker praktiske anvendelser av digital transformasjon for robusthet i forsyningskjeden fortsatt generelt ned til plattformer for bedre "synlighet", støttet av en haug med tradisjonelle taktikker som lagerbuffring og dobbel sourcing. Understøttelsen av denne tilnærmingen er et annet lag med analytisk arbeid tid til å bli frisk av David Simchi-Levi ved MIT, og en bølge av simuleringer ved bruk av digitale tvillinger. Alt dette høres bra ut, men det som mangler er enhver systematisk måte å eksperimentere med reell forsyningskjedesvikt for å lære hvordan man best kan komme seg i praksis.

Bruker Chaos Monkey til forsyningskjeder

Leger avlegger den hippokratiske ed før de skjærer oss opp, inkludert det berømte «først gjør ingen skade». Ikke en dårlig idé for alle som bruker Chaos Monkey-prinsipper på forsyningskjeder, noe som innebærer å tilfeldig slå av en ekte maskin et sted. Dette er ikke-trivielt, og så vidt jeg vet, skjer det ennå ikke noe sted.

  • Det første prinsippet sitert ovenfor sier å fokusere på systemutganger i stedet for interne attributter. Bekreft at systemet fungerer i stedet for å prøve å forstå hvorfor det fungerer.
  • Det andre prinsippet sier å bryte forskjellige ting på realistiske måter. Du trenger ikke å simulere global termonukleær krig, bare slå av en bryter eller miste en ordre og finn ut hva som fungerer best.
  • Det tredje prinsippet sier at det beste stedet å lære er i produksjon. Å lære ved å gjøre er bedre enn å lære ved å simulere – dvs. digitale tvillinger er flotte, men de er kanskje ikke nok til å bygge en resilienskultur.
  • Det fjerde prinsippet institusjonaliserer kaosapeprinsipper fordi det gir mulighet for å skalere eksperimenteringsprosessen, noe som får deg til en brattere læringskurve. Bruk datavitenskap om brannslukking.
  • Til slutt, minimer sprengningsradius. Dette betyr «gjør ingen skade» og oversettes til en slags buffering (beholdning, leveringstid, fremskyndet skip) for å beskytte kundene mot å føle eksperimentet ditt. Lær å håndtere kontrollerte eksplosjoner.

Man kan hevde at de siste tre årene av Covid, krig, arbeidsuro, og økonomisk uro har vært en stor kaos-ape tørrkjøring for alle. Netflix' leksjon var at denne typen kriser ikke bare er noe å planlegge for, men noe å mestre som et permanent faktum.

Den perfekte stormen tar kanskje aldri slutt, så kanskje vi burde lære å leve med den.

Kilde: https://www.forbes.com/sites/kevinomarah/2022/12/22/netflix-chaos-monkey-and-supply-chain/