O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Cas18 sobreviviendo en producción / Gestión de Incidencias y aprendizajes

47 visualizações

Publicada em

Presentación para la CAS2018.
Actualmente los sistemas basados en software evolucionan de forma constante y cada vez son más complejos. Para poder opearar y evolucionar estos sistemas adaptativo complejos, debemos ser capaces de usar el feedback que nos da, mejorar la resiliencia, la operabilidad y descubrir los compartamientos emergentes que aparezcan.

Una de las prácticas más útiles que he empleado para conseguir este objetivo consiste en gestionar y tratar en grupo cualquier incidencia en producción y crear blameless Incidents Reports a partir de los cuales aprendemos y decidimos los siguientes pasos de mejora para el sistema.

Esta práctica tiene las siguientes ventajas:

Mejora continua del sistema partiendo de hechos reales (incidencias) en vez de a partir de ideas no validadas (como pasa muchas veces con las funcionalidades sugeridas por los stakeholders).
Generación de una cultura de experimentación, basada en el aprendizaje y en cultura de seguridad sicologica.
Busqueda sistematica de la excelencia técnica, tanto para la operación del sistema como para el desarrollo.

Publicada em: Engenharia
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Cas18 sobreviviendo en producción / Gestión de Incidencias y aprendizajes

  1. 1. Sobreviviendo en Producción Gestión de Incidencias Edu Ferro Aldama @eferro
  2. 2. Agenda o Contexto o Equipos Alto Rendimiento o Gestión de incidencias o Artefactos o Introduciendo el proceso o Ejemplos o Conclusiones 2
  3. 3. Contexto
  4. 4. Mi contexto o Empresas producto o Creación/Crecimiento equipo o [Remoto] o Introducción Cultura Ágil ■ Devops culture ■ Desarrollo Software Ágil (XP) 4
  5. 5. 5
  6. 6. Cultura Agil o Colaboración o Mejora continua o Aprendizaje continuo o Excelencia técnica o Transparencia 6
  7. 7. Incidencias en producción 7
  8. 8. Equipos Alto Rendimiento
  9. 9. 1 Seguridad psicológica ¿Podemos tomar riesgos en este equipo sin sentirnos inseguros o avergonzados? 9 five-keys-to-a-successful-google-team
  10. 10. Gestión de Incidencias
  11. 11. Históricamente o Silo operaciones o Mucha presión / Miedo o Búsqueda de culpables o Problemas recurrentes o Esconder problemas o Cultura Héroes 11
  12. 12. 1 Seguridad psicológica ¿Podemos tomar riesgos en este equipo sin sentirnos inseguros o avergonzados? 12 five-keys-to-a-successful-google-team
  13. 13. Gestión Incidencias Ágil o Maximiza Colaboración o Maximiza Aprendizaje o Mejora del sistema o Transparente o Reduce Miedo o Evita cultura heroes o Impide esconder problemas 13
  14. 14. Proceso
  15. 15. 15
  16. 16. 16
  17. 17. Incident Commander o War room o (Blameless) Incident Report (IR) o Notifica incidencia o Recluta y Coordina o Comunica periódicamente (30m) o Puede pasar el cargo 17
  18. 18. 18
  19. 19. Recuperar servicio o Hipótesis o Validación o Acción o Repetir o Coordinado en el war room o Publicado tiempo real IR 19
  20. 20. 20
  21. 21. 21
  22. 22. Investigación o Hipotesis o Validación o Documentacion o Repetir o Equipo reducido o Publicado tiempo real IR 22
  23. 23. 23
  24. 24. Definición Acciones Correctivas y Preventivas o Trabajo de alta prioridad Objetivos: o Reducir MTTR o Reducir Blast Radius o Evitar este escenario y similares 24
  25. 25. Mean Time to Recover (MTTR) o Tiempo hasta reacción o Tiempo de solución (fix/rollback) Comúnmente t. reacción > t. Solución 25
  26. 26. 26
  27. 27. Flujo normal de desarrollo o Prioridad alta (valor asegurado) o Mejora el sistema o Motiva al equipo 27
  28. 28. 28
  29. 29. Artefactos
  30. 30. War Room
  31. 31. o Video Conf o Incident commander ■ invita ■ Coordina ■ Cierra 31
  32. 32. Blameless Incident Report
  33. 33. o Blameless o Actualización tiempo real o Público a toda la compañía 33
  34. 34. 34 Blameless IR Template
  35. 35. 35 Blameless IR Template Tiempo Real
  36. 36. 36 Blameless IR Template Semi Tiempo Real Prioridad
  37. 37. 37 Blameless IR Template
  38. 38. Facilitación Introduciendo el proceso
  39. 39. “ Hard on systems. Soft on people. Tim Ottinger 39
  40. 40. Actúa en el sistema 40 Genera hábito Lidera (sé ejemplo) Muéstrate vulnerable
  41. 41. Prioridad para tech 41Asegura acciones correctivas Refuerza los aprendizajes
  42. 42. 42
  43. 43. Ejemplos Blameless IR
  44. 44. 44
  45. 45. 45
  46. 46. 46
  47. 47. 47
  48. 48. Conclusiones
  49. 49. Beneficios o Ayuda cultura Agile / DevOps o Genera Confianza o Genera Seguridad Psicológica 49
  50. 50. Beneficios o Transmite profesionalidad o Genera mejora continua o Genera cultura aprendizaje o Visibiliza lo invisible 50
  51. 51. 51 Nextail (en especial InfraOps squad) Honey Badger team @maduil Mario del Valle Presentación: https://www.slidescarnival.com/ Fotos: https://www.pexels.com/ Gracias
  52. 52. Gracias @eferro

×