19. Sometimes time proves you are wrong……. Microsoft server crash nearly causes 800-plane pile-up Failure to restart system after 30 days caused data overload. A major breakdown in Southern California's air traffic control system last week was partly due to a "design anomaly" in the way Microsoft Windows servers were integrated into the system, according to a report in the Los Angeles Times. The radio system shutdown, which lasted more than three hours, left 800 planes in the air without contact to air traffic control, and led to at least five cases where planes came too close to one another, according to comments by the Federal Aviation Administration reported in the LA Times and The New York Times. Air traffic controllers were reduced to using personal mobile phones to pass on warnings to controllers at other facilities, and watched close calls without being able to alert pilots, according to the LA Times report. The failure was ultimately down to a combination of human error and a design glitch in the Windows servers brought in over the past three years to replace the radio system's original Unix servers, according to the FAA. The servers are timed to shut down after 49.7 days of use in order to prevent a data overload, a union official told the LA Times. To avoid this automatic shutdown, technicians are required to restart the system manually every 30 days. An improperly trained employee failed to reset the system, leading it to shut down without warning, the official said. Backup systems failed because of a software failure, according to a report in The New York Times. The contract for designing the system, called Voice Switching and Control System (VSCS), was awarded to Harris Corporation in 1992 and the system was installed in the late 1990s, initially using Unix servers, according to Harris. In 2001, the company completed testing of the VSCS Control Subsystem Upgrade (VCSU), which replaced the original servers with off-the-shelf Dell hardware running Microsoft Windows 2000 Advanced Server. The upgrade was installed in California last year, according to the FAA. Soon after installation, however, the FAA discovered that the system design could lead to a radio system shutdown, and put the maintenance procedure into place as a workaround, the LA Times said. The FAA reportedly said it has been working on a permanent fix but has only eliminated the problem in Seattle. The FAA is now planning to institute a second workaround - an alert that will warn controllers well before the software shuts down. The shutdown is intended to keep the system from becoming overloaded with data and potentially giving controllers wrong information about flights, according to a software analyst cited by the LA Times. Microsoft told Techworld it was aware of the reports but was not immediately able to comment.
20.
21.
Notas do Editor
Tijdsdruk is toegenomen Tegenwoordig maken we hele grote, complexe systemen waar we ons leven aan toevertrouwen. We werken tegenwoordig met zeer abstracte ontwikkeltalen: je kunt daar wel eens problemen in compilers ontdekken
Basisgedachte van het testen is dat je voornamelijk bezig bent met het beoordelen van dingen die echt belangrijk zijn en gevaar kunnen introduceren. Gestructureerd volgens het V-Model
Een lijst van incidenten die een systeem gevaarlijk kunnen laten handelen, dit kunnen ook schakels in een keten zijn, dus ook invloeden van buitenaf die zaken kunnen verstoren. Voorbeelden zijn: Stroomstoringen Uitval van (andere delen) van een keten van systemen Belangrijke risico’s zijn vaak veel meer dan gewoon uitval van het systeem: Systemen zijn niet onfaalbaar : als componenten (hardware) uitvalt dan moet dit gecontroleerd zijn. Zeker bij grotere systemen wil een component wel eens raar gedrag bij falen vertonen of netwerken ruis gaan genereren. Niet preciese/onbetrouwbare dataverwerking kan rampzalig zijn in zaken als reactorbeveiliging en waterkeringen, terwijl systemen wel blijven draaien Het begrijpen van een user-interface is van zeer groot belang als dat onderdeel is van een keten. In veel veiligheids-kritische systemen is de mens uiteindelijk de beslisser in een complexe keten van systemen. Het is dus van vitaal belang dat die gebruiker intuitief de gebruikersinterface begrijpt. Bij luchtverkeersleidingsystemen bijvoorbeeld is het van essentieel belang dat controllers de juiste (op maat gesneden) info krijgen. Bij kerncentrales worden digitale metingen omgezet in analoge meters, omdat operators dat sneller intuitief begrijpen
Veel test-scenario’s zijn direct te relateren aan risico’s die het systeem loopt of die het systeem introduceert: Functioneel gedrag dat veiligheidskritisch is zoals het sluiten van een kering bij hoog water Bijvoorbeeld het handelen naar aanleiding van Stroomstoringen en Uitval van andere systemen, netwerken etc. Maar ook het onderzoeken of gebruikers de user-interfaces begrijpen
Truc is natuurlijk wel om te zorgen dat de juiste risico’s worden afgedekt met de juiste testmethoden: Bepaald faalgedrag kun je alleen onderzoeken door middel van een combinatie van formele methoden, Dynamischa analyses en Failure analysis Voorbeelden: Faalgedrag van individuele PLC’s op de Oosterschelde is eerst getest door Simulatie en vervolgens tijdens testen nogmaals getest Uitval van radarbeelden van een luchtverkeersleidingcentrum worden getest door een combinatie van Dynamische analyse, performance testing en failure testing Functioneel veiligheids-gedrag van Beveiligins PLC’s voor zware industrie worden bijvoorbeeld met probabalistische methoden en Dynamische analyses volledig getest (zijn klein genoeg
If requirements are good: it becomes a subset of normal testing
However: functionality can be in sharp contrast with safety: A nuclear powerplant that is constantly stopped by safety systems is very safe (but not productive) Things like “nice-to haves” or non-safety critical functionality are not of concern of a safety-tester You do things in increasing risk……
Zaken die gebeuren tijdens bouwen/installatie beinvloeden wat je weet van de omgeving . Bij Eurontrol bijvoorbeeld bleek dat een masale herstart van alle stations wel eens een stroomstoring kan veroorzaken. Risico’s komen voort uitgevingen en bedreigen omgevingen. Omgevingen veranderen waardoor je risico’s kunnen wijzigen . Een voorbeeld: modificaties aan installaties kunnen spontaan componenten veiligheidskritisch maken Nieuwe soorten risico’s : Spontaan kunnen zaken veiligheidskritisch blijken. Maar het kan blijken dat de scope van je risico’s wel eens te klein is. Een voorbeeld: tot 11 september 2001 was seperatie van vliegtuigen het enige dat veiligheidskritisch was. Na 11 september was deviatie van de route ineens ook veiligheidskritisch.
Besmetting van testers met oplossingen: de common mode failure kan ook in de gedachten van mensen zitten
Three different types of fail-safe behaviour of DCF-77 clocks can kill all communications!
Een controller in mexico die in zijn haast 25 karakters zeer snel inklopt en daarmee een compleet luchtverkeersleidingssysteem plat legt…