Tillgänglighet

studiox · 2009-01-28, 00:08

Hej,

Detta kanske är lite OT i just webbhotell forumet men det är nog här det passar bäst in.

Jag håller på att sätta ihop dom sista detaljerna kring en funktion som mäter tillgänglighet på webbhotell. Men jag har inte riktigt bestämt på vilket sätt som är bäst o mäta.

Formeln är iaf (antalet misslyckade försök / (antalet lyckade försök + antalet misslyckade försök))
Nu sker sampling var 10

nde minut (Om du äger ett webbhotell kanske du sett min spindel i loggarna redan..)

Nu till det intressanta. Hur ska man visa datat? Jag var lite inne på att enbart visa siffror för en månad, som då tar hänsyn till samtliga mätpunkter (Det kommer ju ta en stund o köra med tanke på att allt data samplas 6x i timmen), alternativet är att ta fram timdata, dvs. 24 mätpunkter per dygn, eller en per dygn. Eftersom alla (?) webbhotell mäter tillgänglighet per månad borde det ju ändå vara detta som man borde komma fram till?

Men kan det finnas anledning att ta fram annat data? Exempelvis tillgänglighet på dygnet? Har man Amerikanska besökare så kanske man vill ha bra tillgänglighet på natten? (Då många svenska webbhotell har servicefönster)

Vad tycker ni? (Dels webbhotellen och ni som är kunder :-) )

patrikweb · 2009-01-28, 00:30

Bör mätas på:

* Nät
* Per Server

Sedan bör den räkna totalt tid i avbrott per varje server, antal avbrott och tid på dygnet avbrott är.

Så om du får avbrott varje tidig morgon för du kör backup eller laddar om config så bör den känna av det.

Allt handlar inte om nertid i tid alltid utan antal avbrott med, 1h nertid med 1 avbrott eller 100 små avbrott kan vara stor skildnad på.

emilv · 2009-01-28, 00:48

Tänk på att även du kan ha problem i din uppkoppling. Ska det bli rättvisa data behöver du ha flera utspridda mätklienter och även ta hänsyn till att en mätpunkt kan misslyckas medan alla andra fortfarande lyckas.

Gör som Pingdoms GIGRIB-tjänst:
http://uptime.pingdom.com/general/methodology
Det är en rättvisande metod tycker jag.

Ju fler mätpunkter per dag du har desto säkrare blir din statistik. Det är fullt möjligt för delar av ett webbhotell att ligga nere bara några minuter. Nedtid över en halvtimme skulle jag vilja påstå är oerhört ovanligt. Eftersom vi har en upptidsgaranti på 99,9% för våra största kunder (och 99% på alla tjänster oavsett nivå) så måste vi ha mer exakta mätningar än en gång i timmen, kanske till och med mer exakt än var tionde minut. Vårt eget system mäter en gång i minuten från flera olika mätpunkter (har för mig att vi har fem utspridda mätklienter i dagsläget men vi har planer på att dra igång fler).

Vad är det förresten du mäter? Webbhotellens egna hemsidor eller kundhemsidor? Jag misstänker att vi inte är det enda webbhotellet som har sin egen sajt på andra servrar än kundernas sajter. Jag kan avslöja att Levonline.com ligger på en egen ensam maskin, på ett annat nät i hallen. Webbklustren hos Levonline är i en miljö med teknik anpassad särskilt för hög tillgänglighet för webbsidor (bland annat genom lastbalanserade kluster där minst två webbservrar i varje kluster kan krascha samtidigt utan att det påverkar upptiden för sajten), samt även bakom ytterligare en router. Är det då rättvist att mäta vår egen sajt när kunderna ligger i en annan miljö?

studiox · 2009-01-28, 01:15

Citat:

Ursprungligen postat av emilv

Tänk på att även du kan ha problem i din uppkoppling. Ska det bli rättvisa data behöver du ha flera utspridda mätklienter och även ta hänsyn till att en mätpunkt kan misslyckas medan alla andra fortfarande lyckas.
Gör som Pingdoms GIGRIB-tjänst:
http://uptime.pingdom.com/general/methodology
Det är en rättvisande metod tycker jag.

Självklart är det så. Tanken är att likna GIGRIB där vi vill ha flera klienter, helst hos webbhotellen (då vi får bra redundans på nätsidan per automatisk) Som det ser ut idag kommer vi mäta från två nät innan vi går live och har "partners".

Citat:

Originally posted by -emilv@Jan 28 2009, 01:48

Ju fler mätpunkter per dag du har desto säkrare blir din statistik. Det är fullt möjligt för delar av ett webbhotell att ligga nere bara några minuter. Nedtid över en halvtimme skulle jag vilja påstå är oerhört ovanligt. Eftersom vi har en upptidsgaranti på 99,9% för våra största kunder (och 99% på alla tjänster oavsett nivå) så måste vi ha mer exakta mätningar än en gång i timmen, kanske till och med mer exakt än var tionde minut. Vårt eget system mäter en gång i minuten från flera olika mätpunkter (har för mig att vi har fem utspridda mätklienter i dagsläget men vi har planer på att dra igång fler).

Ja, det är samma problematik jag brottats med. 10 minuters sampling är det "långsammaste" som jag har kunnat motivera mig själv med, men även 1min och 5min har varit med på tapeten.

Citat:

Ursprungligen postat av emilv

Vad är det förresten du mäter? Webbhotellens egna hemsidor eller kundhemsidor? Jag misstänker att vi inte är det enda webbhotellet som har sin egen sajt på andra servrar än kundernas sajter. Jag kan avslöja att Levonline.com ligger på en egen ensam maskin, på ett annat nät i hallen. Webbklustren hos Levonline är i en miljö med teknik anpassad särskilt för hög tillgänglighet för webbsidor (bland annat genom lastbalanserade kluster där minst två webbservrar i varje kluster kan krascha samtidigt utan att det påverkar upptiden för sajten), samt även bakom ytterligare en router. Är det då rättvist att mäta vår egen sajt när kunderna ligger i en annan miljö?

Just nu innan lanseringen är det dom "riktiga" sajterna, som i ert fall är www.levonline.se (som har en bra svarstid) vi mäter.
Men tanken är att mäta kundsidor när vi går "live" - Men det förutsätter att vi får konton på alla webbhotell, eller ett hostname som ligger i den "riktiga" kundmiljön. Vissa webbhotell har ju inte ens sin primära sida på samma internetförbindelse (för dom webbhotellen som inte själva kör BGP exempelvis) - just för att vara tillgänliga även vid driftstörningar.

Vi skulle också vilja mäta tillgänlighet av databaser och mailköer. Men vi måste ta en sak i taget (om ingen ger oss en stor påse pengar dvs.)

patrikweb · 2009-01-28, 01:49

Pingdom "Publika" GIGRIB suger extremt mycket. Den visar extremt mycket mer nertid än deras betaltjänst.

Men har mycket med att det är så många som har sunkig internetuppkopplingar som mäter och skapar stats.

Mätningen blir lite mer komplicerad hos oss riktiga leverantörer som har nät i flera städer och möjligen även flera fysiska lastbalanserare.

Så belastning och redundans beror mycket på vilken del av sverige trafiken kommer in eller ut.

Det märker man att det kan hända att en leverantör får problem i en viss del av sverige och inte kan nå någon minut tills den konvergerat till annat håll i ringen.

Hur ska du mäta svarstid? ICMP kan man nästan glömma om man vill ha vettigt resultat.

Alla fall när man shapar ut sådant, normalt så får man random DDoS rätt ofta upp till Gbit.

Bästa är mäta från Stockholm, Malmö, Göteborg från olika leverantörer då får man ett bra resultat.

Magnus_A · 2009-01-28, 11:05

Mätning är inte lätt och det kräver lite kunskaper i statistik för man inte ska mäta ihjäl sig.
När du gör enstaka mätningar på ett värde (uppe/nere) så vill du inte mäta kontinuerligt, det skulle ta för mycket bandbredd.
Först måste du veta vad du ska mäta och på vilken tidsenhet. Är det ett helt dygn, en hel timme, en hel minut eller ännu kortare intervaller?

Sen måste man betänka hur många prov som ska tas . Gäller det heltimmar så är det ~ 10 000 heltimmar/ år.
om du väljer att mäta 100 gånger under året, slumpmässigt uttaget, får du ett prov på 100 ur en population på 10000.
Låt oss säga att 10 av de 100 i provet gav utslag( indikerade att servern var nere). Det betyder att 10% av mätvärdena gav utslag.
Kan man då hävda att servern är nere 10% av tiden?
Nej!
Det man kan säga är att i ett sannolikhetsintervall om (t ex) 95% är serverna nere 10% av tiden med en felmarginal på xx % upp eller ner.
Ju högre sannolihetsintervall, desto större blir felmarginalen. Vanligast är att använda 95% i vetenskaplig litteratur, men det finns skrupelfria gynnare som använder neråt 70%.
Hur stor felmarginalen är beror på 1) förhållandet mellan totala populationen , i detta fall antal timmar/ år, och provets storlek, 100 mätpunkter i detta fall. 2) det valda sannoliketsintervallet. se ovan och 3) Hur stor andel av provet som visar utslag, ju mindre andel desto mindre felmarginal.

Antiklimax: Nu kan jag inte formeln för detta i detalj, men det är en av statistikens grundläggande sammanhang. kan man använda den skickligt så får man mycket information även med få mätpunkter.

En praktisk tillämpning av detta är i alla dessa väljarundersökningar som görs. Det räcker alltså med att fråga 1000 personer av ett antal miljoner för att med 95% sannolikhet få ett värde med en felmarginal på 1,5-2,5% beroende på storlek på partiet.
Man förstår lätt att slumpen skördar så att även om ingen ändrar åsikt så kommer man att få lite olika resultat varje gång man gör undersökningen. Det är inom felmarginalen, och folk som spekulerar i förändringar inom felmarginalen tillhör samma förtappade skara som spelar bort förmögenheter på jack vegas-apparater.

I ditt fall handlar det om att mäta små avvikelser nära noll, och det kräver ännu mer eftertanke. Vad betyder det när du tar ut en provserie på 1000 prov och ett visar att servern är nere? Vad betyder det om inget visar att servern är nere?

Mickee · 2009-01-28, 13:04

lite off såhär men:

Kan du inte mäta tillgänglighet på supporten/driftansvariga med? :-)

BoISaren · 2009-01-28, 14:36

Citat:

Originally posted by Mickee@Jan 28 2009, 13:04
lite off såhär men:

Kan du inte mäta tillgänglighet på supporten/driftansvariga med? :-)

Då skulle inte många webbhotell ens komma upp i 60%.

Danielos · 2009-01-28, 14:40

Citat:

Ursprungligen postat av BoISaren

Citat:

Ursprungligen postat av Mickee

lite off såhär men:
Kan du inte mäta tillgänglighet på supporten/driftansvariga med? :-)

Då skulle inte många webbhotell komma upp ens i 60%.

Fast de flesta behöver bara får tag supporten/driftansvariga när det inte fungerar.

Jag föredrar att ligga på ett webbhotell som alltid funkar till 100% där man inte så ofta får tag på support, än att ligga på ett hotell som knappt inte fungerar, men där man får tag på support snabbt 24/7

Supportpersonal kostar och kan man lägga den kostnaden på hårdvara och uppetid är det att föredra.

studiox · 2009-01-28, 14:46

Tack för ditt svar Magnus

I det här fallet så handlar det om webbhotell och frekvensen är var 10

nde minut, dvs. vi gör 144 mätningar per dygn, eller 52 560 per år. Det ger ett par miljoner mätningar om man tittar på samtliga aktörer och om vi ska ha flera mätpunkter.

Det är dock inte ett tekniskt problem, då vi har gott om bandbredd (Ibland kan det ju vara fördel att äga ett webbhotell själv) och själva mätningarna laddar iofs. ner en html sida, ink. headers, men sidan kan vi strunta i, då det är headern som är viktigast. (Vi tar sidan också just nu som "Debug-info" då vi lätt kan gå tillbaka o se om exempelvis en lastbalanserare genererade nån output.

Eftersom det INTE handlar om urval så behöver vi inte tillämpa delar av statistiken mantra här. Däremot är vi lite osäkra på hur vi över tiden ska behålla data, och vad vi ska grunda det på. Exempelvis ska en års-uptime vara baserat på faktiskt alla 52 560 mätpunkter (Ok databasen kommer svälla upp o bli gigantisk stor och det kommer ta en stund o rassla igenom allt) eller kommer det vara baserat på medelvärdet av exempelvis en hel månads data. Det är sådana saker jag funderar på.

Just nu mäter vi en månads tillgänglighet genom alla drygt 4000 mätpunkter, men man kan ju tänka sig att även där titta på medelvärdet av varje dygns mätningar.

Eftersom vi pratar (hoppas jag oftast iaf) om tillgängligheter på 99.9x % så är det ju otroligt viktigt att vi får en hög sampling och använder medelvärden så lite som möjligt.

Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)

Menu

Tillgänglighet