FAQ |
Kalender |
2009-01-28, 00:08 | #1 | ||
|
|||
Har WN som tidsfördriv
|
Hej,
Detta kanske är lite OT i just webbhotell forumet men det är nog här det passar bäst in. Jag håller på att sätta ihop dom sista detaljerna kring en funktion som mäter tillgänglighet på webbhotell. Men jag har inte riktigt bestämt på vilket sätt som är bäst o mäta. Formeln är iaf (antalet misslyckade försök / (antalet lyckade försök + antalet misslyckade försök)) Nu sker sampling var 10nde minut (Om du äger ett webbhotell kanske du sett min spindel i loggarna redan..) Nu till det intressanta. Hur ska man visa datat? Jag var lite inne på att enbart visa siffror för en månad, som då tar hänsyn till samtliga mätpunkter (Det kommer ju ta en stund o köra med tanke på att allt data samplas 6x i timmen), alternativet är att ta fram timdata, dvs. 24 mätpunkter per dygn, eller en per dygn. Eftersom alla (?) webbhotell mäter tillgänglighet per månad borde det ju ändå vara detta som man borde komma fram till? Men kan det finnas anledning att ta fram annat data? Exempelvis tillgänglighet på dygnet? Har man Amerikanska besökare så kanske man vill ha bra tillgänglighet på natten? (Då många svenska webbhotell har servicefönster) Vad tycker ni? (Dels webbhotellen och ni som är kunder :-) ) |
||
Svara med citat |
2009-01-28, 00:30 | #2 | ||
|
|||
Klarade millennium-buggen
|
Bör mätas på:
* Nät * Per Server Sedan bör den räkna totalt tid i avbrott per varje server, antal avbrott och tid på dygnet avbrott är. Så om du får avbrott varje tidig morgon för du kör backup eller laddar om config så bör den känna av det. Allt handlar inte om nertid i tid alltid utan antal avbrott med, 1h nertid med 1 avbrott eller 100 små avbrott kan vara stor skildnad på. |
||
Svara med citat |
2009-01-28, 00:48 | #3 | |||
|
||||
Bara ett inlägg till!
|
Tänk på att även du kan ha problem i din uppkoppling. Ska det bli rättvisa data behöver du ha flera utspridda mätklienter och även ta hänsyn till att en mätpunkt kan misslyckas medan alla andra fortfarande lyckas.
Gör som Pingdoms GIGRIB-tjänst: http://uptime.pingdom.com/general/methodology Det är en rättvisande metod tycker jag. Ju fler mätpunkter per dag du har desto säkrare blir din statistik. Det är fullt möjligt för delar av ett webbhotell att ligga nere bara några minuter. Nedtid över en halvtimme skulle jag vilja påstå är oerhört ovanligt. Eftersom vi har en upptidsgaranti på 99,9% för våra största kunder (och 99% på alla tjänster oavsett nivå) så måste vi ha mer exakta mätningar än en gång i timmen, kanske till och med mer exakt än var tionde minut. Vårt eget system mäter en gång i minuten från flera olika mätpunkter (har för mig att vi har fem utspridda mätklienter i dagsläget men vi har planer på att dra igång fler). Vad är det förresten du mäter? Webbhotellens egna hemsidor eller kundhemsidor? Jag misstänker att vi inte är det enda webbhotellet som har sin egen sajt på andra servrar än kundernas sajter. Jag kan avslöja att Levonline.com ligger på en egen ensam maskin, på ett annat nät i hallen. Webbklustren hos Levonline är i en miljö med teknik anpassad särskilt för hög tillgänglighet för webbsidor (bland annat genom lastbalanserade kluster där minst två webbservrar i varje kluster kan krascha samtidigt utan att det påverkar upptiden för sajten), samt även bakom ytterligare en router. Är det då rättvist att mäta vår egen sajt när kunderna ligger i en annan miljö? |
|||
Svara med citat |
2009-01-28, 01:15 | #4 | |||
|
||||
Har WN som tidsfördriv
|
Citat:
Citat:
Citat:
Men tanken är att mäta kundsidor när vi går "live" - Men det förutsätter att vi får konton på alla webbhotell, eller ett hostname som ligger i den "riktiga" kundmiljön. Vissa webbhotell har ju inte ens sin primära sida på samma internetförbindelse (för dom webbhotellen som inte själva kör BGP exempelvis) - just för att vara tillgänliga även vid driftstörningar. Vi skulle också vilja mäta tillgänlighet av databaser och mailköer. Men vi måste ta en sak i taget (om ingen ger oss en stor påse pengar dvs.) |
|||
Svara med citat |
2009-01-28, 01:49 | #5 | ||
|
|||
Klarade millennium-buggen
|
Pingdom "Publika" GIGRIB suger extremt mycket. Den visar extremt mycket mer nertid än deras betaltjänst.
Men har mycket med att det är så många som har sunkig internetuppkopplingar som mäter och skapar stats. Mätningen blir lite mer komplicerad hos oss riktiga leverantörer som har nät i flera städer och möjligen även flera fysiska lastbalanserare. Så belastning och redundans beror mycket på vilken del av sverige trafiken kommer in eller ut. Det märker man att det kan hända att en leverantör får problem i en viss del av sverige och inte kan nå någon minut tills den konvergerat till annat håll i ringen. Hur ska du mäta svarstid? ICMP kan man nästan glömma om man vill ha vettigt resultat. Alla fall när man shapar ut sådant, normalt så får man random DDoS rätt ofta upp till Gbit. Bästa är mäta från Stockholm, Malmö, Göteborg från olika leverantörer då får man ett bra resultat. |
||
Svara med citat |
2009-01-28, 11:05 | #6 | ||
|
|||
Klarade millennium-buggen
|
Mätning är inte lätt och det kräver lite kunskaper i statistik för man inte ska mäta ihjäl sig.
När du gör enstaka mätningar på ett värde (uppe/nere) så vill du inte mäta kontinuerligt, det skulle ta för mycket bandbredd. Först måste du veta vad du ska mäta och på vilken tidsenhet. Är det ett helt dygn, en hel timme, en hel minut eller ännu kortare intervaller? Sen måste man betänka hur många prov som ska tas . Gäller det heltimmar så är det ~ 10 000 heltimmar/ år. om du väljer att mäta 100 gånger under året, slumpmässigt uttaget, får du ett prov på 100 ur en population på 10000. Låt oss säga att 10 av de 100 i provet gav utslag( indikerade att servern var nere). Det betyder att 10% av mätvärdena gav utslag. Kan man då hävda att servern är nere 10% av tiden? Nej! Det man kan säga är att i ett sannolikhetsintervall om (t ex) 95% är serverna nere 10% av tiden med en felmarginal på xx % upp eller ner. Ju högre sannolihetsintervall, desto större blir felmarginalen. Vanligast är att använda 95% i vetenskaplig litteratur, men det finns skrupelfria gynnare som använder neråt 70%. Hur stor felmarginalen är beror på 1) förhållandet mellan totala populationen , i detta fall antal timmar/ år, och provets storlek, 100 mätpunkter i detta fall. 2) det valda sannoliketsintervallet. se ovan och 3) Hur stor andel av provet som visar utslag, ju mindre andel desto mindre felmarginal. Antiklimax: Nu kan jag inte formeln för detta i detalj, men det är en av statistikens grundläggande sammanhang. kan man använda den skickligt så får man mycket information även med få mätpunkter. En praktisk tillämpning av detta är i alla dessa väljarundersökningar som görs. Det räcker alltså med att fråga 1000 personer av ett antal miljoner för att med 95% sannolikhet få ett värde med en felmarginal på 1,5-2,5% beroende på storlek på partiet. Man förstår lätt att slumpen skördar så att även om ingen ändrar åsikt så kommer man att få lite olika resultat varje gång man gör undersökningen. Det är inom felmarginalen, och folk som spekulerar i förändringar inom felmarginalen tillhör samma förtappade skara som spelar bort förmögenheter på jack vegas-apparater. I ditt fall handlar det om att mäta små avvikelser nära noll, och det kräver ännu mer eftertanke. Vad betyder det när du tar ut en provserie på 1000 prov och ett visar att servern är nere? Vad betyder det om inget visar att servern är nere? |
||
Svara med citat |
2009-01-28, 13:04 | #7 | |||
|
||||
Flitig postare
|
lite off såhär men:
Kan du inte mäta tillgänglighet på supporten/driftansvariga med? :-) |
|||
Svara med citat |
2009-01-28, 14:36 | #8 | ||
|
|||
Flitig postare
|
Citat:
|
||
Svara med citat |
2009-01-28, 14:40 | #9 | |||
|
||||
Klarade millennium-buggen
|
Citat:
Jag föredrar att ligga på ett webbhotell som alltid funkar till 100% där man inte så ofta får tag på support, än att ligga på ett hotell som knappt inte fungerar, men där man får tag på support snabbt 24/7 Supportpersonal kostar och kan man lägga den kostnaden på hårdvara och uppetid är det att föredra. |
|||
Svara med citat |
2009-01-28, 14:46 | #10 | ||
|
|||
Har WN som tidsfördriv
|
Tack för ditt svar Magnus
I det här fallet så handlar det om webbhotell och frekvensen är var 10nde minut, dvs. vi gör 144 mätningar per dygn, eller 52 560 per år. Det ger ett par miljoner mätningar om man tittar på samtliga aktörer och om vi ska ha flera mätpunkter. Det är dock inte ett tekniskt problem, då vi har gott om bandbredd (Ibland kan det ju vara fördel att äga ett webbhotell själv) och själva mätningarna laddar iofs. ner en html sida, ink. headers, men sidan kan vi strunta i, då det är headern som är viktigast. (Vi tar sidan också just nu som "Debug-info" då vi lätt kan gå tillbaka o se om exempelvis en lastbalanserare genererade nån output. Eftersom det INTE handlar om urval så behöver vi inte tillämpa delar av statistiken mantra här. Däremot är vi lite osäkra på hur vi över tiden ska behålla data, och vad vi ska grunda det på. Exempelvis ska en års-uptime vara baserat på faktiskt alla 52 560 mätpunkter (Ok databasen kommer svälla upp o bli gigantisk stor och det kommer ta en stund o rassla igenom allt) eller kommer det vara baserat på medelvärdet av exempelvis en hel månads data. Det är sådana saker jag funderar på. Just nu mäter vi en månads tillgänglighet genom alla drygt 4000 mätpunkter, men man kan ju tänka sig att även där titta på medelvärdet av varje dygns mätningar. Eftersom vi pratar (hoppas jag oftast iaf) om tillgängligheter på 99.9x % så är det ju otroligt viktigt att vi får en hög sampling och använder medelvärden så lite som möjligt. |
||
Svara med citat |
Svara |
|
|