WN

WN (https://www.wn.se/forum/index.php)
-   Nyheter (https://www.wn.se/forum/forumdisplay.php?f=3)
-   -   40 000 servrar nere (https://www.wn.se/forum/showthread.php?t=29660)

Thomas 2008-06-01 18:00

Explosion hos ThePlanet/Ev1servers.
40 000 servrar nere, 2.8+ miljoner webbsidor nere.

On Saturday, May 31st at 4:55pm CDT in our H1 data center, electrical gear shorted, creating an explosion and fire that knocked down three walls surrounding our electrical equipment room. Thankfully, no one was injured. In addition, no customer servers were damaged or lost.

We have just been allowed into the building to physically inspect the damage. Early indications are that the short was in a high-volume wire conduit. We were not allowed to activate our backup generator plan based on instructions from the fire department.

As a result ServerCommand is currently not available and we are working to bring it back online as quickly as possible. In the meantime, please call support 866.325.0045 for any issues. Additional support technicians are on staff to help. Status updates will be made available via the phone system as well on our forums at http://forums.theplanet.com/index.php?showtopic=90185

We are sorry for the incident and sincerely apologize for the impact.

Thomas 2008-06-01 18:02

Jobbigt kör viss DNS genom dom och nu försvinner inläggen globalt.

Telia har inga A records för tv.nu etc :/

Trodde verkligen det var en av världens stabilaste DNS-infrastruktur dom hade.

Oskar Lindgren 2008-06-01 18:15

Illa, nån som har koll på några andra svenska sidor än tv.nu som ligger där?

Thomas 2008-06-01 18:16

Citat:

Originally posted by Oskar Lindgren@Jun 1 2008, 17:15
Illa, nån som har koll på några andra svenska sidor än tv.nu som ligger där?
Vi köper bara DNS där, servrarna står i sthlm :/

Thomas 2008-06-01 18:22

Citat:

Originally posted by Kjette@Jun 1 2008, 17:17
Samtidigt så skall man ha dom lite spridda, typ en i Sverige, Europa samt USA är väl hyfsat.
Jag trodde inte dom hade ns1 & ns2 i samma datacenter.

Man brukar säga att ThePlanet (Ev1servers) är en av dom största leveratörerna i världen.

Saxat från WebmasterWorld.
Citat:

Try more like millions of sites are down because of this and then you will be in the right ballpark, including us:(
We have initiated our own dr plan and already have our mirror up and running on the other side of the country, just waiting on our downtime timeline to expire before we switch dns out.

Sadly many people have dns through them which means this is not a option as the core ev5 ev6 dns system is out as well effecting not only onsite servers but thousands of offsite servers as dns expires globally.

Dom har aldrig tidigare varit nere så det är ju ändå godkänt, har testat endel andra leveratörer hrä i sverige som haft massor med nertid på sina dns'er.

BarateaU 2008-06-01 18:39

Ojoj oj må jag säga.
Nått man märker att de kan vara bra att köra backuper till separat del.
Såväl om det är en explosion eller en raid hos prq så blir det samma problem.

Någon form av offsite backup, slangas över till annan platts.

Magnus_A 2008-06-01 18:39

Bra att dom hade redundans i kraftförsörjningen med diesel. (OBS, ironi)

patrikweb 2008-06-01 18:58

Dom verkar inte ha byggt det med redundant el, eller inte beräknat med kraften om något skulle hända i ena elcentralen.

Att dom kör sina dns servrar i samma datacenter låter verkligen idiotiskt, inte ens jag kör dns på samma platser.

Thomas 2008-06-01 19:13

Citat:

Originally posted by patrikweb@Jun 1 2008, 17:58
Dom verkar inte ha byggt det med redundant el, eller inte beräknat med kraften om något skulle hända i ena elcentralen.
We were not allowed to activate our backup generator plan based on instructions from the fire department.

Marcus 2008-06-01 19:20

Jag använder endast nsmadeeasy för DNS. De har 100% SLA uptime med DNS-servrar på bl.a. dessa platser:
Citat:

Ashburn, VA
Richmond, VA
Chicago, IL
Austin, TX
San Jose, CA
Amsterdam, Netherlands
British Columbia, Canada
Tokyo, Japan
Seattle, WA
Santa Clara, CA
Los Angeles, CA
and many many more!!!

Har aldrig haft några problem med dem och deras gränssnitt för hantering av DNS-inlägg mha templates osv är överlägsen alla andra tjänster jag provat för administrering av många domäner.

expression 2008-06-01 19:52

Här sitter man och kokar! Väldigt jobbigt :(

patrikweb 2008-06-01 19:54

Citat:

Ursprungligen postat av Thomas
Citat:

Ursprungligen postat av patrikweb
Dom verkar inte ha byggt det med redundant el, eller inte beräknat med kraften om något skulle hända i ena elcentralen.

We were not allowed to activate our backup generator plan based on instructions from the fire department.

En backup generator ska automatisk starta, så antingen så fungerade elen och att dom blev tvingade att stänga ner allt.

Och vadå not allowed, kostnaden för avbrottet lär kosta mer än be fire department att fuck off.

Thomas 2008-06-01 19:58

Citat:

Originally posted by patrikweb@Jun 1 2008, 18:54
Och vadå not allowed, kostnaden för avbrottet lär kosta mer än be fire department att fuck off.
Det var nog att dom var rädda att mer skulle skadas (typ kunders hårdvara) om man drog på ström igen.

Det är 40 000 servrar det handlar om, endel ström dom hanterar mao.

Men att dom inte får igång DNS'en är konstigt, den påverkar ju alla datacenter.

htiawe 2008-06-01 20:03

Citat:

Ursprungligen postat av patrikweb
Citat:

Ursprungligen postat av patrikweb
Och vadå not allowed, kostnaden för avbrottet lär kosta mer än be fire department att fuck off.



Att slå på strömmen när brandkåren, som är lite mer experter i såna här händelser än du och jag, säger nej - det är inte bara dumt utan det är rent av idiotiskt.

Tråkigt att det hände, hoppas de får ordning på grejjorna så fort som möjligt och kan utreda vad de kan göra för att undvika liknande incidenter.

Thomas 2008-06-01 20:20

2 bifogad(e) fil(er)
Nu börjar det verkligen synas att bara några få har dns cache kvar :/

Magnus_A 2008-06-01 20:33

Citat:

Ursprungligen postat av patrikweb
Citat:

Originally posted by -Thomas@Jun 1 2008, 19:13
Citat:

Ursprungligen postat av patrikweb
Dom verkar inte ha byggt det med redundant el, eller inte beräknat med kraften om något skulle hända i ena elcentralen.

We were not allowed to activate our backup generator plan based on instructions from the fire department.


En backup generator ska automatisk starta, så antingen så fungerade elen och att dom blev tvingade att stänga ner allt.
Och vadå not allowed, kostnaden för avbrottet lär kosta mer än be fire department att fuck off.

Försök med det du.....


Det här är lite off topic, men eftersom alla tjatar om bergrum och diesel så säger jag bara två saker, FMEA och MTBF.

eliasson 2008-06-01 20:50

Herrejävlar - ingen tråkigt stor incident ändå.

Citat:

Originally posted by Thomas@Jun 1 2008, 18:02
Jobbigt kör viss DNS genom dom och nu försvinner inläggen globalt.
Telia har inga A records för tv.nu etc :/
Trodde verkligen det var en av världens stabilaste DNS-infrastruktur dom hade.

Jo tack, det har vi allt märkt av ;-)
Vilket IP var den pekad mot?

ZN 2008-06-01 21:26

Riktigt tråkigt, hade precis migrerat över till en ny server på ThePlanet och så händer detta, helt oacceptabelt.

Thomas 2008-06-01 21:37

Citat:

Originally posted by eliasson@Jun 1 2008, 19:50
Vilket IP var den pekad mot?
frontmaskinen har 83.140.162.241



83.140.162.241 tv.nu
83.140.162.241 www.tv.nu


i

C:\WINDOWS\system32\drivers\etc\hosts

Fixar det, svårt att ringa runt till besökarna bara :/ hehe

Norman 2008-06-01 21:46

Citat:

Ursprungligen postat av Thomas
Citat:

Ursprungligen postat av eliasson
Vilket IP var den pekad mot?

frontmaskinen har 83.140.162.241

83.140.162.241 tv.nu
83.140.162.241 www.tv.nu

i
C:WINDOWSsystem32driversetchosts
Fixar det, svårt att ringa runt till besökarna bara :/ hehe

Skaffa fler leverantörer som pekar ut din DNS-server.

pkallberg21 2008-06-01 22:10

Citat:

Originally posted by Thomas@Jun 1 2008, 18:00
Explosion hos Ev1servers.
40 000 servrar nere, 2.8+ miljoner webbsidor nere.

Hur fick du det till så många servrar/webbsidor?

Vad jag förstått är det totala värdet, som är spridda över 6 olika datahallar.

Citat:

The Planet operates six wholly owned and managed state-of-the-art data centers containing more than 40,000 servers with fully redundant Network Operations Center capabilities from two cities, and 24 x 7 x 365 monitoring.

Thomas 2008-06-01 22:20

Citat:

Originally posted by pkallberg21@Jun 1 2008, 21:10
Vad jag förstått är det totala värdet, som är spridda över 6 olika datahallar.
Ingen dns = inga servrar oavsett om dom har ström eller inte, ns1 till 6 är offline och har varit i 24 timmar.

http://www.theplanet.com/pdfs/facilities_chartF.pdf

rhuse 2008-06-01 22:32

Patrikweb: Tror du seriöst att man bara kan säga fuck off till brandinspektörer? I Sverige skulle det troligen leda till fängelse eller i alla fall åtal om man startar upp verksamheten innan brandinspektörerna godkänt det. Det kan ju finnas brandskadade kablar, sabbad ventilation etc.

Trist när sånt här händer verkligen.

Thomas 2008-06-01 22:39

Verkar som min tredje ns (ns2.qu.com) börjar propagera i telia iaf. La till den på nunames vid femtiden.

C:\>nslookup
Default Server: resolver1-g-fo.skanova.com
Address: 195.67.199.27

> www.tv.nu
Server: resolver1-g-fo.skanova.com
Address: 195.67.199.27

Non-authoritative answer:
Name: www.tv.nu
Address: 83.140.162.241


Dock inte på 195.67.199.28 än :/

Nån som har bredbandsbolaget som kan kolla?

Cr0wN 2008-06-01 22:46

Default Server: ns3.bredband.com
Address: 195.54.122.200

> www.tv.nu
Server: ns3.bredband.com
Address: 195.54.122.200

DNS request timed out.
timeout was 2 seconds.
*** Request to ns3.bredband.com timed-out

och från 3:

Standardserver: ns.hi3gaccess.se
Address: 80.251.192.244

> www.tv.nu
Server: ns.hi3gaccess.se
Address: 80.251.192.244

DNS request timed out.
timeout was 2 seconds.
DNS request timed out.
timeout was 2 seconds.
DNS request timed out.
timeout was 2 seconds.
DNS request timed out.
timeout was 2 seconds.
*** Begäran till ns.hi3gaccess.se orsakade timeout

Så fungerar ej att besöka sidan från dessa ^^

Oskar Lindgren 2008-06-01 22:46

Citat:

Nån som har bredbandsbolaget som kan kolla?
Citat:

Default Server: ns5.bredband.com
Address: 195.54.122.198

> www.tv.nu
Server: ns5.bredband.com
Address: 195.54.122.198

DNS request timed out.
timeout was 2 seconds.
*** Request to ns5.bredband.com timed-out


Thomas 2008-06-01 23:01

ajdå, inte än mao

Lumax 2008-06-01 23:02

Citat:

Originally posted by Thomas@Jun 1 2008, 22:39
Nån som har bredbandsbolaget som kan kolla?
dig @195.54.122.200 ns tv.nu

;; ANSWER SECTION:
tv.nu. 53806 IN NS ns2.ev1servers.net.
tv.nu. 53806 IN NS ns1.ev1servers.net.

D.v.s. det är ~15h tills BBB upptäcker att ns2.qu.com är tillagd.

tartareandesire 2008-06-01 23:13

Citat:

Ursprungligen postat av patrikweb
Citat:

Originally posted by -Thomas@Jun 1 2008, 19:13
Citat:

Ursprungligen postat av patrikweb
Dom verkar inte ha byggt det med redundant el, eller inte beräknat med kraften om något skulle hända i ena elcentralen.

We were not allowed to activate our backup generator plan based on instructions from the fire department.


En backup generator ska automatisk starta, så antingen så fungerade elen och att dom blev tvingade att stänga ner allt.
Och vadå not allowed, kostnaden för avbrottet lär kosta mer än be fire department att fuck off.

Jag tror brandkåren gör en lämpligare bedömning i den frågan än du.... Allt handlar inte om rena kostnader. Du fortsätter tydligen att svartmåla ditt eget företag med gott resultat =)

Taras 2008-06-01 23:32

Är det bara jag..eller är det ovanligt lite experter här idag som vet hur de skulle gjort istället..samt berättat hur dumma de var för att ett sådant här fel kunde uppstå..

Lite halvt tråkigt..men beror väl på det fina vädret..

..ett tack till Patrikweb iallafall, som inte lämnar sitt säkra bergrum med både diesel och UPS..

Thomas 2008-06-01 23:35

Citat:

Originally posted by Fredrik S@Jun 1 2008, 22:02
D.v.s. det är ~15h tills BBB upptäcker att ns2.qu.com är tillagd.
oj, då har dom 48 timmar då även om TTL'en är satt ill 24 timmar. Konstigt att den inte har en IP lagrad?

patrikweb 2008-06-01 23:52

Någon av dom talar ju inte sanning, har dom en fungerande reservkraft så skulle den automatisk startat och fungerat.

Så isåfall påstår dom att räddningtjänsten/brandkåren kom dit och sa att dom inte fick ha den igång och att isåfall var det räddningtjänsten som dödade 40.000 servrar.

Eller så har dom ingen redundant reservkraft som har fysisk skildakabelvägar eller som står helt skilda från varandra.


Eller kör räddningtjänsten någon standard sak att inget får köras förens allt verkligen har gått igenom.

Dom kanske inte förstår kostnaden att 40.000 servrar ligger nere, så om Ev1 vet att reservkraften fungerar utan att skada servrarna eller liknande så bör dom fundera vad kostnaden blir för avbrottet blir genom att låta det vara nere eller vad skadestånden skulle blivit att gå bryta mot ett beslut åt andra hållet.

Lumax 2008-06-02 00:05

Citat:

Ursprungligen postat av Thomas
Citat:

Ursprungligen postat av Fredrik S
D.v.s. det är ~15h tills BBB upptäcker att ns2.qu.com är tillagd.

oj, då har dom 48 timmar då även om TTL'en är satt ill 24 timmar. Konstigt att den inte har en IP lagrad?

Näe, dom har 86400 TTL (24h) precis som dom flesta DNS resolvers. Du sa att du la till ns2.qu.com vid "femtiden", och då syftade du på 05.00 och inte 17.00 alltså?
Det skulle i så fall betyda att ns3.bredband.com (195.54.122.200) fick sin första förfrågan ang. tv.nu vid 14-tiden och det låter lite osannolikt för en så populär sida.

Visserligen kan det ju vara nunames som är seg på att uppdatera root-servrarna, jag vet att .se uppdateras varannan timme men hur ofta .nu-zonen uppdateras har jag ingen aning om.

Edit: ns6.bredband.com gjorde sin senaste uppdatering av aktuella namnservrar för tv.nu vid 11-tiden igår (ca 40000 kvar av ttl) och den vet inte heller om ns2.qu.com , så det kanske är nunames som bara uppdaterar var sjätte timme eller liknande.)

hnn 2008-06-02 00:08

Port80 och IP-only har uppdaterat sina DNSer iaf.

guran 2008-06-02 00:31

Jag har arbetat med flertal backupsystem för datorhaller, bl.a. för banker och inget av dem har haft ett sådant redudant system att en stor explosion i ett av deras högspänningsställverket endast skulle innebära att backupsystemet kan köras ingång och fungera automatiskt. Vissa system skulle möjligen klara av att köra på batteribackup i någon eller några timmar.

I stället har de förlitat sig på att vid ett totalt driftstopp i deras huvudanläggning så flyttar de över driften till en reservanläggning på en annan ort.

Jag skulle vilja se de webbhotell som har två fysiska lokaler på olika orter med spegling av sina system. Och dessutom säljer plats för typ 100 kr per månad.

Så, konstatera bara att alla anläggningar har sin svaga punkt och om det mer eller mindre osannolika inträffar så blir det problem.

Om man offentliggjorde (om det nu fanns någon statistik på det) hur många gånger en reservkraftsdiesel inte startar vi en test eller skarp situtation så skulle ni nog inte ha så stor tilltro till att de bara kör ingång och webbsidorna aldrig går ner. Oftast är verkligheten en annan än vad försäljarna utlovar. Men det kanske inte är en slump att man vid sjukhus och flygplatser har fler reseraggregat än vad som behövs för att leverera den el som behövs vid ett strömavbrott, för vem vet om alla fungerar när de väl behövs.

Thomas 2008-06-02 00:59

Citat:

Originally posted by Fredrik S@Jun 1 2008, 23:05
Näe, dom har 86400 TTL (24h) precis som dom flesta DNS resolvers. Du sa att du la till ns2.qu.com vid "femtiden", och då syftade du på 05.00 och inte 17.00 alltså?
na 17:00 men det kanske är jag som tänker fel.

Om den lever i 15 timmar till på BBB så borde den frågat senaste för 9 timmar sedan. Men servrarna har ju varit offline i över 30 timmar och all TTL är ju expirad. Varifrån fick den TTL värdet om den inte har TTL på 48 timmar? För 9 timmar sedan kunden den omöjligt anslutit och frågat efter ny TTL och ny IP.

Men som jag jag har inte koll på hur det funkar, jag är bara frågande.

patrikweb 2008-06-02 01:00

"Jag skulle vilja se de webbhotell som har två fysiska lokaler på olika orter med spegling av sina system. Och dessutom säljer plats för typ 100 kr per månad."

Utan problem att det skulle gå sälja en sådan lösning för det priset, men är framförallt mer dedikerade eller vps kunder som efterfrågnar liknande.

Alla fall när man arbetar med virtuella servrar så är det skitsmidigt att ha någon form av cluster fs som synkas sig i realtid mellan 2 DC.

Men är skildnad som hosting leverantör eller ett företag med sin miljö. Då är det lätt ha 2 DC som man kan flytta över hela driften till annan lokal utan avbrott.

Men som hosting leverantör där man har kunders servrar så är det viktigare att klara alla möjliga hot. 40.000 servrar är ju inte ett litet antal.

Bladet 2008-06-02 01:04

Citat:

Ursprungligen postat av Thomas
Citat:

Ursprungligen postat av pkallberg21
Vad jag förstått är det totala värdet, som är spridda över 6 olika datahallar.

Ingen dns = inga servrar oavsett om dom har ström eller inte, ns1 till 6 är offline och har varit i 24 timmar.
http://www.theplanet.com/pdfs/facilities_chartF.pdf

Alla vi med servrar där använder inte theplanets dns....som jag som tur är. :).

Thomas 2008-06-02 01:10

Citat:

Originally posted by Bladet@Jun 2 2008, 00:04
Alla vi med servrar där använder inte theplanets dns....som jag som tur är. :).
Jag tror det kompenseras med alla vi som inte använder theplanets serverar men dns'er :/

Westman 2008-06-02 05:51

Citat:

Originally posted by patrikweb@Jun 1 2008, 23:52
Någon av dom talar ju inte sanning, har dom en fungerande reservkraft så skulle den automatisk startat och fungerat.

Så isåfall påstår dom att räddningtjänsten/brandkåren kom dit och sa att dom inte fick ha den igång och att isåfall var det räddningtjänsten som dödade 40.000 servrar.

Eller så har dom ingen redundant reservkraft som har fysisk skildakabelvägar eller som står helt skilda från varandra.


Eller kör räddningtjänsten någon standard sak att inget får köras förens allt verkligen har gått igenom.

Dom kanske inte förstår kostnaden att 40.000 servrar ligger nere, så om Ev1 vet att reservkraften fungerar utan att skada servrarna eller liknande så bör dom fundera vad kostnaden blir för avbrottet blir genom att låta det vara nere eller vad skadestånden skulle blivit att gå bryta mot ett beslut åt andra hållet.

De hallar jag har jobbat i som har diesel som sekundär har alla varit manuellt startade. Jag ser inget konstigt i det om man har bemanning 24/7.

Ett brandbefäl på en olycksplats kan be dig hoppa på ett ben (bildligt talat) och du är tvingad att göra som han säger. Om du inte inser det är det dags att vakna och släppa snorungementaliteten att ingen bestämmer över dig. Dessutom brukar en brand innebära att man använder vatten. Behöver jag tala om vad det innebär i sin tur?


Alla tider är GMT +2. Klockan är nu 06:38.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson