Företaget Netix stäms pga scraping

Draqir · 2010-03-18, 11:55

Citat:

Ursprungligen postat av Bjorne

Vill man inte få sina sidor scrapade finns det system för att enkelt undvika det.

Nej, du kan inte enkelt undvika alla möjliga scraping attacker genom enkla system av anti-proxy eller ännu enklare ip-banns vid ett visst antal requests och så vidare. Visst du kan lägga in Asirra eller någon mycket jobbigare kontroll än reCaptcha, eller något som kan brytas av anti-captcha algoritmer för att visa varje sida, varje gång den anropas, sådant skulle försena scraping en hel del och givetvis göra sidan den mest jobbiga i världen. Men du kan aldrig, om du har en publik sida undvika att informationen stjäls.

Aron L · 2010-03-18, 12:05

Debatten om scraping är jäkligt intressant. Är ju lite tjatigt att ta som exempel kanske men ändå: Google är ju världens största scraper. De livnär sig till 100% på att presentera världens alla webbplatser och dess innehåll i kommersiellt syfte.

Är det någon skillnad på att låta en dator samla in samma information som går att samla in manuellt? Går i sådant fall gränsen i automatiseringen? Tel. nr och den typen av uppgifter är ju faktiskt ingen som kan sätta (c) på.

Draqir · 2010-03-18, 12:35

Citat:

Ursprungligen postat av Aron L

[..]De livnär sig till 100% på att presentera världens alla webbplatser och dess innehåll i kommersiellt syfte.[..]

Är det någon skillnad på att låta en dator samla in samma information som går att samla in manuellt? Går i sådant fall gränsen i automatiseringen? Tel. nr och den typen av uppgifter är ju faktiskt ingen som kan sätta (c) på.

Google livnär sig inte enbart på deras sökmotor, samt att de inte heller söker igenom alla webbplatser, då de är snälla och lyder robots.txt

Jämför att använda tiotusentals ip adresser där en ip adress, en tid väljs med en pseudoslumptalsgenerator som inte söker igenom en sida på ett sekventiellt sätt med en människa som sitter på en fast ip adress och går igenom sida för sida sekventiellt. En är väldigt ineffektiv och väldigt enkel att blocka. En är så gott som omöjlig att blocka och läskigt effektiv.

Magnus_A · 2010-03-18, 17:22

Katalogskyddet borde vara ganska lätt att hävda i en rättsprocess för ägaren. Skraparen ligger rätt illa till.

tartareandesire · 2010-03-18, 17:32

Citat:

Ursprungligen postat av Magnus_A

Katalogskyddet borde vara ganska lätt att hävda i en rättsprocess för ägaren. Skraparen ligger rätt illa till.

Jag skulle gärna vilja se exempel på några relativt aktuella rättsprocesser där katalogskydd har tagits upp. Jag tycker helt klart att man inte har rätt att kopiera någon annans arbete men samtidigt så är lagdefinitionen av katalogskydd i min mening ganska värdelös:

Citat:

Den som har framställt en katalog, en tabell eller ett annat dylikt arbete i vilket ett stort antal uppgifter har sammanställts eller vilket är resultatet av en väsentlig investering har uteslutande rätt att framställa exemplar av arbetet och göra det tillgängligt för allmänheten.

Uteslutande rätt att framställa vad exakt? Innehållet kan omöjligen vara skyddat?

Om någon kopierar mitt arbete lika uppenbart som i detta fallet så är det ju en sak men om det hela görs manuellt? Vad gäller då? Jag kan omöjligt bevisa någonting alls förutom att de har samma data.

Bjorne · 2010-03-18, 19:39

Citat:

Ursprungligen postat av Draqir

Nej, du kan inte enkelt undvika alla möjliga scraping attacker genom enkla system av anti-proxy eller ännu enklare ip-banns vid ett visst antal requests och så vidare. Visst du kan lägga in Asirra eller någon mycket jobbigare kontroll än reCaptcha, eller något som kan brytas av anti-captcha algoritmer för att visa varje sida, varje gång den anropas, sådant skulle försena scraping en hel del och givetvis göra sidan den mest jobbiga i världen. Men du kan aldrig, om du har en publik sida undvika att informationen stjäls.

För det första stjäls inte information. För det andra är inte web scraping en form av attack. För det tredje, jo du kan visst enkelt undvika att bli scrapad. Utan att använda captcha. Försök scrapa google får du se.

tartareandesire · 2010-03-18, 19:44

Citat:

Ursprungligen postat av Bjorne

För det första stjäls inte information. För det andra är inte web scraping en form av attack. För det tredje, jo du kan visst enkelt undvika att bli scrapad. Utan att använda captcha. Försök scrapa google får du se.

Vad menar du med att information inte stjäls och vad menar du med att det inte är en attack? Det beror ju helt på hur du definierar orden... I mina ögon är det ren stöld och det är givetvis också en attack mot min verksamhet då trafiken är inget annat än skadlig för mig.

Magnus_A · 2010-03-18, 22:00

Här är ett aktuellt svenskt fall om katalogskydd:
http://www.wn.se/showthread.php?t=29066

Lazyman här på WN skriver:

Citat:

Ärendet handlar om katalogskydd. Arbetet med att skapa databas och strukturera data är skyddat även om du inte äger de enskilda siffrorna, tex telefonnummer eller i detta fall mätdata.

Spindel, en anledningen att jag fick vetskap om att de tagit data var att en mätleverantörerna hittade en besökare på sin sajt som kommit från den webbplats där TS lagt upp sin version av KIA-index. Detta användes som bevis.

Den systematiska tömningen bevisades med serverlogg.

Draqir · 2010-03-18, 22:38

Citat:

Ursprungligen postat av Bjorne

För det första stjäls inte information. För det andra är inte web scraping en form av attack. För det tredje, jo du kan visst enkelt undvika att bli scrapad. Utan att använda captcha. Försök scrapa google får du se.

Givetvis stjäl du information när du snor andras arbete som de har lagt ned tusentals timmar på. Vidare är det givetvis en attack i all dess innebörd om vi utgår från semantiken av ordet attack. Sen får du gärna berätta, hur du skyddar dig mot ett zombie nätverk av 100 000 datorer där du saknar ett fördefinerat söknings mönster och ett regelbundet tidsintervall emellan. Google har för övrigt redan blivit scrapad. Bättre lycka nästa gång!

Erik Stenman · 2010-03-19, 07:52

Frågan är om du överhuvud taget är något fel att ta informationen om den inte publiceras efteråt.

Sedan så är det väl inte olagligt med DDOS-attacker i Sverige? Har för mig att jag läste att det var "lagligt".

Aktiva användare som för närvarande tittar på det här ämnet: 1 (0 medlemmar och 1 gäster)

Menu

Företaget Netix stäms pga scraping