WN

WN (https://www.wn.se/forum/index.php)
-   Nyheter (https://www.wn.se/forum/forumdisplay.php?f=3)
-   -   Företaget Netix stäms pga scraping (https://www.wn.se/forum/showthread.php?t=1041017)

Draqir 2010-03-18 11:55

Citat:

Ursprungligen postat av Bjorne (Inlägg 20346884)
Vill man inte få sina sidor scrapade finns det system för att enkelt undvika det.

Nej, du kan inte enkelt undvika alla möjliga scraping attacker genom enkla system av anti-proxy eller ännu enklare ip-banns vid ett visst antal requests och så vidare. Visst du kan lägga in Asirra eller någon mycket jobbigare kontroll än reCaptcha, eller något som kan brytas av anti-captcha algoritmer för att visa varje sida, varje gång den anropas, sådant skulle försena scraping en hel del och givetvis göra sidan den mest jobbiga i världen. Men du kan aldrig, om du har en publik sida undvika att informationen stjäls.

Aron L 2010-03-18 12:05

Debatten om scraping är jäkligt intressant. Är ju lite tjatigt att ta som exempel kanske men ändå: Google är ju världens största scraper. De livnär sig till 100% på att presentera världens alla webbplatser och dess innehåll i kommersiellt syfte.

Är det någon skillnad på att låta en dator samla in samma information som går att samla in manuellt? Går i sådant fall gränsen i automatiseringen? Tel. nr och den typen av uppgifter är ju faktiskt ingen som kan sätta (c) på.

Draqir 2010-03-18 12:35

Citat:

Ursprungligen postat av Aron L (Inlägg 20346920)
[..]De livnär sig till 100% på att presentera världens alla webbplatser och dess innehåll i kommersiellt syfte.[..]

Är det någon skillnad på att låta en dator samla in samma information som går att samla in manuellt? Går i sådant fall gränsen i automatiseringen? Tel. nr och den typen av uppgifter är ju faktiskt ingen som kan sätta (c) på.

Google livnär sig inte enbart på deras sökmotor, samt att de inte heller söker igenom alla webbplatser, då de är snälla och lyder robots.txt

Jämför att använda tiotusentals ip adresser där en ip adress, en tid väljs med en pseudoslumptalsgenerator som inte söker igenom en sida på ett sekventiellt sätt med en människa som sitter på en fast ip adress och går igenom sida för sida sekventiellt. En är väldigt ineffektiv och väldigt enkel att blocka. En är så gott som omöjlig att blocka och läskigt effektiv.

Magnus_A 2010-03-18 17:22

Katalogskyddet borde vara ganska lätt att hävda i en rättsprocess för ägaren. Skraparen ligger rätt illa till.

tartareandesire 2010-03-18 17:32

Citat:

Ursprungligen postat av Magnus_A (Inlägg 20346968)
Katalogskyddet borde vara ganska lätt att hävda i en rättsprocess för ägaren. Skraparen ligger rätt illa till.

Jag skulle gärna vilja se exempel på några relativt aktuella rättsprocesser där katalogskydd har tagits upp. Jag tycker helt klart att man inte har rätt att kopiera någon annans arbete men samtidigt så är lagdefinitionen av katalogskydd i min mening ganska värdelös:

Citat:

Den som har framställt en katalog, en tabell eller ett annat dylikt arbete i vilket ett stort antal uppgifter har sammanställts eller vilket är resultatet av en väsentlig investering har uteslutande rätt att framställa exemplar av arbetet och göra det tillgängligt för allmänheten.
Uteslutande rätt att framställa vad exakt? Innehållet kan omöjligen vara skyddat?

Om någon kopierar mitt arbete lika uppenbart som i detta fallet så är det ju en sak men om det hela görs manuellt? Vad gäller då? Jag kan omöjligt bevisa någonting alls förutom att de har samma data.

Bjorne 2010-03-18 19:39

Citat:

Ursprungligen postat av Draqir (Inlägg 20346918)
Nej, du kan inte enkelt undvika alla möjliga scraping attacker genom enkla system av anti-proxy eller ännu enklare ip-banns vid ett visst antal requests och så vidare. Visst du kan lägga in Asirra eller någon mycket jobbigare kontroll än reCaptcha, eller något som kan brytas av anti-captcha algoritmer för att visa varje sida, varje gång den anropas, sådant skulle försena scraping en hel del och givetvis göra sidan den mest jobbiga i världen. Men du kan aldrig, om du har en publik sida undvika att informationen stjäls.

För det första stjäls inte information. För det andra är inte web scraping en form av attack. För det tredje, jo du kan visst enkelt undvika att bli scrapad. Utan att använda captcha. Försök scrapa google får du se.

tartareandesire 2010-03-18 19:44

Citat:

Ursprungligen postat av Bjorne (Inlägg 20346981)
För det första stjäls inte information. För det andra är inte web scraping en form av attack. För det tredje, jo du kan visst enkelt undvika att bli scrapad. Utan att använda captcha. Försök scrapa google får du se.

Vad menar du med att information inte stjäls och vad menar du med att det inte är en attack? Det beror ju helt på hur du definierar orden... I mina ögon är det ren stöld och det är givetvis också en attack mot min verksamhet då trafiken är inget annat än skadlig för mig.

Magnus_A 2010-03-18 22:00

Här är ett aktuellt svenskt fall om katalogskydd:
http://www.wn.se/showthread.php?t=29066

Lazyman här på WN skriver:
Citat:

Ärendet handlar om katalogskydd. Arbetet med att skapa databas och strukturera data är skyddat även om du inte äger de enskilda siffrorna, tex telefonnummer eller i detta fall mätdata.

Spindel, en anledningen att jag fick vetskap om att de tagit data var att en mätleverantörerna hittade en besökare på sin sajt som kommit från den webbplats där TS lagt upp sin version av KIA-index. Detta användes som bevis.

Den systematiska tömningen bevisades med serverlogg.

Draqir 2010-03-18 22:38

Citat:

Ursprungligen postat av Bjorne (Inlägg 20346981)
För det första stjäls inte information. För det andra är inte web scraping en form av attack. För det tredje, jo du kan visst enkelt undvika att bli scrapad. Utan att använda captcha. Försök scrapa google får du se.

Givetvis stjäl du information när du snor andras arbete som de har lagt ned tusentals timmar på. Vidare är det givetvis en attack i all dess innebörd om vi utgår från semantiken av ordet attack. Sen får du gärna berätta, hur du skyddar dig mot ett zombie nätverk av 100 000 datorer där du saknar ett fördefinerat söknings mönster och ett regelbundet tidsintervall emellan. Google har för övrigt redan blivit scrapad. Bättre lycka nästa gång!

Erik Stenman 2010-03-19 07:52

Frågan är om du överhuvud taget är något fel att ta informationen om den inte publiceras efteråt.

Sedan så är det väl inte olagligt med DDOS-attacker i Sverige? Har för mig att jag läste att det var "lagligt".


Alla tider är GMT +2. Klockan är nu 06:34.

Programvara från: vBulletin® Version 3.8.2
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Svensk översättning av: Anders Pettersson