Kispad

Kispad: közös blog
4230 cikk, 53955 hozzászólás
Szerzők | Tudnivalók | Feedek


2006: a kommentspam vége

eszpee cikke a Torokgeek rovatból, 2006. március 6. hétfő, 20:40 | 18 hozzászólás

SPAMLegalábbis a sesblogon, és legalábbis reményeim szerint. Pár napja jeleztük, hogy ismét kaptunk egy komolyabb támadást, minekfolytán drasztikus antifelhasználóbarát lépésekre kellett elszánjuk magunkat - de már akkor sejtettem, hogy ez nem lehet a történet vége. Következzék a teljes megoldás, MovableType 2.661 (tudom, upgrade-elni kéne) versus Viagrakaszinó, erősen torokgeek, de talán hasznos lehet valakinek - például nekem, ha valamiért mégegyszer meg kéne csinálnom.

Kezdjük az elején.

Eleinte nem volt sok gondunk a spamekkel, legalábbis annyi nem, hogy elérte volna azt az ingerküszöböt, ami egy jobb megoldásra sarkallt volna. A legtöbbjüket megfogta az MTBlackList, amit nem, azt felvettük neki, és attól kezdve már azokat is, a maradékot meg kézzel törölgettük. A gond ott kezdődött, amikor a maradék tette ki az esetek 99%-át.

Sokadik ránézésre se láttam értelmét ezeknek a spameknek. Két típust találtam, az egyik "rendes" websiteokra linkelt (cnn.com, egyetemek, stb.), a másik egyszerűen csak értelmetlen karakterekből állt, nem létező URL-ekre mutatva. A probléma persze nem az, hogy nem értem, miért csinálják, hanem az, hogy kifejezetten támadás jellegű hullámokban jöttek, egyszerre rengeteg, hosszú időn át - amit érthetően nem nagyon tolerált a szerver.

A pohár ott telt be, amikor február végén egy egyébként sűrű délutánon egy oldalpillantás során meglepve konstatáltam, hogy az átlagos 0.1-0.2 helyett tizes loadon fut a szerver, ami ráadásul lassan, de biztosan növekszik. (A load egy praktikus mérőszám a szerver terhelésre, röviden: 0-s load: semmit nem csinál a gép, 1-es load: 100%-osan kihasznált processzor, 2-es load: 200%-osan kihasznált (100%-kal túlterhelt) rendszer. Bövebben a wikipédia segít, mint mindig.)

Azonnal kiderült, hogy a blogra éppen több tucat komment készül egyszerre felkerülni. Első körben balcklistre tettem a (hagyományos viagra vonalon futó) URL-t, ez lásztólag meg is oldotta a problémát, de 1-2 órára rá jött egy második, durvább hullám. A fent leírt értelmetlen spamek jöttek, elég sűrűn, 68-as loadnál lett elegem, lelőttem a webszervert, hogy legalább dolgozni tudjak a gépen, kiszűrtem a faszi IP címét a logokból, felvettem a tűzfalba, hogy többet ne is lássam, webszerver vissza, levegő ki, ok.

Na persze, mert ennyivel megúszom. Percekre rá újra emelkedik a load, persze más címről, ez így elég macska-egér játék, ehhez nincs sok kedvem, megteszem, amit már nagyon rég óta meg kellett volna: átnevezem az MT komment feldolgozó scriptjét a default mt-comments.cgi-ről egy egyedibbre, mert az a koncepcióm, hogy a spambotok csak google-ben keresnek erre az URL-részletre, és POSTolják bele a szemetüket ahova csak érik. (Végülis most éppen több, mint ötmillió helyre tehetik...)

Az átnevezés egyébként olyannyira bevett szokás, hogy sztahanovtól kaptam a tippet, miszerint egyes elszánt b2evo üzemeltetők automatikusan átneveztetik a hozzászólás-motor elérési címét. Nem kispálya.

A dolog működik is, lerakok a régi mt-comments.cgi helyére egy saját IP-logoló pársorost, csak hogy lássam, mégis, hányan próbálkoztak ide postolni. Most megnéztem: 6 nap alatt 10533 próbálkozást kaptunk el, 1446 egyedi IP címről. Ez éjjel-nappal folyamatosan percenként több, mint egy spamet jelent - persze a valódi eloszlás nem ilyen egyenletes, amikor nézegettem, akkor vagy állt, vagy másodpercenként többet kapott. Ez azért elég jól mutatja a probléma méretét.

A történet itt nem ér véget persze, hiszen a fentiekről az alapos URL-turkászokon kívül (szevasztok, én is közétek tartozom!) senki nem értesülhetett. Március 3-án, a belga utunk előtt pár órával viszont egy minden eddiginél erősebb hullám találta meg a már átnevezett kommentscriptet. (Adalék: ezek szerint 3 nap kellett a Google-nek, hogy észrevegye a változást, és újraindexelje a sesblogot - korrekt.)

A spamek most is az értelmetlen fajtából jöttek, így URL alapján szűrhetetlenek, sőt, ugyanazzal a tartalommal ugyanahoz a cikkhez teljesen különböző IP címekről, így az alapján se tudok mit kezdeni velük. (Azért ezen mélázzunk el fél percig, ez egy kiterjedt, központilag irányítható botnetet feltételez - ilyeneket tudtommal kommentspam-generálásra még nem használtak. Szép.)

Nincs mese, jön az ultimate megoldás (grafikus captcha) előtti utolsó metsváram, a maznál is látott plusz egy mező az űrlapra. Mindezt nagyon gyorsan, mert pár óra és indul a repülő, én meg még el se kezdtem pakolni. Első körben kikapcsolom a kommentezést (átnevezem a scriptet, barkácsmódszerek, sietünk), majd nekiugrok a beazonosított comment post modulnak. Meg is vagyok vele hamar, de az istennek se akar működni - mire egy szikra, hogy az MTBlackList nyilván pont ezt a modult definiálja felül, hát persze, hogy annak a forrásában kell egy aprót hegeszteni - így már működik is, kalap kabát, irány Ferihegy.

Hazajőve persze tudtam, hogy nem túl elegáns ennyiben hagyni az egészet. Sok védekezés épül arra, hogy a spambotok a böngészőkkel szemben nem tudnak JavaScriptet futtatni, kézenfekvő lenne ezt kihasználni. Első körben jött az ötlet, hogy az egész plusz formmezőt elrejthetném, és rögtön kitölthetné egy kis JS utasítás - így megspórolható az egyébként szükségtelen töltögetés. Igen ám, de mi van, ha valaki annyira paranoid, hogy kikapcsolt JavaScripttel böngészik, netán mobilról, vagy karakteres terminálról? Legyen az, hogy kiírjuk a plusz mezőt, de utána egy kis rutin ezt rögtön el is rejti, és egyben kitölti a várt értékkel.

Így látszólag semmi nem változott, csak az alap űrlap jelenik meg, a robotok viszont lepattannak rólunk. Ez van most, de persze ki tudja, mit hoz az idő, lehet, hogy ez sem lesz elég - azért én picit nyugodtabban alszom. Köszi a figyelmet, felírhat magának egy pontot mindenki, aki végigolvasta, kettőt aki értette is az egészet.

Akit bővebben érdekel a téma, két link:

(Kép: WikiPédia)

» Ugorj a hozzászóló ablakhoz

Megosztások Facebookon

Eddigi hozzászólások (18)

1

sztahanov, 2006. március 6. hétfő, 20:59 (#)

Nekem is mindig ugyanarra a 2-3 bejegyzésre jönnek a spamok, de én abban hiszek, hogy azért, mert ezek a bekezdések valamilyen keresőszóra elöl vannak vagy valahol, egy népszerűbb helyen be vannak linkelve, és független spammerek is megtalálják őket.

2

BufferTly, 2006. március 6. hétfő, 21:28 (#)

Nekem is kinyílik a bicska a zsebemben amikor a sok barom DOS támadással felérő spamet szór. Én annyival is szánalmasabb helyzetben vagyok, mert középiskolai szervereket üzemeltetek, ahol 130KByte/sec a bejövő, 12Kbyte/sec a kimenő vonal és ezt könnyen megakasztják terheléssel még külföldről is. Már azon gondolkozom, hogy feldolgozok egy IPCOUNRTY adatbázist és egész kontinenseket tiltok le :-/

3

PAStheLoD, 2006. március 6. hétfő, 21:37 (#)

Korrekt megoldás. Bánatodra csak ideiglenes. A web alapjaiban véve lassabban fejlődik, mint ahogy a spambotok és a számítási kapacitás, záros határidőn belül a buta spambot képes lesz parseolni a szájtot JS-el együtt.. :C

Értelmetlen szövegre talán jó a bayesian filter.. ill. egyéb függvények, melyek megmondják, hogy mekkora valószínűséggel eleme-e egy adott szó egy adott nyelvtannak/nyelvnak.

JS után jöhet a Flash-es megoldás :)
Esetleg rajzoljon egy kört a kurzorral a delikvens.. stb :P

4

melyviz, 2006. március 6. hétfő, 23:24 (#)

flash :] kört :D
előbb lesz reges a sesblog...

5

Boca, 2006. március 7. kedd, 09:43 (#)

Egy minimál regisztráció nem oldaná meg a kérdést? Így csak 1x kéne valami ember számára egyszerű, gép számára nehéz kérdésre válaszolni, utána kukiból menne az azonosítás.

6

eszpee, 2006. március 7. kedd, 09:50 (#)

Boca: a regisztrációt lehet, hogy nem fogjuk tudni elkerülni, de én azért még bízom ebben a JS trükkben. Nem szeretnénk elveszteni azokat a kommenteket, amiket egy keresőből idekerült csóka dob be, aki egyébként nem regisztálna - érthető módon, én se szívesen teszem.

7

Konrad, 2006. március 7. kedd, 10:59 (#)

Itt kicsit hivatkoztam a cikkre (csak nem találom a trackback címet...):
http://onlinemarketing.blog.hu/2006/03/07/spam_fronton_a_helyzet_fokozodik

8

Konrad, 2006. március 7. kedd, 11:01 (#)

Itt kicsit hivatkoztam a cikkre (csak nem találom a trackback címet...):
http://onlinemarketing.blog.hu/2006/03/07/spam_fronton_a_helyzet_fokozodik
(Ja, az Opera nem tudta elküldeni a bejegyzést :-( )

9

Konrad, 2006. március 7. kedd, 11:03 (#)

Jé, mégis elküldte az Opera, bocsánat a duplázásért és a feltételezésért!

10

eszpee, 2006. március 7. kedd, 11:11 (#)

Mostanában reszel(t)em a kommentező formot, ha elküldöd, elmegy, max picit lassan.

Trackback nincs, és szerintem sajnos nem is lesz, mert:

- kommentben megoldható, neked is sikerült, és "emberibb" is

- ott sokkal durvább a helyzet, mint kommentspam fronton, ugyanis míg a kommenteknél egy ember és egy gép között kell különbséget tenni, trackbacknél két gép (a spammer és a pingelő blogmotor) között, hát sajnos én abba az utcába nem fogok bemenni.

11

Boca, 2006. március 7. kedd, 13:26 (#)

Eszpee #6: valójában milyen regisztrációról is beszélünk azok után, h jelenleg is meg kell adni legalább egy nevet minden hozzászólásnál? Maga a regisztráció nem kell, h többől álljon, mint a jelenlegi mezők, de csak 1x kéne megadni valami szaftos stringet, a többi menne cookie-val.

12

eszpee, 2006. március 7. kedd, 13:30 (#)

Boca, igen, ez is lehet egy megoldás, egyelőre kivárunk, hogy a jelenlegi módszer mennyire lesz hatásos. Spam mindenesetre azóta egy sem jött.

13

punnyadt nyúl, 2006. március 8. szerda, 15:18 (#)

Elég lenne egy ( haladóknak két ) checkbox:
[ ] nem vagyok spam robot
[x] spam robot vagyok

- hogy mindkettőt meg kelljen változtatni, de az első sikeres post után mehetne cookie-ba.

A nagyszerű lingvisztikai tűzfalunk a magyar nyelv nagyrészt úgyis "az ellen véd" minket.

14

wice, 2006. március 9. csütörtök, 23:50 (#)

nemmondom, h itt is ezt kell hasznalni, demar reg kitalaltam az abszolut robotbiztos azonositot. eltorzitott szoveg begepelese gifrol? hahh! egyszeruen irjon ki az oldal egy par soros szoveget, amivagy egy vicc, vagy egy ertelmetlen tortenet lenne, es a regisztralni vagyonak el kell dontenie, h melyik. egy robot erre keptelen.

15

ern0, 2006. június 15. csütörtök, 10:50 (#)

hol is olvastam, hogy "jelszót" kér a rendszer: "mi a fehér ellentéte?"

16

yaanno, 2006. július 12. szerda, 10:14 (#)

Ez utóbbiak nagyon szellemes (és szemantikus!) megoldások, csak éppen kizárnak esetleg olyan olvasókat, akik valamilyen hátránnyal indulnak (most nem sorolom fel itt az összeset). Mielőtt rám rontanátok azzal, hogy "na de akkor hogyan is olvas ő bármit, ha azt se tudja mi a fekete ellentéte", jelzem, hogy csupán az elvről beszéltem.

17

dx, 2006. november 8. szerda, 16:24 (#)

én egy pontot kaptam [a végigolvasásért. persze, ha az is számít, hogy sokmindent megértettem és töredékpont is jár akkor akár 1,7-ig is elmegy a dolog :)]
te viszont érdemelsz egy piros pontot amiért gondoltál a noscript-tel
[ https://addons.mozilla.org/firefox/722/ ] böngészőkre is.

18

Author Profile Page pala, 2007. február 13. kedd, 13:48 (#)

egy adalek a spamekhez : hozzank a ceghez januar 31 ota 490000 level erkezett, ebbol 45500 a valid level, a tobbi spam es virus.


Hozzászólsz?

Igen

Hozzászólást csak névvel együtt fogadunk el. Ha linket írsz be, akkor előtte és utána hagyj egy szóközt, főleg akkor, ha zárójelbe teszed.


Az oldal tetejére | Szerzők, tudnivalók, feedek | sesblog és Kispad © 2003-2010 ervin, eszpee, stsmork