Ako SPAMboty skresľujú štatistiky

SPAMboti automatizovane nepridávajú len odkazy do komentárov, vedia sa aj pridať do zoznamu spätných odkazov (napr. v systéme Pixelpost).

Photo Blog mal podľa svojich záznamov a štatistík AWStats bežiacich na hostingu približne 100 unikátnych návštevníkov mesačne a celkový počet 3500 návštev. Tieto štatistiky však obsahujú závažnú chybu: do zobrazených stránok a návštevníkov zarátavajú aj SPAMbotov. Chyba je v tom, že zobrazujú požiadavky na server, pričom SPAMbot si žiadnu stránku nepozerá. Odosiela iba na správne adresy HTTP požiadavky s vyplneným poľom Referer. Požiadavka sa zaznamená v logu serveru (číta ho AWStats) a do databázy si informáciu zapíše aj Pixelpost.

SPAMbot však neprijíma odpoveď serveru, presnejšie neinterpretuje HTML kód. Toto sa prejaví v štatistikách ako TOPlist. Požiadavka na server TOPlistu je posielaná pri načítaní obrázku v HTML kóde, čiže v tejto metóde sa SPAMboty neprejavia.

Kým som implementoval blokovanie IP adries do Pixelpostu, do jeho záznamov bolo pridaných 12 nových spätných odkazov od SPAMbotov. Za tú istú dobu (cca 3 hodiny) do štatistík TOPlistu pre PhotoBlog nepribudol žiaden nový záznam. Sledovanie štatistík pomocou obrázku v HTML kóde nezaznamenáva prístupy SPAMbotov.

Zvyšovanie unikátnych návštev na Photo Blog-u až o 30 každý mesiac podľa AWStats je úplné skreslené. Z 3500 záznamov boli až 2/3 SPAM.

Zobrazenie štatistík

Ban list

Pri mazaní záznamov z databázy som získal až 30 unikátnych IP adries, z ktorých prichádzali SPAMboti. Rozhodol som sa teda zoznam uverejniť (aj pre jednoduchšie spracovanie vo viacerých skriptoch). Zoznam blokovaných IP adries je umiestnený na adrese http://www.izsak.net/ipban/list. Zoznam je kódovaný v UTF-8, riadkovanie je UNIXové.

PS: Spomenul som si na Hruškovičovú a jej chyby metódy. Kto by len povedal, že s chybami metódy sa ešte stretneme :-).

0 thoughts on “Ako SPAMboty skresľujú štatistiky

  • [cite author=„Izsak“]Kto by len povedal, že s chybami metódy sa ešte stretneme[/cite]

    :D – ako kto, ty budeš takmer každý deň minimálne po dobu pol roka (ale asi dúfaš že aspoň tri roky, čo?).

    P.S.: naozaj je ten „Náhľad“ povinný? To sa nedá odstrániť? :[

  • Meračky budú aj na FEI :(

    Náhľad je povinný, aby si videl pred poslaním, ako bude text vyzerať, či ho Texy! správne sformátoval a dáva to možnosť opraviť si chyby v texte.

Comments are closed.