Уики-спамове, и чистенето им

Преди няколко дни две-три от уикитата, за които се грижа, бяха здравата налазени от спамботове, и ми се наложи да се справям с проблема.

Доскоро подобни неща бяха възможни само ако човек не е инсталирал SpamBlacklist разширението – то използва масивния черен списък на Уикипедия, и пробивите бяха изключително редки. Напоследък обаче ботмрежарите са започнали да правят координирани атаки с определена последователност, от по-малките уикита към по-големите – така черните списъци на големите уикита попадат под вълната на спама последни, и не успяват да защитят малките.

С една дума, налагаше ми се да почистя няколкостотин спама от различните уикита. Реших, че това е задача за бот, и се заех да пиша антиспам модулче към бота, който използвам в Уикипедия и други уикита.

Междувременно търпението на Борислав (от Уикипедия, Моята библиотека и куп други чудесни мрежови начинания) не издържа, и той изчисти на ръка жестоко инфектираната БГ-Фантастика. Малко по-късно и аз бях готов с най-първи версии на бота, и доочистих Бисерите на глупостта и прочее. Проблемът приключи.

Временно, защото утре спамботовете пак ще налазят. Затова и последните няколко дни, вместо да губя времето на читателите на този блог :-), доизкусурявах алгоритмите на бота за откриване на спам. За щастие, имам на разположение Honeywiki за проби със спамове от спамботове, и Уикипедия за проби без такива спамове. Към момента съм нагласил критериите така, че от около 2600 проверени редакции в Honeywiki само 5 са погрешно класифицирани като не-спам (1:500), и от около 9500 проверени редакции в Уикипедия само две са погрешно класифицирани като спам (почти 1:5000).

Не е идеално, но е сравнително прилично. 🙂

Някой да има уики за чистене от мръсотията на спамботове? 🙂

3 thoughts on “Уики-спамове, и чистенето им

  1. Григор Post author

    @ju: Как правя кое? Как пиша бота, или как му казвам да чисти спамовете?

    Reply

Leave a Reply

Your email address will not be published. Required fields are marked *