Cleaning wiki spam!

There is a lot of wiki spam novadays. The wikis I host were close to being rendered useless by the amount of e-trash pumped in by spambots. Naturally, I had to do something.

The first idea was to install a captcha extension. There are plenty for MediaWiki (all my wikis are powered by it). However, some wikis sport too old versions of MW to have a decent captcha, and one or two cannot or should not be upgraded. On some others, captchas are undesirable for various reasons. Also, a captcha will not clean the already present spam. So I needed a different solution.

Happily, one of my hobbies is a MediaWiki bot software. I threw up a spam-cleaning script for it and set it over the wikis. The first attempts missed a lot of spam and had some false positives, but this was quickly fixed. It took me some more time to start reliably catching the spambot “valdalisms” (edits with no spam links, made to make the spambot blacklisting harder). Currently the script makes approximately one mistake per 1000 edits, or even less – that is, almost no cleaning handwork is left after it. I believe this is a good result. 🙂

And since good things should not stay idle, I decided to offer its abilities as a service. In short, I am offering cleaning from the spam MediaWiki-based wikis. If you need cleaning this e-muck, just email me (“grigor” at this site, that is, “gatchev.info”). I’d be glad to help.

In case you insist on paying for the service, I accept Bitcoins on address “1FvF2Y39HGjXxvhsmtLmt8oRMmicLqR561” (minus the quotes). An example fee could be 0.01 Bitcoin per 10 000 spams cleaned, but feel free to suggest a different one, if you like. 🙂

And… may never need this service! 🙂

10 Responses to 'Cleaning wiki spam!'

  1. Вал Says:

    Поздрави на форума,

    Моя въпрос е почти по темата. Май едно приятелче ще се опитва да прави блог и много е вероятно да му се наложи да ползва нещо подобно, като програмата по горе. Питаше ме как стоят нещата по принцип. По принцип имам предвид с какво ще се сблъска в процеса на работа.

    Хе хе. Аз хвърлям по едно око тук и когато беше пуснат поста, офертата беше 0,01 Bitcoins per 65 000 spams cleaned. Може и да се бъркам ама си спомням че числото не беше точно и ми направи впечатление. Зададох си въпроса защо пък точно толкова. Лято е. Не се напрягах да си го обясня много много.

    Обаче хвърлях и по едно око на курса на Bitcoins как се движи. Нещо почнаха да се обезценяват напоследък. Наистина бавно но все пак плавно и все в една посока.

    Предполагам че точно това е предизвикало промяната на офертата. И в двата случая не мога да прецен колко точно е разликата в офертат за почистване на спамове но както и да е.

    Съществената част:
    0,01 Bitcoin в момента по курса на деня приблизително се равнява на около 0,15 лв.

    Така погледнато не мога да коментирам офертата дали е добра или не, но съм твърдо убеден че всеки би трябвало да не се притеснява да поиска адекватно заплащане на труда, който е вложил след като предлага продукт който ще улесни неимоверно много потенциалния клиент или ще му помогне на свой ред да изкара пари с него. Твърдо съм за култивиране на такова настроение в България.

    Обаче възниква въпроса с таксите които трябва да се платят евентуално при трансфер на Bitcoins. https://en.bitcoin.it/wiki/Transaction_fees това е линка на wiki страницата. Няколко пъти я препрочитах и не можах да я схвана напълно.

    Випроси:
    1. Ако платя 0.01 Bitcoins ще платя ли и такса от 0,01 Bitcoins за превода.
    2. Има опция да не платя никаква такса ако сам генерирам някакъв блок. Въпроса е как се генерира тоя блок, колко ресусрс отнема, колко време и т.н.
    3. Как може да се реши проблема с обезценяването на виртуалната валута в дългосрочен план. Защото има такси и при придобиването на Bitcoins.

    Горе долу тези са началните въпроси за които се сещам.

    Вал

  2. Григор Says:

    @Вал: За блог има други инструменти. Ако е WordPress, препоръчвам Akismet; има и други антиспам плъгини, но с него имам опит и е добър.

    Офертата не е променяна, защото не ме вълнува – не вярвам някой някога да плати. 🙂 По същата причина, дали биткойните се обезценяват или растат не ме интересува. Пак по същата причина, не знам дали таксата за превод е толкова и дали е изгодна.

    Генерирането на блок изисква с времето все повече ресурси. Към момента изисква около три месеца работа на прилична изчислителна ферма – ако разполагаш с домашно PC, няма смисъл да се пробваш.

    Проблемът с обезценяването му е решен, като алгоритъмът за генерирането му е ограничен да позволи реално съществуването на едно ограничено количество биткойни (около 21 милиона).

    Това е засега.

  3. Валентин Says:

    Много строг антиспам имаш – човек не може две хипервръзки да сложи… в същност три – заедно с тази в полето Website.

  4. Григор Says:

    @Валентин: Akismet. Спира по две-три хиляди спама дневно тук…

  5. Валентин Says:

    Коментарите, които Akismet не допуска директно ли се трият или се маркират за модерация (май е първото, защото гледам, че коментарът ми го няма). Писах за това, че бях писал в Уикито за заблудите, но Ботчо ми изтри писанията (вж. страницата “Маргаринът е вреден или полезен?”).

  6. Валентин Says:

    Не ми дава да пусна връзка към тубата. Но ако напиша част от адреса на видеото може би филтъра няма да се задейства: mjmuPqkVwWc (лесно може да се намери видеото като се напише това в Гугъл).

  7. Григор Says:

    @Валентин: Ботчо е настроен да е подозрителен към анонимни записи – ботовете са предимно такива. (Или поне доскоро бяха – вече се и регистрират, че даже и капчи решават.) Страницата е лесно да бъде върната, но… в този си вид е малко “една жена каза”. В смисъл, там въпросът е не за какво има източници – източници в Интернет има за всяко твърдение (и особено за налудничавите). Въпросът е дали е вярно.

    А за пускането на връзки тук – мисля, че ако я напишеш без “http://”, ще мине.

  8. Валентин Says:

    Не става. Пробвах да махна трите в-та – пак се задейства филтъра.

    Още един опит:

    youtube точка com/watch?v=mjmuPqkVwWc

  9. Валентин Says:

    Анти спам филтрите отказват много хора от писане на коментари и приноси в уики-та.

  10. Григор Says:

    @Валентин: Това е чудесно. Защото пък спамът отказва всички, както да пишат, така и да четат. По-добре много отказали се да пишат, отколкото всички.отказали се и да четат, и да пишат.

Leave a Reply