Quelques bd marrantes avec spamplemousse en guest star :
Dotclear
mercredi 8 août 2007
t'sais ce qu'il te dit le pamplemousse !
Par biou le mercredi 8 août 2007, 22:38
mercredi 9 mai 2007
Spamplemousse 2, un antispam bayésien pour Dotclear 2
Par biou le mercredi 9 mai 2007, 19:42
Pour moi l'approche la plus intéressante sur le long terme pour la lutte contre le spam est l'utilisation exclusive de filtres à apprentissage, comme les filtres bayésiens, car ceux-ci sont les seuls à pouvoir anticiper les nouvelles générations de spam, et donc de pouvoir atteindre de très hauts niveaux d'efficacité.
Quand j'ai voulu créer un filtre bayésien pour Dotclear 2, je me suis demandé si on ne pouvait pas augmenter l'efficacité des filtres bayésiens naïfs que l'on trouve couramment dans les antispams de blog. Le pari semblait réalisable sur le plan algorithmique mais pas forcément sur le plan technique. En effet un filtre bayésien non-naïf a tendance à être beaucoup plus gourmand en termes de ressources, qui sont très limitées pour des blogs hébergés sur des plates-formes mutualisées. En m'inspirant beaucoup du livre Ending Spam de Jonathan Zdziarski (qui est aussi l'auteur du logiciel dspam), j'ai implémenté les algorithmes qui me semblaient les plus intéressants pour une plate-forme de blogs.
principales caractéristiques du filtre bayésien Spamplemousse2:
- tokenisation avancée, avec reconnaissance de différents motifs, comme les adresses ip, les adresses mail, les urls. (La tokenisation est l'opération qui consiste en l'analyse d'un texte en éléments unitaires, les tokens, qui correspondent à peu près aux mots) Cette tokenisation bénéficie aussi d'un système de reconnaissance des redondances dans les suffixes sur certains caractères (par exemple les tokens "viagra!!!!!" et "viagra!" sont identiques) et d'un système de réassemblage de tokens ("v.i.a.g.r.a" est identique à "viagra")
- gestion de contextes pour les différentes parties d'un commentaire (nom, mail, site, contenu)
- gestion des hapaxes : tokens non pris en compte dans le calcul de la probabilité tant qu'ils n'ont pas atteint un certain nombre d'apparitions
- gestion des "single corpus tokens" : probabilités d'apparitions extrêmes pour les tokens qui n'apparaissent que dans l'un des deux corpus (spam ou non spam)
- gestion du bias : on prend en compte le fait qu'il y a souvent un déséquilibre entre la taille des corpus spam et non-spam.
- réentraînement itératif borné : lors d'un réentraînement, la procédure d'entraînement est réitérée jusqu'à ce que le filtre change de décision (par exemple on passe un message de non spam à spam, on va entraîner le filtre sur ce message en spam, jusqu'à ce que le filtre déclare ce message comme spam. Pour éviter les problèmes, on borne le nombre de tentatives)
- gestion de différents modes d'entraînement :
- TUM : "Train Until Mature", (mode par défaut) entraînement jusqu'à ce que les tokens soient matures. Le meilleur compromis.
- TEFT : "Train Everything", entraînement sur tout ; le script est très consommateur en ressources.
- TOE : "Train On Error", entraînement sur les erreurs ; le script est peu consommateur de ressources car l'entraînement n'est effectué que lorsqu'il y a une erreur.
- le moteur d'analyse utilise pour son calcul de probabilités la fonction Chi-Square inverse de Fisher-Robinson
- support de mysql et postgresql
- fonctionnalité d'entrainement sur la catégorisation des anciens messages
Avertissement :
Sur le papier le filtre devrait être plus précis qu'un bayésien naïf, mais dans la pratique je n'ai pas encore pu l'expérimenter sur des blogs très spammés. Le plugin restera en version beta tant qu'il n'y aura pas eu de tests plus étendus, ceux-ci permettant entre autres d'ajuster certains paramètres du filtre.
Problèmes connus dans la version beta :
- l'entraînement sur les anciens messages peut être très long et aboutir à une erreur. Cette erreur n'est pas grave, et il est possible de relancer cet entraînement pour poursuivre la procédure là où elle s'était arrêtée.
Remerciements :
Je remercie ma chérie qui m'a supporté pendant que je ruminais le développement de ce machin, ainsi que les copains de la team!
Téléchargement :
http://plugins.dotaddict.org/dc2/details/Spamplemousse-2
Support:
Le support est réalisé dans les commentaires de ce post : http://www.vanschklift.com/blog/post/2008/04/15/Support-pour-Spamplemousse-2
vendredi 4 mai 2007
Plugin KikooLol pour dotclear 2
Par biou le vendredi 4 mai 2007, 21:37
Voici un nouveau plugin pour dotclear 2 dont j'ai participé à la réalisation : KikooLol.
Il s'agit d'un plugin qui filtre le langage SMS dans les commentaires, qui se base sur l'excellent script de BohwaZ. Les commentaires SMS-style sont modérés et placés dans la file d'attente au même titre que les spams.
Le plugin apparait dans le menu antispam et nécessite dotclear 2 beta 6 au minimum.
jèesp qu sela n va pa tro vou empêché d claké lè koms! l0l!
lundi 19 février 2007
Dotclear 2 beta 6 et force pure
Par biou le lundi 19 février 2007, 22:50
La beta 6 de dotclear 2 vient de sortir ce soir, et cette version contient un nouvel antispam pluguable que j'ai en partie développé. Dans le monde des antispams, il n'y a pas de "one size fits all", et c'est ce que propose de faire cet antispam. Les filtres proposés par défaut devraient bien fonctionner en moyenne, mais s'ils ne vous plaisent pas, n'hésitez pas à développer de nouveaux filtres, normalement cela ne devrait pas être trop compliqué à partir de cette documentation rédigée par notre maître à tous, Peter M. : création de filtres antispam.
Enjoy!
PS: hey les spammeurs? vous ne voudriez pas enlarger ma péniche pour voir si cette machinerie toute neuve fonctionne bien?
PPS: j'ai toujours un bayésien en cours de développement, il faut que je pense à le finir du coup...
lundi 23 octobre 2006
pioo.ch
Par biou le lundi 23 octobre 2006, 21:33
en patois lorrain, "hack" signifie "pioche", sûrement un rapport avec Pep...
[edit] ce billet contient des erreurs, saurez-vous les retrouver?
lundi 21 août 2006
IdM & the ouaibe
Par biou le lundi 21 août 2006, 17:53
Tiens ça serait bien que dotclear 2 entre dans l'ère de l'identity management. Plusieurs technos s'affrontent actuellement sans qu'il y en ait une qui sorte vraiment du lot (même si infocards de microsoft risque de faire l'effet d'un beau rouleau-compresseur lors de la sortie de vista). Un ensemble de boîtes viennent de fournir des bounties conséquents pour le support d'openid dans des applications web grand public, donc si cela vous intéresse, il est possible de faire un plugin pour dotclear 2 qui gère openid.
mardi 27 juin 2006
dissitou final beta release aoraki édition
Par biou le mardi 27 juin 2006, 18:50
Dotclear 2 beta 1 out!
\o\ \o/ /o/
pour l'installation c'est par ici : Installation de DotClear 2 beta 1
maintenant j'espère que le patron va prendre 2 minutes pour se reposer après cet accouchement :)
jeudi 8 juin 2006
Nouveau spamplemousse
Par biou le jeudi 8 juin 2006, 07:25
Un nouveau spamplemousse est sorti, il est compatible avec la dernière
version 1.2.5 de dotclear. Vous pouvez le télécharger ici :
voici le Changelog :
- correction du bug de l'interaction avec la modération de dotclear
- fin de l'implémentation de l'envoi de mails (trackbacks)
- fichier de config avec option pour l'activation de la fonction d'envoi de mails
- début de la soumission des ip vers les rbl lors de la suppression d'un spam
- correction du bug du rss (bug dans la fonction unpack de php)
Il s'agira probablement de la dernière version de spamplemousse tel que vous le connaissez actuellement. Je développe actuellement un nouvel antispam qui devrait être plus facile à utiliser et je l'espère plus efficace.
mardi 11 avril 2006
spamplemousse niou verchion
Par biou le mardi 11 avril 2006, 07:57
voici le changelog:
0.1.4 - Speed releasing
- maj pour dotclear 1.2.4
- changement des blacklists par defaut
- zeubeubeu a été viré :P
et les fichiers sont disponibles à l'adresse habituelle :
pour ceux qui font une mise à jour de dotclear vers la 1.2.4, il est nécessaire de mettre à jour spamplemousse après, et de recopier les fichiers rss.php et tb.php comme suit :
Renommer et remplacer le fichier /dotclear/tb.php par le fichier :
/dotclear/ecrire/tools/spamplemousse/setup/fichiers/1.2.4/tb.php
Renommer et remplacer le fichier /dotclear/rss.php par le fichier :
/dotclear/ecrire/tools/spamplemousse/setup/fichiers/1.2.4/rss.php
dimanche 2 avril 2006
aide mémoire licences libres
Par biou le dimanche 2 avril 2006, 12:37
une licence libre ne s'applique que sur un logiciel distribué. La licence libre de dotclear 2 ne s'applique donc pas vu que le soft n'est pas distribué. L'obligation de le distribuer existerait si le soft incorporait des portions de code externes sous une licence avec gauche d'auteur (comme la GPL) ce qui n'est pas le cas. Les développeurs ont donc l'entière propriété du logiciel et des droits d'exploitation, tant qu'ils ne décident pas de rendre le source disponible, il est donc tout à fait possible d'organiser des tests, sans devoir releaser le code.
lundi 27 février 2006
cinématique de dotclear
Par biou le lundi 27 février 2006, 13:32
http://franck.paul.free.fr/dotclear/?2005/04/21/141-cinematique-de-dotclear
http://franck.paul.free.fr/dotclear/?2005/05/17/177-cinematique-de-dotclear-suite
page 2 de 2 - billets suivants »