Suite à ce thread :
posting.php?mode=quote&f=5&p=107023Isa a écrit:
merci Dantec et Bé Habba, Zaatar.
Silverstone a écrit:
c'est pas resté longtemps!
si, si : c'est tout de même resté une journée (le week end en plus en immédiat en général ça part un peu plus vite....)
Justement, je suis en train de faire mumuse avec l'API d'eBay (un putain de casse tête, mais cela vaut le coups) pour que chaque heure, un programme "scan" les nouvelles annonces et les parse (scane le titre des annonces et détecte les pièces qualitativement et quantitativement) pour en calculer ensuite le % de spot (comme dans le Calculat'or), le tout pour un affichage en temps réel sur mon site.
Il y aura un système de vérification "humaine" du parsage avec un système de point. Selon le nombre de points (donc plus on participe à la vérification des annonces, selon une interface simple), on peut demander au programme des alertes. Genre recevoir un mail si une annonce à spot-x% se termine dans x minutes, ou si une annonce en achat immédiat vient de tomber à un prix intéressant.
En plus, le programme scannera les annonces terminées pour en calculer le %de spot final. C'est le boulot de JCMarti, mais là, ce sera automatique, et on pourra suivre au jour le jour les primes des pièces/lots.
Par contre, je vais avoir besoin de temps de cerveau de vous les amis pour m'aider à concevoir le parsage. Genre, imaginer l'algorythme qui analysera les titres des annonces.
Il me faut un algorythme (une méthode d'analyse, donc) qui puisse deviner que "ARGENT 5 FRANCS SEMEUSE 1961" corresponde à 1 semeuse 5F, tout comme "pièce 5 F", et non comme "lot de pieces de 5F" (donc vous devinerez tout de suite qu'il est impossible de savoir combien de pièces possède ce lot > intervention humaine).
Il y aura donc 2 catégories de vérif : les vérifs du parsage automatique et les intervention car parsage impossible.
Moi ce qui m'intéresse c'est donc l'algorythme qui déterminer le parsage automatique et qui, au final, s'il n'a rien trouvé, balance "parsage impossible".
Je pensais faire ainsi :
1- analyser si on trouve les mot "pieces", "piece" (avec ou sans accent, avec ou sans s à la fin, peu importe majuscule/minuscules)
> si oui
11- chercher le chiffre devant ce mot (ce qui va déterminer le nombre de pièces)
> si on trouve, on continue
> si on trouve pas, on se dit qu'il n'y a qu'une piece, et on continue
12- chercher les noms des pieces que l'on trouve dans l'annonce avec les mots "5 francs", "5 F", "5F", "50F", "10F", etc.
(ce qui au passage en fait pas mal de possibilité)
> si on trouve 1 catégorie = c'est bon, on a le parsage (quantité et qualité)
> si on trouve plusieurs catégories = tenter d'analyses s'il y a plusieurs fois le mot "pieces" pour tenter de séparer
> si on trouve rien : intervention manuelle
> si non
21- identifier comme en 12 pour trouver LA catégorie dont on imagine qu'il n'y a qu'une seule pièce
2- analyse si on trouve les mot "lot" ou "lots"
etc. etc.
Bref, vous voyez comment cela fonctionne ?
L'idée c'est de tenter d'avoir l'algorythme qui laisse passer le moins d'erreurs. De toute façon, il faudra l'améliorer au fur et à mesure qu'on l'utilisera...
Des volontaires pour se casse tête informatique ? ^^
(c'est pour la bonne cause !!!)
++