Hé bien 16 ans après la publication initiale, le retour du véritable auteur de cette série de récits aura permit de rajouter un épilogue.
Pour récupérer les récits sur doctissimo, j'ai développé et utilisé des outils automatiques qui font le travail en 4 étapes.
Je considère que sur un site web écrit proprement, la partie rédactionnelle (donc ce qu'un lecteur verra) doit représenter 80 à 95 % du contenu des fichiers HTML récupérés par le navigateur. Mais sur doctissimo c'est moins de 10 % du total !
Pour ce récit, les 17 pages html de la discussion sur doctissimo représentait 7,13 millions de caractères parmi lesquels tout ce qui a été écrit par les différents intervenants et que j'ai récupéré se limite à 607 729 caractères et le récit qui en est extrait à la 3ème étape 475 623 caractères.
Je considère que le format interne des pages de doctissimo est un véritable foutoir dans lequel il m'a fallu trouver une méthode pour extraire les différentes interventions puis de temps en temps l'adapter à divers changements de format.
Pour les pages de doctissimo, l'étape 2 est la plus compliqué de toutes et dans le cas de ce récit, certaines interventions en fin de page 17 n'ont été détectées ni dans la version que j'avais téléchargé initialement en 2019 ni lors d'un téléchargement plus global l'année suivante.
Récemment, dans le récit Les vacances de Thomas en cours de réédition un morceau de chapitre qui suivait un lien vers une vidéo de youtube n'avait pas été récupéré. Mais comme je (bech) regarde aussi le texte initial dans un navigateur web, j'ai pu m'apercevoir du manque.
Pour récupérer les récits sur doctissimo, j'ai développé et utilisé des outils automatiques qui font le travail en 4 étapes.
- téléchargement des pages HTML de la discussion
- extraction des messages des différents intervenants
- extraction des messages de l'auteur du récit suffisamment longs pour ne pas être une réponse brève à un lecteur
- regroupement du résultat de l'étape 3 dans des fichiers qui feront environ 3000 lignes si un passage à la ligne au bout de 80 caractères maximum est rajouté.
Je considère que sur un site web écrit proprement, la partie rédactionnelle (donc ce qu'un lecteur verra) doit représenter 80 à 95 % du contenu des fichiers HTML récupérés par le navigateur. Mais sur doctissimo c'est moins de 10 % du total !
Pour ce récit, les 17 pages html de la discussion sur doctissimo représentait 7,13 millions de caractères parmi lesquels tout ce qui a été écrit par les différents intervenants et que j'ai récupéré se limite à 607 729 caractères et le récit qui en est extrait à la 3ème étape 475 623 caractères.
Je considère que le format interne des pages de doctissimo est un véritable foutoir dans lequel il m'a fallu trouver une méthode pour extraire les différentes interventions puis de temps en temps l'adapter à divers changements de format.
Pour les pages de doctissimo, l'étape 2 est la plus compliqué de toutes et dans le cas de ce récit, certaines interventions en fin de page 17 n'ont été détectées ni dans la version que j'avais téléchargé initialement en 2019 ni lors d'un téléchargement plus global l'année suivante.
Récemment, dans le récit Les vacances de Thomas en cours de réédition un morceau de chapitre qui suivait un lien vers une vidéo de youtube n'avait pas été récupéré. Mais comme je (bech) regarde aussi le texte initial dans un navigateur web, j'ai pu m'apercevoir du manque.
Les productions d'inny :
Série des secrets : One shots La saga d'outremonde (fantastique avec des personnages gays)
Série des secrets : One shots La saga d'outremonde (fantastique avec des personnages gays)