The Programming Historian en Français (Jan 2023)

Du HTML à une liste de mots (partie 1)

  • William J. Turkel,
  • Adam Crymble

DOI
https://doi.org/10.46430/phfr0026
Journal volume & issue
Vol. 5

Abstract

Read online

Dans cette leçon en deux parties, nous allons utiliser les compétences acquises dans la leçon « Télécharger des pages web avec Python », et voir comment supprimer les balises HTML de la page de la transcription du procès-verbal de Benjamin Bowsey en 1780 dans le but de créer un texte propre et réutilisable. Nous réaliserons cette tâche en utilisant les opérateurs et méthodes de chaines de caractères propres à Python, ainsi que nos compétences relatives à la lecture attentive. Nous introduirons ensuite les concepts de boucles et d’instructions conditionnelles afin de répéter notre processus de traitement et de tester certaines conditions nous permettant de séparer le contenu des balises HTML. Pour finir, nous convertirons les données obtenues et enregistrées sous la forme d’un texte sans balises HTML en une liste de mots qui pourra par la suite être triée, indexée et investie lors d’analyses statistiques.