Skip to content

Un projet Python pour le scraping web, récupérant facilement des articles et d'autres données d'un site donné.

License

Notifications You must be signed in to change notification settings

Dylanolivro/python_plugins

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Licence-MIT


Python Beautiful Soup

Plugins Python

C'est un projet qui permet de récupérer les articles d'un site web via une URL

Prérequis

  • python 3.11.5
  • pip 23.2.1 (ou une version ultérieure)
  • beautifulsoup4 4.12.2
  • requests 2.31.0

Installation

Ce projet utilise BeautifulSoup4. Vous pouvez l'installer avec le gestionnaire de paquets pip.

Pour installer les dépendances nécessaires, exécutez les commandes suivantes :

pip install requests
pip install beautifulsoup4

Pour plus d'informations sur l'installation et l'utilisation de Beautiful Soup, consultez la documentation officielle.

Configuration

Vous devez spécifier l'URL du site à partir duquel vous souhaitez récupérer des articles ou d'autres informations. Modifiez les variables url et start_url en conséquence

url = "https://www.exemple.com/press_release/"
start_url = "https://www.exemple.com"

De plus, ajustez les "chemins" vers les éléments HTML ainsi que leurs éléments enfants pour correspondre à la structure du site :

articles = soup.select('article.news')
title_path = 'h2'  # Chemin vers l'élément du titre
url_path = 'a'  # Chemin vers l'élément de l'URL
date_path = 'time'  # Chemin vers l'élément de la date
abstract_path = '.extrait'  # Chemin vers l'élément de l'abstract

Assurez-vous de personnaliser ces chemins en fonction de la structure spécifique du site que vous traitez. Ces variables seront utilisées pour extraire les informations pertinentes à partir de la page web.

About

Un projet Python pour le scraping web, récupérant facilement des articles et d'autres données d'un site donné.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages