Skip to content
This repository has been archived by the owner on Feb 6, 2022. It is now read-only.

Commit

Permalink
Update README.md
Browse files Browse the repository at this point in the history
  • Loading branch information
nkcr authored Jun 1, 2018
1 parent 87bab92 commit 78fcfc2
Showing 1 changed file with 50 additions and 1 deletion.
51 changes: 50 additions & 1 deletion Projet/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -20,10 +20,59 @@ Si vous utilisez des algorithmes, des librairies ou du code tiers il faudra le p

Ce projet s'inscrit dans le cours MSE "Web Mining" du semestre de printemps 2018. L'objectif est de mettre en pratique des techniques de crawling et d'indexation sur des pages WEB afin d'en extraire des informations. Ainsi, le projet porte sur deux grosses parties: crawling du WEB et analyse des données. La partie crawling et analyse des données est libre et peut porter sur un sujet à choix suivant les éléments théoriques apportés durant le cours et d'autres ressources à choix.

L'bjectif de notre projet est d'analyser des articles de journaux et ligne afin d'en extraire les thématiques importantes qui ressortent au fil du temps. Nous sommes donc en résumé intéressé à visualiser l'évolution des thématiques d'actualité en fonction du temps. Notre système devrait ainsi nous permettre de voir si certaines thématiques en engendrent d'autre ou si certaines thématiques sont récurentes au fil du temps. Nous espérons aussi pouvoir faire certaines déduction inatendues nous permettant
L'objectif de notre projet est d'analyser des articles de journaux et ligne afin d'en extraire les thématiques importantes qui ressortent au fil du temps. Nous sommes donc en résumé intéressé à visualiser l'évolution des thématiques d'actualité en fonction du temps. Notre système devrait ainsi nous permettre de voir si certaines thématiques en engendrent d'autre ou si certaines thématiques sont récurentes au fil du temps. Nous espérons aussi pouvoir faire certaines déduction inatendues nous permettant de réfléchir et se sensibiliser par rapport aux médias du WEB.

# 2. Données (sources, quantité, évtl. pré-traitement, description)

## Sources

Voici les sources sélectionnées pour le crawling des données:

* [RTS info](http://www.rts.ch/info/)
* [SwissInfo](https://www.swissinfo.ch)
* [20minutes romandie](http://www.20min.ch/ro/)
* [Le temps](https://www.letemps.ch)

Pour chaque source le même concept d'extraction a été utilisé. Il s'agit d'extraire la section contenant l'article (son *body*) et de suivre les articles en lien proposé par le site. Cette méthode permet, en sélectionnant un bon article de base, d'extraire une grande quantité d'article, voir même l'entièreté des articles disponibles.

## Quantité

Voici un résumé de la quantité d'article extrait pour chaque source:

|RTS info|Swissinfo|20 minutes|Le temps|
|--------|---------|----------|--------|
|7'547 |15'483 |103'115 |7'083 |

Total d'articles: **133'228**

## Description

Pour chaque article, la même structure a été sauvegardée. La structure de donnée typée des articles est décrite par la structure suivante:

```go
type Article struct {
Id bson.ObjectId `json:"id" bson:"_id,omitempty"`
Title string `bson:"title"`
Url string `bson:"url"`
Html string `bson:"html"`
ClearedHTML string `bson:"clearedHTML"`
CleanContent string `bson:"cleanContent"`
Source string `bson:"source"`
CrawlData long `bson:"crawlDate"`
ArticleDate long `bson:"articleDate"`
Tags []string `bson:"tag"`
BiMonth long `bson:"biMonth"`
}
```
Certain champs on été introduit après le crawling dans le processus de pre-processing discuté au point suivant.

Le tableau suivant décrit le contenu des champs:

|Id|Title|Url|Html|ClearedHTML|CleanContent|Source|CrawlDate|ArticleDate|Tags|BiMonth|
|---|---|---|---|---|---|---|---|---|---|---|
|identificateur unique|Titre de l'article|URL de l'article|Contenu *brut* de l'article (son *body* HTML|Contenu textuel extrait du contenu *brut*|Contenu textuel après étape de *cleaning* (décrite après)|Source de l'article (RTS, le Temps, ...)|Date d'extraction du contenu sous forme de timestamp|Date de parution de l'article ou sa dernière mise à jour|Tags de l'article si disponible|Indicateur de la position du l'article par moitier de mois de l'année|


# 3. Planification, répartition du travail

# 4. Fonctionnalités / cas d’utilisation
Expand Down

0 comments on commit 78fcfc2

Please sign in to comment.