GitHub - tsngu/narratives_vn: Dépôt pour le projet sur les narratives trouvées dans les articles de presse vietnamiens.

Tifanny et Fanny

Narratives.

Explication des dossiers et fichiers.

Trois corpus :

le_monde : catégorie "le monde" sur les 3 sites
quoc_phong aka defense : mot clé recherché sur les 3 sites
nv_corpus : corpus sur le mot "défense" mais en ajoutant un corpus français issus du même site (VNP et ND)

scripts :

scrap_urls_nomSite permettent de scrap les urls de 500 articles par site.
- J'ai dû faire plusieurs scripts car les sites n'ont pas le même HTML.
extract_nomSite sont les scripts qui permettent d'extraire le contenu des articles et de les tokeniser avant d'en sortir la visualisation lda.
- Pareil, il y en a un par site.
lda_generale permet de faire la visualisation de tous les articles ensemble, pour pouvoir comparer.
tokenizer_vn permet de tokenizer les articles.
vncorenlp_script permet d'obtenir des treebanks. Il faut l'appliquer sur des textes non tokénisés.
S_V_COD.py : permet d'extraire sujet, verbe et complément d'objet direct
S_V_raison.py : finalement nous ne l'avons pas utilisé car les résultats n'était pas satisfaisant mais permet d'extraire sujet + verbe + CCcause
calcul.py : permet de faciliter le traitement des fichiers csv de sortie.
dependencies.py : permet de parser et d'extraire la structure : suj+verbe+cod.

txt :

urls_nomSite sont les fichiers d'urls créées par les scripts scrap_urls.
- ce sont ces fichiers qui sont ensuite utilisés en input pour extract.
fichier de stopwords pour filtrer les mots.

output : comme son nom l'indique, permet de stocker les outputs par site. les dossiers "notoken" sont les articles sans tokenisation et servent au VNCoreNLP

vncorenlp est le dossier qui contient les articles qui sont passés sous vncorenlp

Name		Name	Last commit message	Last commit date
Latest commit History 44 Commits
analyse_syntaxique		analyse_syntaxique
le_monde		le_monde
nv_corpus		nv_corpus
quoc_phong		quoc_phong
README.md		README.md
Rendu_Nguyen_Bachey.pdf		Rendu_Nguyen_Bachey.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Tifanny et Fanny

Narratives.

Explication des dossiers et fichiers.

About

Releases

Packages

Contributors 2

Languages

tsngu/narratives_vn

Folders and files

Latest commit

History

Repository files navigation

Tifanny et Fanny

Narratives.

Explication des dossiers et fichiers.

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages