-
Notifications
You must be signed in to change notification settings - Fork 4
/
02-nature-des-corpus.Rmd
43 lines (24 loc) · 2.03 KB
/
02-nature-des-corpus.Rmd
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
# La diversité et la nature des corpus
## Différents types de corpus
Les critères de classement :
- Le nombre de documents
- La taille des documents : courts vs documents longs : le twitt vs le livre
- Le niveau de langue : texte vernaculaire - langue soutenue
- La configuration : locuteur unique ou locuteurs multiples
- interaction ou nom des locuteurs
- Le degré de structuration : séquentielle, plan spatiale ( ex = le curriculum viate, la fiche de brevet,...)
## Problèmes d'échantillon
Un corpus reste un échantillon. Dans ce chapitre nous avons appris comment faire la cueillette dans les sources de textes et constituer matériellement un corpus. Il reste à traiter la question de la représentativité. La collecte doit rester raisonnée.
Les unités de texte. Une unité de texte se définit comme une chaine de caractères intégrée dans un document. Celui ci peut être de forme quelconque : un livre un article, une note, une transcription,
- Un document
- Un ou des auteurs du document
- Une date
- Un endroit
- Un contexte : les unités précedente, et subséquentes.
Unités de production et de reception, Un texte est produit et puis, peut-être, lu. Analyser le texte peut se faire dans deux perspectives, celle de la production et celle de la réception. Les corpus doivent être construit en fonction de ce critère.
Examiner la question de l'engagement dans ce cadre est essentiel, certains acteurs sur un sujet donné sont amenés à produire plus que les autres, et participent donc de surcroit à une surreprésentation statistique. La question du biais de selection
Un corpus est un ensemble de documents. Ils peuvent être entendus comme :
- Courts à l'image des tweets,
- Modérés - abstract articles court -
- Longs ( article de recherche, ou très long (livres).
La collecte peut également se faire sur des matériaux primaires et picturaux, numérisés sous forme d'images, dans lesquels il est possible de détecter automatiquement des éléments textuels, en analysant leurs pixels.