Philologie numérique et méthodes quantitatives. Cours pratiques

  • Durée : 36h.
  • Horaires et dates :
    • 13 mars, 14h-17h
    • 22 mars, 10h13h-14h-17h
    • 23 mars, 10h-13h et 14h-17h
    • 16 mai, 10h-13h et 14h-17h
    • 22 mai, 14h-17h
    • 29 mai, 14h-17h
    • 6 juin, 14h-17h
    • 12 juin, 14h-17h
  • Lieu : ENC, salle informatique, 65 rue de Richelieu, 75012 Paris.
  • Enseignement : Jean-Baptiste Camps et Florian Cafiero (ENC) .
  • Inscriptions.

 

Présentation

Pourquoi suivre ce cours ?

Ce cours s’adresse à tous ceux qui souhaitent acquérir des notions fondamentales de Philologie numérique, et veulent découvrir les tenants et aboutissants pratiques et théo- riques de la constitution et de l’analyse de corpus. Il se compose de séances thématiques ou invitées, explorant des outils ou probléma- tiques particulières, ainsi que d’un cycle de fondamentaux de méthodes quantitatives. Une très large place est laissée aux travaux pratiques, effectués sur plusieurs corpora. Les participants sont également encouragés à amener leurs propres jeu de données.

Le cours n’a aucun pré-requis technique ou mathématique, et partira des fondamen- taux. Une connaissance de base d’un langage de programmation (R idéalement, ou Python par exemple) est néanmoins toujours utile, ainsi qu’une culture générale du traitement de corpus et de l’édition électronique.

Validation

L’évaluation n’est pas obligatoire. Pour ceux qui auraient besoin de valider le cours, il sera possible de prévoir un travail spécifique.

Lieux et horaires

Le cours a lieu en salle informatique de l’École des chartes (65 rue de Richelieu, 75012, 3e étage), les lundis de 14h à 17h sauf séances invitées et thématiques.

Programme des séances

Fondamentaux I : Introduction

Lundi 13 mars, 14h-17h

  1. Que sont des données pour des philologues ?
  2. A quoi les statistiques peuvent-elles servir pour l’étude de ces données ?
  3. Les approches quantitative des textes : stylométrie, lecture distante ou analyse sé- mantique.
  4. Acquisition et préparation de données
    • (a) Télécharger, Océriser, Transcrire ;
    • (b) Nettoyer;
    • (c) Formaliser et enrichir (métadonnées et encodage XML ; lemmatisation et anno- tation. . . ).
  5. Logiciel statistique R : installation et lancement, importation des données, typologie des données, exécution de commandes élémentaires.
  6. TXM : installation, création d’un corpus, de partitions, nettoyage et export d’une table de fréquence.
  7. Fondamentaux de statistique descriptive et de probabilités.

Lectures et approfondissements : voir les fondamentaux présentés dans la bibliographie générale.

Invités I : TXM

Mercredi 22 mars, 10h-13h et 14h-17h Initiation à TXM (Serge Heiden)

Jeudi 23 mars, 10h-13h et 14h-17h Préparation de corpus et import dans TXM (Alexei Lavrentiev)

 

Lectures et approfondissements

Voir les ressources en ligne proposées sur http://sourceforge.net/projects/txm/files/course% 20materials/, notamment HEIDEN (Serge), Préparation de corpus et import dans TXM : Philologie numérique progressive avec TXM, Lyon, 2014, URL : http://sourceforge.net/projects/txm/files/course%20materials/Support%20- %20Atelier%20preparation%20de%20corpus%20et%20import%20dans%20TXM.pdf/download

 

Invités II : Mike Kestemont, Stylo pour R

Mardi 16 mai, 10h-13h et 14h-17h Cette double séance donnera lieu à la présentation, par l’un de ses développeurs, du module complémentaire Stylo pour R, consacré à la stylométrie et à l’attribution des textes.

Lectures et approfondissements :

EDER (Maciej), KESTEMONT (Mike) et RYBICKI (Jan), « Stylometry with R : a suite of tools », dans Digital Humanities 2013 : Conference Abstracts, 2013, p. 487–89, URL : http://cls.ru.nl/~ihendrickx/ Posters_ehum/4_Eder_Kestemont_Rybicki_Poster.pdf (visité le 27/03/2015)
EDER (M.), RYBICKI (J.) et KESTEMONT (M.), Stylo’ : a package for stylometric analyses, 2014, URL : https://sites.google.com/site/computationalstylistics/stylo/stylo_howto.pdf KESTEMONT (Mike), MOENS (Sara) et DEPLOIGE (Jeroen), « Collaborative authorship in the twelfth century : A stylometric study of Hildegard of Bingen and Guibert of Gembloux », Literary and Linguistic Computing, 30–2 (2015), p. 199–224, DOI : 10.1093/llc/fqt063

 

Fondamentaux II : Dater, localiser et attribuer les textes sans a priori

Lundi 22 mai, 14h à 17h

  1. Traitements d’effectifs lexicaux
  2. Méthodes de partitionnement : (a) Classification ascendante hiérarchique (b) Créer des catégories (k-moyennes et k-médoïdes, coupe de la CAH) (c) Classification et description des classes

Lectures et approfondissements :

voir les fondamentaux présentés dans la bibliographie générale.

 

Fondamentaux III : Dater, localiser et attribuer les textes sans a priori 2

Lundi 29 mai, 14h-17h

  1. Variations et corrélations (a) Covariance et corrélation (b) Régression (c) Tests statistiques (d) Écarts à l’indépendance
  2. Analyse exploratoire de données (a) Analyses factorielles : ACP, ACM, AFC : ACP, ACM, AFC (b) Positionnement multi-dimensionnelPositionnement multi-dimensionnel

Lectures et approfondissements : voir les fondamentaux présentés dans la bibliographie générale.

 

Fondamentaux IV : Opposer et comparer des textes — Séance collaborative : les corpora des participants.

Mardi 6 juin, 14h-17h 1. Introduction à l’approche supervisée

  1. (a)  Intelligence artificielle
  2. (b)  Les K plus proches voisins, la classification naïve bayesienne, le plus proche centroïde
  3. (c)  Contraster des textes : deltas et cardiogrammes.

2. Travail sur les corpora des participants au cours. Lectures et approfondissements : voir les fondamentaux présentés dans la bibliographie générale.

Théma : la stemmatologie et l’analyse de traditions textuelles

Lundi 12 juin, 14h-17h Cette double séance se concentrera sur la problématique spécifique de l’analyse de traditions textuelles et de la stemmatologie assistée par ordinateur. 1. Collationner et préparer un corpus (a) alignement collation manuelle ou automatisée (CollateX, Juxta) ; (b) Représentation de la variance : modèle tabulaire, modèle graphe, modèle XML ; (c) encodage d’extraits d’une tradition textuelle. 2. Visualiser et analyser (a) Outils de visualisation (StemmaWeb) ; (b) Outils d’analyse stemmatologique (Stemmatologie pour R, Stemmweb, . . .).

Lectures et approfondissements

Exemples de mise en œuvre :

CAMPS (Jean-Baptiste) et CAFIERO (Florian), « Genealogical variant locations and simplified stemma: a test case », dans Analysis of Ancient and Medieval Texts and Manuscripts : Digital Approaches, dir. Tara Andrews et Caroline Macé, Turnhout, 2015 (Lectio, 1)
The evolution of texts : confronting stemmatological and genetical methods : proceedings of the international workshop held in Louvain-la Neuve on September 1-2, 2004, dir. C. Macé, P. Baret, A. Bozzi et L. Cignoni, Pisa [etc.], 2006 (Publié dans Linguistica computazionale : XXIV/XXV, 2004/2005)
Studies in stemmatology, dir. Pieter van Reenen, Margot van Mulken et Janet Dyk, Amsterdam, 1996
Studies in stemmatology II, dir. P. v. Reenen, Aurelius Augustinus den Hollander, M. v. Mulken et Annelies Roeleveld, 1 t., Amsterdam, 2004 (Studies in stemmatology, 2)

Logiciels

ANDREWS (Tara), The Stemmaweb Project : Tools and techniques for empirical stemmatology, 2010, URL : https://stemmaweb.net (visité le 29/10/2016)
CAMPS (Jean-Baptiste) et CAFIERO (Florian), Stemmatology: an R stemmatology package, version 0.2.2, 2014, URL : https://github.com/Jean-Baptiste-Camps/stemmatology (visité le 27/10/2016).
DEKKER (Ronald Haentjens), VAN HULLE (Dirk), MIDDELL (Gregor), NEYT (Vincent) et ZUNDERT (Joris van), « Computer-supported collation of modern manuscripts : CollateX and the Beckett Digital Manuscript Project », Digital Scholarship in the Humanities, 30–3 (2015), p. 452–470, URL : http://dsh.oxfordjournals.org/content/30/3/452.abstract (visité le 29/10/2016)
DEKKER (Ronald Haentjens), CollateX : Software for Collating Textual Sources, 2010, URL : http:// collatex.net/ (visité le 27/10/2016)
PERFORMANT SOFTWARE et FOSTER (Lou), Juxta : Collation Software for Scholars, 2013, URL : http: //www.juxtasoftware.org/ (visité le 18/11/2016) ROOS (Teemu), MYLLYMÄKI (Petri), HEIKKILÄ (Tuomas), LINKOLA (Simo) et ZOU (Yuan),
ROOS (Teemu), MYLLYMÄKI (Petri), HEIKKILÄ (Tuomas), LINKOLA (Simo) et ZOU (Yuan), Stemweb : Stemmatology Online, 2009, URL : http://slinkola.users.cs.helsinki.fi/ (visité le 18/11/2016)

 

Corpus étudiés

Les travaux pratiques se concentreront sur deux corpora fournis aux étudiants : 1. un corpus de chansons de geste ; 2. un corpus du théâtre du XVIIe siècle, autour de la polémique Corneille / Molière. Lors de la dernière séance, les participants sont invités à amener leur corpus, pour débuter leurs expérimentations et analyses.

Conseils de lecture

Les lectures prioritaires sont précédées d’une étoile (*).

Généralités

AMYOTTE (Luc), Méthodes quantitatives : applications à la recherche en sciences humaines, Saint-Laurent (Québec), Canada, 2011.
EVERITT (B. S.) et SKRONDAL (Anders), The Cambridge Dictionary of Statistics, 4e éd., 2010

Approche historique

GUERREAU (Alain),Statistique pour historiens, 2004, URL:http://elec.enc.sorbonne. fr/statistiques/stat2004.pdf
LEMERCIER (Claire) et ZALC (Claire), Méthodes quantitatives pour l’historien, 1t., Paris, 2007 (Repères, 507), URL : http://catalogue.bnf.fr/ark:/12148/cb41204285p (visité le 18/11/2016)

Analyse littéraire

MORETTI (Franco), Distant reading, Londres, 2013
* JOCKERS (Matthew), Text Analysis with R for Students of Literature, 2014 (Quantitative methods in the Humanities and Social Sciences), URL : http://www.springer. com/statistics/computational+statistics/book/978-3-319-03163-7 (visité le 09/12/2014)

Philologie numérique

Il n’existe pas (encore) de manuel dans ce domaine, mais on se reportera, pour une présentation critique stimulante à :

ANDREWS (Tara), « The third way : philology and critical edition for a digital age », Variants : the Journal of the European Society for Textual Scholarship, 10 (2012), URL : http://boris.unibe.ch/43071/

Pour une introduction à la préparation de corpus, on pourra consulter les diaporamas et supports de :

* GUERREAU (Alain), NOWAK (Krzysztof) et AILES TORRENT (Susanna), Création et uti- lisation de corpus de textes médiévaux : Minorque, 16 - 24 Septembre 2014, Minorque, 2014, URL : http://www.glossaria.eu/minorque/programme.html (visité le 18/11/2016)

* HEIDEN (Serge), Préparation de corpus et import dans TXM : Philologie numérique progressive avec TXM, Lyon, 2014, URL : https://sourceforge.net/projects/txm/files/course%20materials/Support%20...

Sur les représentations graphiques :

TUFTE (Edward R.), The visual display of quantitative information, 2nd edition, Che- shire (Conn.), 2001.

Le logiciel R
* CORNILLON (Pierre-André), GUYADER (Arnaud) et HUSSON (François), Statistiques avec R, Rennes, 2012.
CRAWLEY (Michael J.), The R Book, 2007.
LAFAYE DE MICHEAUX (Pierre), DROUILHET (Rémy) et LIQUET (Benoît), Le Logiciel R : Maîtriser le langage, Effectuer des analyses statistiques, 2011.

Références

AMYOTTE (Luc), Méthodes quantitatives : applications à la recherche en sciences humaines, Saint-Laurent (Québec), Canada, 2011.
ANDREWS (Tara), The Stemmaweb Project : Tools and techniques for empirical stemmatology, 2010, URL : https://stemmaweb.net (visité le 29/10/2016).
— « The third way : philology and critical edition for a digital age », Variants : the Journal of the European Society for Textual Scholarship, 10 (2012), URL : http://boris.unibe.ch/43071/.
CAMPS (Jean-Baptiste) et CAFIERO (Florian), Stemmatology : an R stemmatology package, version 0.2.2, 2014, URL : https://github.com/Jean-Baptiste-Camps/stemmatology (visité le 27/10/2016).
— « Genealogical variant locations and simplified stemma : a test case », stemma : a test case », stemma : a test case », stemma : a test case », dans Analysis of Ancient and Medieval Texts and Manuscripts : Digital Approaches, dir. Tara Andrews et Caroline Macé, Turnhout, 2015 (Lectio, 1).
CORNILLON (Pierre-André), GUYADER (Arnaud) et HUSSON (François), <Statistiques avec R, Rennes, 2012.
CRAWLEY (Michael J.), The R Book, 2007.
DEKKER (RonaldHaentjens), CollateX : Software for Collating Textual Sources, 2010, URL:http://collatex.net/ (visité le 27/10/2016).
DEKKER (Ronald Haentjens), VAN HULLE (Dirk), MIDDELL (Gregor), NEYT (Vincent) et ZUNDERT (Joris van), « Computer-supported collation of modern manuscripts : CollateX and the Beckett Digital Manuscript Project », Digital Scholarship in the Humanities, 30–3 (2015), p. 452–470, URL : http://dsh. oxfordjournals.org/content/30/3/452.abstract (visité le 29/10/2016).
EDER (M.), RYBICKI (J.) et KESTEMONT (M.), Stylo’: a package for stylometric analyses, 2014, URL : https: //sites.google.com/site/computationalstylistics/stylo/stylo_howto.pdf.
EDER (Maciej), KESTEMONT (Mike) et RYBICKI (Jan), « Stylometry with R : a suite of tools », dans Digital Humanities 2013: Conference Abstracts, 2013, p. 487–89, URL : http://cls.ru.nl/~ihendrickx/ Posters_ehum/4_Eder_Kestemont_Rybicki_Poster.pdf (visité le 27/03/2015).
EVERITT (B. S.) et SKRONDAL (Anders), The Cambridge Dictionary of Statistics, 4e éd., 2010.
GUERREAU (Alain), Statistique pour historiens, 2004, URL:http://elec.enc.sorbonne.fr/statistiques/stat2004.pdf.
GUERREAU (Alain), NOWAK (Krzysztof) et AILES TORRENT (Susanna), Création et utilisation de corpus de textes médiévaux : Minorque, 16 - 24 Septembre 2014, Minorque, 2014, URL : http://www.glossaria.eu/minorque/programme.html
HEIDEN (Serge), Préparation de corpus et import dans TXM : Philologie numérique progressive avec TXM, Lyon, 2014, URL : http://sourceforge.net/projects/txm/files/course%20materials/Support%20-
%20Atelier%20preparation%20de%20corpus%20et%20import%20dans%20TXM.pdf/download.
JOCKERS (Matthew), Text Analysis with R for Students of Literature, 2014 (Quantitative methods in the Humanities and Social Sciences), URL : http://www.springer.com/statistics/computational+statistics/book/978-3-3... (visité le 09/12/2014).
KESTEMONT (Mike), MOENS (Sara) et DEPLOIGE (Jeroen), « Collaborative authorship in the twelfth century : A stylometric study of Hildegard of Bingen and Guibert of Gembloux », Literary and Linguistic Computing, 30–2 (2015), p. 199–224, DOI : 10.1093/llc/fqt063.
LAFAYE DE MICHEAUX (Pierre), DROUILHET (Rémy) et LIQUET (Benoît), Le logiciel R : Maîtriser le langage, Effectuer des analyses statistiques, 2011.
LEMERCIER (Claire) et ZALC (Claire), Méthodes quantitatives pour l’historien, 1 t., Paris, 2007 (Repères, 507), URL : http://catalogue.bnf.fr/ark:/12148/cb41204285p (visité le 18/11/2016).
MORETTI (Franco), Distant reading, Londres, 2013.
PERFORMANT SOFTWARE et FOSTER (Lou), Juxta : Collation Software for Scholars, 2013, URL : http://www.juxtasoftware.org/ (visité le 18/11/2016).
ROOS (Teemu), MYLLYMÄKI (Petri), HEIKKILÄ (Tuomas), LINKOLA (Simo) et ZOU (Yuan), Stemweb : Stemmatology Online, 2009, URL : http://slinkola.users.cs.helsinki.fi/ (visité le 18/11/2016).
— Studies in stemmatology, dir. Pieter van Reenen, Margot van Mulken et Janet Dyk, Amsterdam, 1996.
— Studies in stemmatology II, dir. Pieter van Reenen, Aurelius Augustinus den Hollander, Margot van Mulken et Annelies Roeleveld, 1 t., Amsterdam, 2004 (Studies in stemmatology, 2).
— The evolution of texts : confronting stemmatological and genetical methods : proceedings of the international workshop held in Louvain-la Neuve on September 1-2, 2004, dir. C. Macé, P. Baret, A. Bozzi et L. Cignoni, Pisa [etc.], 2006 (Publié dans Linguistica computazionale : XXIV/XXV, 2004/2005).
TUFTE (Edward R.), The visual display of quantitative information, 2nd edition, Cheshire (Conn.), 2001.