La linguistique informatique appliquée à South Park

FYI.

This story is over 5 years old.

Tech

La linguistique informatique appliquée à South Park

Voici ce qu'on obtient en analysant tous les mots prononcés par chaque personnage de South Park.
Giulia Trincardi
Milan, IT

Ok, je l'avoue : je suis une grande fan de South Park. La série animée, née à la fin des années 90 dans les esprits déments de Trey Parker et Matt Stone, parvient à chaque épisode à produire une critique intelligente de la société américaine (et occidentale, en général) et de ses paradoxes – et elle le fait en massacrant des icônes tout en s'en prenant aux stéréotypes et au politiquement correct.

En tant que fan, j'ai toujours pensé que la série ferait un sujet de thèse parfait. Depuis son lancement, elle va bien au-delà du simple divertissement, incarnant une forme de satire élaborée qui frise le non-sens existentiel.

Publicité

Récemment, Kaylin Walker, de l'université Concordia de Fargo, dans le Dakota du Nord, a réalisé mes rêves académiques en mettant la touche finale à un travail de text mining absolument colossal concernant l'ensemble des 267 épisodes de la série.

Le text mining est un ensemble de techniques linguistiques, statistiques et de machine learning qui permet d'analyser mécaniquement un texte afin d'en tirer des conclusions variées en fonction du champ et de l'objectif de l'analyse. On utilise le text mining en économie, en histoire, en sciences sociales, en science politique et en psychologie, car compter le nombre de fois où une personne utilise un mot ou un groupe de mots peut permettre d'en savoir beaucoup sur l'individu en question ou sur le contexte de production de son discours.

Dans une sorte de dialogue parfait entre amour et haine, le mot le plus prononcé par Cartman est "Kyle" et celui que Kyle prononce le plus souvent est "Cartman".

Une fois que l'on sait tout ça, on peut donc légitimement se demander : qu'a donc déduit Kaylin Walker de son analyse de tous les mots prononcés par les habitants de South Park, Colorado ?

En utilisant des programmes de text mining tels que R, RWeka ou stringr, Walker a d'abord rassemblé toutes les répliques des personnages grâce aux transcripts disponibles sur GitHub et les a associées au personnage correspondant, en les cataloguant de manière à « créer une liste des expressions les plus caractéristiques de chaque personnage. »

Publicité

Pour faire court, elle a analysé plus de 70.000 mots au total pour déterminer quels personnages parlent le plus, lesquels s'expriment le plus souvent ou le plus rarement, quels sont les mots les plus souvent utilisés par chaque personnage, et quel personnage insulte le plus les autres (devinez qui !). Dans un second temps, elle a analysé ces données saison par saison, afin de voir comment évoluaient les discours d'année en année.

Parmi les 4000 personnages qui apparaissent (et parlent) au cours des 19 saisons de South Park, Walker n'a analysé que les 29 les plus récurrents, rangeant tous les autres dans une case commune, étant donné leur faible importance statistique. Pour l'heure, une analyse détaillée des personnages « basés sur des personnes réelles, mais totalement fictifs » comme Tom Cruise, Saddam Hussein ou les Super Meilleurs Potes n'est donc pas disponible. Mais l'exploration du texte n'en est pas moins intéressante : sans surprise, Cartman est le personnage qui a le plus de répliques en nombre absolu, alors que Kenny est le personnage majeur qui s'exprime le moins. Butters, qui apparaît de plus en plus souvent comme le bras droit naïf et maladroit de Cartman, et Randy, le père de Stan, ont gagné en importance au fil des années, aux dépens de Stan lui-même et de Kyle.

Image via

Dans le graphique ci-dessous, Walker met en avant les personnages qui jurent plus souvent que les autres, et c'est cette fois Kenny qui l'emporte haut la main, avec un taux de 54,8 jurons pour 1000 mots prononcés (soit presque le triple de Cartman, pour situer).

Publicité

Image via

L'article de Walker montre ensuite comment ont évolué les grossièretés les plus récurrentes, "ass" ayant été petit à petit surclassé par "fuck" et "shit" ayant atteint le pic le plus élevé sur une saison, même s'il a été dépassé au fil du temps par "hell".

Pour savoir quels mots caractérisent le mieux chaque personnage, Walker a d'abord écrémé les mots utilisés indistinctement par tous (comme par exemple "school", "I", "you" etc.), puis elle a eu recours à une fonction de vraisemblance pour mesurer l'unicité de chaque occurrence. « La fonction de vraisemblance, explique-t-elle dans l'article, compare l'incidence d'un mot dans un champ spécifique (celui du discours d'un personnage) à son incidence dans un autre champ (celui des autres textes) pour voir s'il apparaît plus souvent que la moyenne. » Vous pouvez consulter les chiffres purs et durs, ou plus simplement jeter un œil au graphique ci-dessous, assez étonnant.

Image via

Dans une sorte de dialogue parfait entre amour et haine, le mot le plus prononcé par Cartman est "Kyle" et celui que Kyle prononce le plus souvent est "Cartman". Il est par ailleurs intéressant de voir à quel point l'importance donnée à Randy sur les dernières saisons dépend surtout de son alter-ego développé au cours de la saison 18, la chanteuse Lorde – dont le nom est le troisième mot le plus prononcé par le père de Stan.

De tous les champs auxquels il est possible d'appliquer la statistique et le langage informatique, les dessins animés sont sans doute l'un des plus originaux. Et si l'analyse de Kaylin Walker peut ressembler à un simple exercice de style, elle n'est en réalité pas très différente de ce que l'on peut faire à partir d'un texte classique, qu'il s'agisse d'un roman du 19ème siècle ou d'un article d'économie, notamment parce que South Park est désormais entré au panthéon de la culture pop internationale, se mêlant à la fois de politique, de religion, de science, d'art, de technologie et de tous les aspects de notre société. La seule différence, au final, c'est le nombre de grossièretés utilisées par les auteurs.