Guide pour l’annotation de l’ironie

Auteurs : Cristina Bosco, Luca Anselma, Pier Felice Balestrucci, Valerio Basile, Eliana Di Palma, Marta Marchiori Manerba, Michael Oliverio, Viviana Patti, Alessandro Mazzei

Affiliation : Department of Computer Science, University of Turin, Italy, Corso Svizzera 185, 10149 Torino (Italy)

Contact : cristina.bosco@unito.it

Reconnaître l’ironie est une tâche complexe, et la disponibilité de corpus annotés peut s’avérer cruciale pour son traitement automatique. Ce document propose un guide pour l’annotation, fondées sur un schéma centré sur l’ironie, et mettant l’accent sur diverses figures de rhétorique susceptibles de déclencher l’ironie.

Introduction

La détection de l’ironie est une tâche importante en analyse des sentiments, car sa présence peut inverser la polarité d’une opinion exprimée dans un texte. Par exemple, des mots positifs peuvent être utilisés pour véhiculer une signification négative, ce qui nuit aux performances des systèmes d’analyse des sentiments ^{[1] [2] [3] [4] [5] [6]}.

En effet, l’ironie repose sur des phénomènes pragmatiques et linguistiques dont l’identification peut être controversée ^{[7] [8] [9]}, car différents procédés rhétoriques peuvent être utilisés comme déclencheurs d’ironie, tels que l’analogie, l’euphémisme, le changement de contexte, l’oxymore et le paradoxe, l’hyperbole, la fausse assertion et la question rhétorique. Cela rend l’identification de l’ironie particulièrement complexe, tant pour les annotateurs humains que pour les outils automatiques.

De plus, le traitement automatique de ce phénomène est complexe à cause de la co-occurrence de formes de discours similaires, telles que le sarcasme ou la satire ^{[10] [11] [12] [13]}, ainsi que par le domaine du texte.

L’utilisation d’outils de détection de l’ironie s’est particulièrement concentrée sur les plateformes de microblogging, car l’ironie y est largement employée par les internautes. Sur les réseaux sociaux, les contrastes qui déclenchent l’ironie dans les messages courts (comme les tweets) impliquent souvent au moins deux propositions, ou parfois des mots isolés, qui se contredisent ^[14]. Néanmoins, cette contradiction peut se situer au niveau verbal ou situationnel, et les deux éléments contrastés peuvent tous deux faire partie du contexte interne, ou l’un peut être présent tandis que l’autre doit être déduit d’un contexte externe au message.

Guide d’annotation

La procédure d’annotation décrite dans ce document¹ a été développée pour détecter les notions d’ironie de manière fine au sein d’un corpus multilingue ^{[14] [15]} (couvrant l’italien, le français, l’espagnol et l’anglais).

Un projet de recherche récent, coordonné par le Département d’Informatique de l’Université de Turin, nous a permis d’appliquer cette méthode à un autre corpus, à savoir la partie italienne de MULTIPICO ^[16]. MULTIPICO est un corpus issu de Twitter et Reddit qui comprend un ensemble plus vaste de langues annotées pour l’ironie, couvrant 9 langues et 25 variétés. Dans ce corpus, les données sont organisées par paires, chacune composée d’une publication et d’une réponse, cette dernière étant annotée de façon binaire pour indiquer si elle est ironique par rapport à la publication initiale.

Les résultats prometteurs de notre campagne d’annotation des messages ironiques de la partie italienne de MULTIPICO, décrits dans ^[17], ont motivé la décision d’appliquer également cette méthode à d’autres données ironiques extraites de MULTIPICO pour l’anglais, l’espagnol et le français.

Tâche d’annotation

Étant donné un ensemble de messages ironiques, c’est-à-dire ironiques selon l’annotation fournie dans MULTIPICO, composés d’une publication et d’une réponse, la tâche d’annotation pour chaque message consiste à :

sélectionner une ou plusieurs figures de style pour indiquer le type de déclencheur ou les déclencheurs d’ironie présents dans la réponse.

Figures rhétoriques

La liste suivante présente les figures de style à annoter. Les exemples peuvent aider l’annotateur à mieux comprendre la signification de chaque figure.

ANALOGIE – L’ironie est déclenchée par une comparaison littérale ou métaphorique de deux éléments, ou bien en comparant un élément à un contexte extérieur.

Exemple :
Post : C’est quoi des maths fortes ?
Réponse : C’est comme des maths ordinaires, mais sur les stéroïdes.
EUPHÉMISME – Un élément est utilisé pour atténuer ou remplacer l’autre élément dans la paire, ou des connaissances externes.

Exemple :
Post : Affaire Bétharram, motion de censure, budget de la Sécu… François Bayrou se prépare à une nouvelle semaine
Réponse : C’est compliqué pour lui en ce moment
CHANGEMENT DE CONTEXTE – Les mots, le style ou le registre de langue d’un des deux éléments expriment un changement frappant de sujet ou de contexte avec l’autre élément.

Exemple :
Post : @USER Wow! Y’en a un qui est sur un méchant power trip ?
Réponse : @USER Engagez-vous qu’ils disaient
OXYMORE / PARADOXE – Les deux éléments sont en contraste ou en contradiction claire, par exemple deux événements opposés.

Exemple :
Post : Les Chapelets et les prières… Aussi bon que Pur noisetier…
Réponse : Un Chapelet en pure noisetier. On pourrais sauver la planete!
HYPERBOLE – Un élément ou deux éléments expriment une idée ou un sentiment de façon exagérée.

Exemple :
Post : ça permet de justifier l’interdiction de manifs contre le 49-3, c’est pas bête. Très discutable d’un point de vu éthique, mais pas bête en soi.
Réponse : Et avec un peu de chance, le pays va être bloqué, ce qui va ralentir l’épidémie, quel génie ce Macron
FAUSSE ASSERTION – Une préposition, un fait ou une assertion n’a pas de sens dans la réalité.

Exemple :
Post : Les températures en Sibérie montent en flèche.
Réponse : La Russie a besoin de réchauffement climatique. La valeur des terres en Sibérie augmente.
QUESTION RHÉTORIQUE – Une question est posée pour étayer un propos plutôt que pour obtenir une réponse qui implique soit un seul des éléments, soit les deux.

Exemple :
Post : Chômage ce soir !
Réponse : Et indemnités sur ton compte bancaire dans 3 mois !?
AUTRE – Cette catégorie peut comprendre différents phénomènes linguistiques et pragmatiques, tels que les jeux de mots, l’humour ou l’ironie de situation.

Exemple :
Post : Ci jamais vous avez besoin d’une alternative home depot vend sur leur cite web un petit bidet portatif a 20$
Réponse : ahhh non le coronavirus commence à s’attaquer aux s, allez stocker vos s!!!!

Le guide d’annotation présenté ici est largement inspiré du document suivant : https://github.com/IronyAndTweets/Scheme

Références bibliographiques

Cristina Bosco, Viviana Patti, and Andrea Bolioli. 2013. Developing Corpora for Sentiment Analysis: The Case of Irony and Senti-TUT. IEEE Intelligent Systems, 28(2), 55–63.
Antonio Reyes, Paolo Rosso, and Tony Veale. 2013. A multidimensional approach for detecting irony in Twitter. Language Resources and Evaluation, 47(1), 239–268.
Francesco Barbieri, Horacio Saggion, and Francesco Ronzano. 2014. Modelling Sarcasm in Twitter, a Novel Approach. In Proceedings of the 5th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis, 50–58, Baltimore, Maryland. Association for Computational Linguistics.
Aniruddha Ghosh, Guofu Li, Tony Veale, Paolo Rosso, Ekaterina Shutova, John Barnden, and Antonio Reyes. 2015. SemEval-2015 Task 11: Sentiment Analysis of Figurative Language in Twitter. In Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015), 470–478.
Delia Irazú Hernández-Farías, José-Miguel Benedí, and Paolo Rosso. 2015. Applying Basic Features from Sentiment Analysis for Automatic Irony Detection. In Pattern Recognition and Image Analysis: 7th Iberian Conference, IbPRIA 2015, Lecture Notes in Computer Science 9117, 337–344. Springer.
Aditya Joshi, Vinita Sharma, and Pushpak Bhattacharyya. 2015. Harnessing Context Incongruity for Sarcasm Detection. In Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 2: Short Papers), 757–762, Beijing, China. Association for Computational Linguistics.
H. Paul Grice. 1975. Logic and Conversation. In Peter Cole and Jerry L. Morgan (eds.), Syntax and Semantics, Vol. 3: Speech Acts, 41–58. Academic Press.
H. Paul Grice. 1978. Further Notes on Logic and Conversation. In Peter Cole (ed.), Syntax and Semantics, Vol. 9: Pragmatics. Academic Press.
Dan Sperber and Deirdre Wilson. 1981. Irony and the Use-Mention Distinction. In Peter Cole (ed.), Radical Pragmatics, 295–318. Academic Press.
Delia Irazú Hernández-Farías and Paolo Rosso. 2017. Irony, Sarcasm, and Sentiment Analysis. In Federico Alberto Pozzi, Elisabetta Fersini, Enza Messina, and Bing Liu (eds.), Sentiment Analysis in Social Networks, 113–128. Elsevier.
Aditya Joshi, Pushpak Bhattacharyya, and Mark James Carman. 2017. Automatic Sarcasm Detection: A Survey. ACM Computing Surveys, 50(5), Article 73.
Kumar Ravi and Vadlamani Ravi. 2017. A Novel Automatic Satire and Irony Detection Using Ensembled Feature Selection and Data Mining. Knowledge-Based Systems, 120, 15–33.
Shiwei Zhang, Xiuzhen Zhang, Jeffrey Chan, and Paolo Rosso. 2019. Irony Detection via Sentiment-Based Transfer Learning. Information Processing & Management, 56(5), 1633–1644.
Jihen Karoui, Farah Benamara, Véronique Moriceau, Viviana Patti, Cristina Bosco, and Nathalie Aussenac-Gilles. 2017. Exploring the Impact of Pragmatic Phenomena on Irony Detection in Tweets: A Multilingual Corpus Study. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 1, Long Papers, 262–272, Valencia, Spain. Association for Computational Linguistics.
Alessandra Teresa Cignarella, Cristina Bosco, Viviana Patti, and Mirko Lai. 2018. Application and Analysis of a Multi-layered Scheme for Irony on the Italian Twitter Corpus TWITTIRÒ. In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Miyazaki, Japan. European Language Resources Association (ELRA).
Silvia Casola, Simona Frenda, Soda Marem Lo, Erhan Sezerer, Antonio Uva, Valerio Basile, Cristina Bosco, Alessandro Pedrani, Chiara Rubagotti, Viviana Patti, and Davide Bernardi. 2024. MultiPICo: Multilingual Perspectivist Irony Corpus. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 16008–16021.
Pier Felice Balestrucci, Michael Oliverio, Soda Marem Lo, Luca Anselma, Valerio Basile, Alessandro Mazzei, and Viviana Patti. 2025. When Figures Speak with Irony: Investigating the Role of Rhetorical Figures in Irony Generation with LLMs. In Proceedings of the Eleventh Italian Conference on Computational Linguistics (CLiC-it 2025), 55–63, Cagliari, Italy. CEUR Workshop Proceedings.