. "La segmentation repr\u00E9sente, en linguistique, un pr\u00E9traitement d'un ou de plusieurs documents textuels dans le but de pouvoir par la suite les traiter, repr\u00E9senter graphiquement et/ou le plus souvent les indexer. Le principe est de segmenter une cha\u00EEne de caract\u00E8res en mots (ou \u00E9l\u00E9ments s\u00E9mantiques). Cette op\u00E9ration est tr\u00E8s sensible car une mauvaise segmentation entraine des probl\u00E8mes d'interpr\u00E9tation du document, notamment si certains mots ne sont pas correctement index\u00E9s voire perdus. Dans la langue fran\u00E7aise, bien que les espaces, apostrophes et signes de ponctuation d\u00E9limitent souvent des mots ais\u00E9ment identifiables, certains types de mots peuvent poser probl\u00E8me : \n* Les compos\u00E9s lexicaux \u00E0 apostrophe : \" aujourd\u2019hui \" ne devra pas \u00EAtre segment\u00E9 en {\" aujourd' \", \" hui \"} alors que \" l'encyclop\u00E9die \" devra devenir {\" l' \", \" encyclop\u00E9die \"} \n* Les acronymes : \" P.-V \" ne devra pas se retrouver scinder en deux lettres distinctes \n* Les formes contract\u00E9s : \" M'sieur \" etc. Chaque langue a ainsi ses sp\u00E9cificit\u00E9s \u00E0 prendre en compte. Pour l'allemand, ce sera le fait que les noms compos\u00E9s s\u2019\u00E9crivent sans espaces et donc complexifie l'\u00E9tape de segmentation. Pour les langues chinoises, le d\u00E9fi est d'autant plus grand qu'il n'y a aucun espace entre les caract\u00E8res pour faciliter cette segmentation (qui est actuellement un d\u00E9fi majeur pour r\u00E9ussir une indexation efficace, la m\u00E9thode la plus utilis\u00E9e \u00E9tant la s\u00E9paration en groupe de caract\u00E8res, qui reste une m\u00E9thode grandement am\u00E9liorable)."@fr . . "Segmentation (linguistique)"@fr . . "Massih-Reza AMINI - \u00C9ric GAUSSIER"@fr . . "Paris"@fr . . "fr"@fr . . "177878290"^^ . . "TreeTagger - a language independent part-of-speech tagger"@fr . . . . . "La segmentation repr\u00E9sente, en linguistique, un pr\u00E9traitement d'un ou de plusieurs documents textuels dans le but de pouvoir par la suite les traiter, repr\u00E9senter graphiquement et/ou le plus souvent les indexer. \n* Les compos\u00E9s lexicaux \u00E0 apostrophe : \" aujourd\u2019hui \" ne devra pas \u00EAtre segment\u00E9 en {\" aujourd' \", \" hui \"} alors que \" l'encyclop\u00E9die \" devra devenir {\" l' \", \" encyclop\u00E9die \"} \n* Les acronymes : \" P.-V \" ne devra pas se retrouver scinder en deux lettres distinctes \n* Les formes contract\u00E9s : \" M'sieur \" etc."@fr . "256"^^ . . . . . . . "2013"^^ . . "2708"^^ . . . . . . "Recherche d'information"@fr . . . "page 10-12"@fr . "8747805"^^ . . . . . . . . "978"^^ . "Applications, mod\u00E8les et algorithmes"@fr .