La segmentation représente, en linguistique, un prétraitement d'un ou de plusieurs documents textuels dans le but de pouvoir par la suite les traiter, représenter graphiquement et/ou le plus souvent les indexer. * Les composés lexicaux à apostrophe : " aujourd’hui " ne devra pas être segmenté en {" aujourd' ", " hui "} alors que " l'encyclopédie " devra devenir {" l' ", " encyclopédie "} * Les acronymes : " P.-V " ne devra pas se retrouver scinder en deux lettres distinctes * Les formes contractés : " M'sieur " etc.

Property Value
dbo:abstract
  • La segmentation représente, en linguistique, un prétraitement d'un ou de plusieurs documents textuels dans le but de pouvoir par la suite les traiter, représenter graphiquement et/ou le plus souvent les indexer. Le principe est de segmenter une chaîne de caractères en mots (ou éléments sémantiques). Cette opération est très sensible car une mauvaise segmentation entraine des problèmes d'interprétation du document, notamment si certains mots ne sont pas correctement indexés voire perdus. Dans la langue française, bien que les espaces, apostrophes et signes de ponctuation délimitent souvent des mots aisément identifiables, certains types de mots peuvent poser problème : * Les composés lexicaux à apostrophe : " aujourd’hui " ne devra pas être segmenté en {" aujourd' ", " hui "} alors que " l'encyclopédie " devra devenir {" l' ", " encyclopédie "} * Les acronymes : " P.-V " ne devra pas se retrouver scinder en deux lettres distinctes * Les formes contractés : " M'sieur " etc. Chaque langue a ainsi ses spécificités à prendre en compte. Pour l'allemand, ce sera le fait que les noms composés s’écrivent sans espaces et donc complexifie l'étape de segmentation. Pour les langues chinoises, le défi est d'autant plus grand qu'il n'y a aucun espace entre les caractères pour faciliter cette segmentation (qui est actuellement un défi majeur pour réussir une indexation efficace, la méthode la plus utilisée étant la séparation en groupe de caractères, qui reste une méthode grandement améliorable). (fr)
  • La segmentation représente, en linguistique, un prétraitement d'un ou de plusieurs documents textuels dans le but de pouvoir par la suite les traiter, représenter graphiquement et/ou le plus souvent les indexer. Le principe est de segmenter une chaîne de caractères en mots (ou éléments sémantiques). Cette opération est très sensible car une mauvaise segmentation entraine des problèmes d'interprétation du document, notamment si certains mots ne sont pas correctement indexés voire perdus. Dans la langue française, bien que les espaces, apostrophes et signes de ponctuation délimitent souvent des mots aisément identifiables, certains types de mots peuvent poser problème : * Les composés lexicaux à apostrophe : " aujourd’hui " ne devra pas être segmenté en {" aujourd' ", " hui "} alors que " l'encyclopédie " devra devenir {" l' ", " encyclopédie "} * Les acronymes : " P.-V " ne devra pas se retrouver scinder en deux lettres distinctes * Les formes contractés : " M'sieur " etc. Chaque langue a ainsi ses spécificités à prendre en compte. Pour l'allemand, ce sera le fait que les noms composés s’écrivent sans espaces et donc complexifie l'étape de segmentation. Pour les langues chinoises, le défi est d'autant plus grand qu'il n'y a aucun espace entre les caractères pour faciliter cette segmentation (qui est actuellement un défi majeur pour réussir une indexation efficace, la méthode la plus utilisée étant la séparation en groupe de caractères, qui reste une méthode grandement améliorable). (fr)
dbo:wikiPageExternalLink
dbo:wikiPageID
  • 8747805 (xsd:integer)
dbo:wikiPageLength
  • 2708 (xsd:nonNegativeInteger)
dbo:wikiPageRevisionID
  • 177878290 (xsd:integer)
dbo:wikiPageWikiLink
prop-fr:année
  • 2013 (xsd:integer)
prop-fr:auteur
  • Massih-Reza AMINI - Éric GAUSSIER (fr)
  • Massih-Reza AMINI - Éric GAUSSIER (fr)
prop-fr:isbn
  • 978 (xsd:integer)
prop-fr:langue
  • fr (fr)
  • fr (fr)
prop-fr:lieu
  • Paris (fr)
  • Paris (fr)
prop-fr:lireEnLigne
prop-fr:pagesTotales
  • 256 (xsd:integer)
prop-fr:passage
  • page 10-12 (fr)
  • page 10-12 (fr)
prop-fr:sousTitre
  • Applications, modèles et algorithmes (fr)
  • Applications, modèles et algorithmes (fr)
prop-fr:titre
  • Recherche d'information (fr)
  • TreeTagger - a language independent part-of-speech tagger (fr)
  • Recherche d'information (fr)
  • TreeTagger - a language independent part-of-speech tagger (fr)
prop-fr:url
prop-fr:wikiPageUsesTemplate
prop-fr:éditeur
dct:subject
rdfs:comment
  • La segmentation représente, en linguistique, un prétraitement d'un ou de plusieurs documents textuels dans le but de pouvoir par la suite les traiter, représenter graphiquement et/ou le plus souvent les indexer. * Les composés lexicaux à apostrophe : " aujourd’hui " ne devra pas être segmenté en {" aujourd' ", " hui "} alors que " l'encyclopédie " devra devenir {" l' ", " encyclopédie "} * Les acronymes : " P.-V " ne devra pas se retrouver scinder en deux lettres distinctes * Les formes contractés : " M'sieur " etc. (fr)
  • La segmentation représente, en linguistique, un prétraitement d'un ou de plusieurs documents textuels dans le but de pouvoir par la suite les traiter, représenter graphiquement et/ou le plus souvent les indexer. * Les composés lexicaux à apostrophe : " aujourd’hui " ne devra pas être segmenté en {" aujourd' ", " hui "} alors que " l'encyclopédie " devra devenir {" l' ", " encyclopédie "} * Les acronymes : " P.-V " ne devra pas se retrouver scinder en deux lettres distinctes * Les formes contractés : " M'sieur " etc. (fr)
rdfs:label
  • Segmentation (linguistique) (fr)
  • Segmentation (linguistique) (fr)
rdfs:seeAlso
owl:sameAs
prov:wasDerivedFrom
foaf:isPrimaryTopicOf
is dbo:wikiPageDisambiguates of
is dbo:wikiPageWikiLink of
is oa:hasTarget of
is foaf:primaryTopic of