About: dbpedia-fr:Segmentation_(linguistique)     Goto   Sponge   Distinct   Permalink

An Entity of Type : owl:Thing, within Data Space : fr.dbpedia.org associated with source document(s)

AttributesValues
rdfs:label
  • Segmentation (linguistique) (fr)
rdfs:comment
  • La segmentation représente, en linguistique, un prétraitement d'un ou de plusieurs documents textuels dans le but de pouvoir par la suite les traiter, représenter graphiquement et/ou le plus souvent les indexer. * Les composés lexicaux à apostrophe : " aujourd’hui " ne devra pas être segmenté en {" aujourd' ", " hui "} alors que " l'encyclopédie " devra devenir {" l' ", " encyclopédie "} * Les acronymes : " P.-V " ne devra pas se retrouver scinder en deux lettres distinctes * Les formes contractés : " M'sieur " etc. (fr)
rdfs:seeAlso
sameAs
Wikipage page ID
Wikipage revision ID
dbo:wikiPageWikiLink
Link from a Wikipage to an external page
page length (characters) of wiki page
dct:subject
prop-fr:wikiPageUsesTemplate
prov:wasDerivedFrom
prop-fr:année
prop-fr:auteur
  • Massih-Reza AMINI - Éric GAUSSIER (fr)
prop-fr:isbn
prop-fr:langue
  • fr (fr)
prop-fr:lieu
  • Paris (fr)
prop-fr:lireEnLigne
prop-fr:pagesTotales
prop-fr:passage
  • page 10-12 (fr)
prop-fr:sousTitre
  • Applications, modèles et algorithmes (fr)
prop-fr:titre
  • Recherche d'information (fr)
  • TreeTagger - a language independent part-of-speech tagger (fr)
prop-fr:url
prop-fr:éditeur
foaf:isPrimaryTopicOf
has abstract
  • La segmentation représente, en linguistique, un prétraitement d'un ou de plusieurs documents textuels dans le but de pouvoir par la suite les traiter, représenter graphiquement et/ou le plus souvent les indexer. Le principe est de segmenter une chaîne de caractères en mots (ou éléments sémantiques). Cette opération est très sensible car une mauvaise segmentation entraine des problèmes d'interprétation du document, notamment si certains mots ne sont pas correctement indexés voire perdus. Dans la langue française, bien que les espaces, apostrophes et signes de ponctuation délimitent souvent des mots aisément identifiables, certains types de mots peuvent poser problème : * Les composés lexicaux à apostrophe : " aujourd’hui " ne devra pas être segmenté en {" aujourd' ", " hui "} alors que " l'encyclopédie " devra devenir {" l' ", " encyclopédie "} * Les acronymes : " P.-V " ne devra pas se retrouver scinder en deux lettres distinctes * Les formes contractés : " M'sieur " etc. Chaque langue a ainsi ses spécificités à prendre en compte. Pour l'allemand, ce sera le fait que les noms composés s’écrivent sans espaces et donc complexifie l'étape de segmentation. Pour les langues chinoises, le défi est d'autant plus grand qu'il n'y a aucun espace entre les caractères pour faciliter cette segmentation (qui est actuellement un défi majeur pour réussir une indexation efficace, la méthode la plus utilisée étant la séparation en groupe de caractères, qui reste une méthode grandement améliorable). (fr)
is dbo:wikiPageWikiLink of
is Wikipage disambiguates of
is oa:hasTarget of
is foaf:primaryTopic of
Faceted Search & Find service v1.16.111 as of Oct 19 2022


Alternative Linked Data Documents: ODE     Content Formats:   [cxml] [csv]     RDF   [text] [turtle] [ld+json] [rdf+json] [rdf+xml]     ODATA   [atom+xml] [odata+json]     Microdata   [microdata+json] [html]    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] Valid XHTML + RDFa
OpenLink Virtuoso version 07.20.3234 as of May 18 2022, on Linux (x86_64-ubuntu_bionic-linux-gnu), Single-Server Edition (39 GB total memory, 3 GB memory in use)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software