This HTML5 document contains 48 embedded RDF statements represented using HTML+Microdata notation.

The embedded RDF content will be recognized by any processor of HTML5 Microdata.

Namespace Prefixes

PrefixIRI
dcthttp://purl.org/dc/terms/
dbohttp://dbpedia.org/ontology/
foafhttp://xmlns.com/foaf/0.1/
n7https://books.google.com/
n9http://g.co/kg/m/
rdfshttp://www.w3.org/2000/01/rdf-schema#
category-frhttp://fr.dbpedia.org/resource/Catégorie:
n6http://fr.dbpedia.org/resource/Modèle:
wikipedia-frhttp://fr.wikipedia.org/wiki/
rdfhttp://www.w3.org/1999/02/22-rdf-syntax-ns#
n12http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
owlhttp://www.w3.org/2002/07/owl#
n16http://www.universalis.fr/encyclopedie/
dbpedia-frhttp://fr.dbpedia.org/resource/
prop-frhttp://fr.dbpedia.org/property/
provhttp://www.w3.org/ns/prov#
xsdhhttp://www.w3.org/2001/XMLSchema#
wikidatahttp://www.wikidata.org/entity/

Statements

Subject Item
dbpedia-fr:Segmentation_(linguistique)
rdfs:label
Segmentation (linguistique)
rdfs:comment
La segmentation représente, en linguistique, un prétraitement d'un ou de plusieurs documents textuels dans le but de pouvoir par la suite les traiter, représenter graphiquement et/ou le plus souvent les indexer. * Les composés lexicaux à apostrophe : " aujourd’hui " ne devra pas être segmenté en {" aujourd' ", " hui "} alors que " l'encyclopédie " devra devenir {" l' ", " encyclopédie "} * Les acronymes : " P.-V " ne devra pas se retrouver scinder en deux lettres distinctes * Les formes contractés : " M'sieur " etc.
rdfs:seeAlso
n16:segmentation-psycholinguistique
owl:sameAs
n9:075k9v wikidata:Q25394236
dbo:wikiPageID
8747805
dbo:wikiPageRevisionID
177878290
dbo:wikiPageWikiLink
dbpedia-fr:Linguistique dbpedia-fr:Espace_(typographie) dbpedia-fr:Chaîne_de_caractères dbpedia-fr:Indexation dbpedia-fr:Mot category-fr:Linguistique_informatique dbpedia-fr:Visualisation_de_données dbpedia-fr:Acronymie dbpedia-fr:Français dbpedia-fr:Apostrophe_(typographie) category-fr:Traitement_de_texte dbpedia-fr:Eyrolles dbpedia-fr:Ponctuation dbpedia-fr:Langues_chinoises dbpedia-fr:Allemand
dbo:wikiPageExternalLink
n7:books%3Fid=fQ8Qc_RS_QgC&printsec=frontcover n12:
dbo:wikiPageLength
2708
dct:subject
category-fr:Traitement_de_texte category-fr:Linguistique_informatique
prop-fr:wikiPageUsesTemplate
n6:Lien_web n6:Portail n6:Ébauche n6:Références n6:Ouvrage
prov:wasDerivedFrom
wikipedia-fr:Segmentation_(linguistique)?oldid=177878290&ns=0
prop-fr:année
2013
prop-fr:auteur
Massih-Reza AMINI - Éric GAUSSIER
prop-fr:isbn
978
prop-fr:langue
fr
prop-fr:lieu
Paris
prop-fr:lireEnLigne
n7:books%3Fid=fQ8Qc_RS_QgC&printsec=frontcover
prop-fr:pagesTotales
256
prop-fr:passage
page 10-12
prop-fr:sousTitre
Applications, modèles et algorithmes
prop-fr:titre
TreeTagger - a language independent part-of-speech tagger Recherche d'information
prop-fr:url
n12:
prop-fr:éditeur
dbpedia-fr:Eyrolles
foaf:isPrimaryTopicOf
wikipedia-fr:Segmentation_(linguistique)
dbo:abstract
La segmentation représente, en linguistique, un prétraitement d'un ou de plusieurs documents textuels dans le but de pouvoir par la suite les traiter, représenter graphiquement et/ou le plus souvent les indexer. Le principe est de segmenter une chaîne de caractères en mots (ou éléments sémantiques). Cette opération est très sensible car une mauvaise segmentation entraine des problèmes d'interprétation du document, notamment si certains mots ne sont pas correctement indexés voire perdus. Dans la langue française, bien que les espaces, apostrophes et signes de ponctuation délimitent souvent des mots aisément identifiables, certains types de mots peuvent poser problème : * Les composés lexicaux à apostrophe : " aujourd’hui " ne devra pas être segmenté en {" aujourd' ", " hui "} alors que " l'encyclopédie " devra devenir {" l' ", " encyclopédie "} * Les acronymes : " P.-V " ne devra pas se retrouver scinder en deux lettres distinctes * Les formes contractés : " M'sieur " etc. Chaque langue a ainsi ses spécificités à prendre en compte. Pour l'allemand, ce sera le fait que les noms composés s’écrivent sans espaces et donc complexifie l'étape de segmentation. Pour les langues chinoises, le défi est d'autant plus grand qu'il n'y a aucun espace entre les caractères pour faciliter cette segmentation (qui est actuellement un défi majeur pour réussir une indexation efficace, la méthode la plus utilisée étant la séparation en groupe de caractères, qui reste une méthode grandement améliorable).