La lemmatisation désigne l'analyse lexicale du contenu d'un texte regroupant les mots d'une même famille. Chacun des mots d'un contenu se trouve ainsi réduit en une entité appelée lemme (forme canonique). La lemmatisation regroupe les différentes formes que peut revêtir un mot, soit : le nom, le pluriel, le verbe à l'infinitif, etc.

PropertyValue
dbpedia-owl:abstract
  • La lemmatisation désigne l'analyse lexicale du contenu d'un texte regroupant les mots d'une même famille. Chacun des mots d'un contenu se trouve ainsi réduit en une entité appelée lemme (forme canonique). La lemmatisation regroupe les différentes formes que peut revêtir un mot, soit : le nom, le pluriel, le verbe à l'infinitif, etc.
  • Лемматиза́ция — процесс приведения словоформы к лемме — её нормальной (словарной) форме.
  • La lemmatizzazione è il processo di riduzione di una forma flessa di una parola alla sua forma canonica (non marcata), detta lemma.Nell'elaborazione del linguaggio naturale, la lemmatizzazione è il processo algoritmico che determina automaticamente il lemma di una data parola. Il processo può coinvolgere altre attività di elaborazione del linguaggio, quali ad esempio l'analisi morfologica e grammaticale.In molte lingue, le parole appaiono in diverse forme flesse. Per esempio, in italiano il verbo camminare può apparire come cammina, camminò, camminando e così via. La forma canonica, camminare, è il lemma della parola ed è la forma di riferimento per cercare la parola all'interno di un dizionario. La combinazione della forma canonica con la relativa parte del discorso è chiamata il lessema della parola.
  • La lematización es un proceso lingüístico que consiste en, dada una forma flexionada (es decir, en plural, en femenino, conjugada, etc), hallar el lema correspondiente. El lema es la forma que por convenio se acepta como representante de todas las formas flexionadas de una misma palabra. Es decir, el lema de una palabra es la palabra que nos encontraríamos como entrada en un diccionario tradicional: singular para sustantivos, masculino singular para adjetivos, infinitivo para verbos. Por ejemplo, decir es el lema de dije, pero también de diré o dijéramos; guapo es el lema de guapas; mesa es el lema de mesas. La lematización puede realizarse automáticamente mediante programas de análisis morfológico. Hay diversos grados de lematización posible: podemos hacer una lematización puramente morfológica, o bien hacer una lematización sintáctica que tenga en cuenta el contexto en el que aparece la palabra. Por ejemplo, en un análisis morfólogico la palabra ama tendría dos lemas: el sustantivo ama y el verbo amar. Sin embargo, en un contexto sintáctico (es decir, en una oración), podemos desambiguarlo y optar por un único lema. Así, en El ama de llaves abrió la puerta, ama es sustantivo, mientras que en María ama a Pedro, ama es del verbo amar. Para poder hacer este tipo de lematización es necesario, por lo tanto, hacer un análisis sintáctico.La lematización es una tarea propia de la Lingüística Computacional, y es útil en la tecnología aplicada a buscadores, traductores automáticos, extracción de información y demás herramientas vinculadas al Procesamiento del Lenguaje Natural.
  • Lematizazioa hitz bati dagokion oinarrizko lema lortzean datza. Prozesu honek hitzari perpaus baten dagokion kategoria gramatikala definitzeko beharra du, eta beraz, hizkuntzaren gramatikaren ezagutza beharrezkoa du.Hizkuntza askotan hitzaren bukaeran moldaketak izaten dituzte. Adibidez, euskaraz, eman aditza aldaera ezberdinetan ager daiteke, hala nola ematen, emateko, emango, emanen edo emandako. Oinarrizko forma, eman, hiztegi batean agertuko litzatekeen hori, 'lema' dela esan ohi da. Oinarrizko forma hau kategoria gramatikal batekin bateratzean lexema izena hartzen du.Lematizazioak lotura handia du stemming kontzeptuarekin. Ezberdintasun nagusia stemmer batek hitzarengan testuinguruaren ezagutzarik gabe eragitean datza, eta beraz, ezin da esanahi ezberdinak dituzten hitzak ezberdindu. Hala eta guztiz ere, stemmer-ak errazagoak dira sortzeko, azkarrago funtzionatzen dute eta baliteke bere mugek garrantzirik ez izatea hainbat aplikaziorentzako.Adibidez: "hobe" hitzak "ongi" du bere lema, baina stemming-ak ez du hori antzematen, lematizazioak bai ordea. "ekarriko" hitzak "ekarri" du bere lema, bai stemmer eta bai lematizatzaileak antzematen dutelarik.
  • Lemmatisation (or lemmatization) in linguistics, is the process of grouping together the different inflected forms of a word so they can be analysed as a single item.In computational linguistics, lemmatisation is the algorithmic process of determining the lemma for a given word. Since the process may involve complex tasks such as understanding context and determining the part of speech of a word in a sentence (requiring, for example, knowledge of the grammar of a language) it can be a hard task to implement a lemmatiser for a new language.In many languages, words appear in several inflected forms. For example, in English, the verb 'to walk' may appear as 'walk', 'walked', 'walks', 'walking'. The base form, 'walk', that one might look up in a dictionary, is called the lemma for the word. The combination of the base form with the part of speech is often called the lexeme of the word.Lemmatisation is closely related to stemming. The difference is that a stemmer operates on a single word without knowledge of the context, and therefore cannot discriminate between words which have different meanings depending on part of speech. However, stemmers are typically easier to implement and run faster, and the reduced accuracy may not matter for some applications.For instance:The word "better" has "good" as its lemma. This link is missed by stemming, as it requires a dictionary look-up.The word "walk" is the base form for word "walking", and hence this is matched in both stemming and lemmatisation.The word "meeting" can be either the base form of a noun or a form of a verb ("to meet") depending on the context, e.g., "in our last meeting" or "We are meeting again tomorrow". Unlike stemming, lemmatisation can in principle select the appropriate lemma depending on the context.Analysers like Lucene Snowball store the base stemmed format of the word without the knowledge of meaning, but taking into account the semantics of the word formation only. The stemmed word itself might not be a valid word: 'lazy', as seen in the example below, is stemmed by many stemmers to 'lazi'. This is because the purpose of stemming is not to produce the appropriate lemma – that is a more challenging task that requires knowledge of context. The main purpose of stemming is to map different forms of a word to a single form, and as a relatively simple, rules-based algorithm, it makes the above-mentioned sacrifice to ensure that, for example, when 'laziness' is stemmed to 'lazi', it has the same stem as 'lazy'.
dbpedia-owl:wikiPageExternalLink
dbpedia-owl:wikiPageID
  • 252672 (xsd:integer)
dbpedia-owl:wikiPageInterLanguageLink
dbpedia-owl:wikiPageLength
  • 2502 (xsd:integer)
dbpedia-owl:wikiPageOutDegree
  • 25 (xsd:integer)
dbpedia-owl:wikiPageRevisionID
  • 97306590 (xsd:integer)
dbpedia-owl:wikiPageWikiLink
prop-fr:wikiPageUsesTemplate
dcterms:subject
rdfs:comment
  • La lemmatisation désigne l'analyse lexicale du contenu d'un texte regroupant les mots d'une même famille. Chacun des mots d'un contenu se trouve ainsi réduit en une entité appelée lemme (forme canonique). La lemmatisation regroupe les différentes formes que peut revêtir un mot, soit : le nom, le pluriel, le verbe à l'infinitif, etc.
  • Лемматиза́ция — процесс приведения словоформы к лемме — её нормальной (словарной) форме.
  • Lematizazioa hitz bati dagokion oinarrizko lema lortzean datza. Prozesu honek hitzari perpaus baten dagokion kategoria gramatikala definitzeko beharra du, eta beraz, hizkuntzaren gramatikaren ezagutza beharrezkoa du.Hizkuntza askotan hitzaren bukaeran moldaketak izaten dituzte. Adibidez, euskaraz, eman aditza aldaera ezberdinetan ager daiteke, hala nola ematen, emateko, emango, emanen edo emandako. Oinarrizko forma, eman, hiztegi batean agertuko litzatekeen hori, 'lema' dela esan ohi da.
  • La lemmatizzazione è il processo di riduzione di una forma flessa di una parola alla sua forma canonica (non marcata), detta lemma.Nell'elaborazione del linguaggio naturale, la lemmatizzazione è il processo algoritmico che determina automaticamente il lemma di una data parola. Il processo può coinvolgere altre attività di elaborazione del linguaggio, quali ad esempio l'analisi morfologica e grammaticale.In molte lingue, le parole appaiono in diverse forme flesse.
  • La lematización es un proceso lingüístico que consiste en, dada una forma flexionada (es decir, en plural, en femenino, conjugada, etc), hallar el lema correspondiente. El lema es la forma que por convenio se acepta como representante de todas las formas flexionadas de una misma palabra. Es decir, el lema de una palabra es la palabra que nos encontraríamos como entrada en un diccionario tradicional: singular para sustantivos, masculino singular para adjetivos, infinitivo para verbos.
  • Lemmatisation (or lemmatization) in linguistics, is the process of grouping together the different inflected forms of a word so they can be analysed as a single item.In computational linguistics, lemmatisation is the algorithmic process of determining the lemma for a given word.
rdfs:label
  • Lemmatisation
  • Lematización
  • Lematizazioa
  • Lemmatisation
  • Lemmatizzazione
  • Лемматизация
owl:sameAs
http://www.w3.org/ns/prov#wasDerivedFrom
foaf:isPrimaryTopicOf
is dbpedia-owl:wikiPageWikiLink of
is foaf:primaryTopic of