En recherche d'information, les mots vides (ou stop words, en anglais) sont des mots qui sont tellement communs qu'il est inutile de les indexer ou de les utiliser dans une recherche. En français, des mots vides évidents pourraient être « le », « la », « de », « du », « ce »…Un mot vide est un mot non significatif figurant dans un texte. On l'oppose à mot plein.La signification d'un mot s'évalue à partir de sa distribution (au sens statistique) dans une collection de textes.

PropertyValue
dbpedia-owl:abstract
  • En recherche d'information, les mots vides (ou stop words, en anglais) sont des mots qui sont tellement communs qu'il est inutile de les indexer ou de les utiliser dans une recherche. En français, des mots vides évidents pourraient être « le », « la », « de », « du », « ce »…Un mot vide est un mot non significatif figurant dans un texte. On l'oppose à mot plein.La signification d'un mot s'évalue à partir de sa distribution (au sens statistique) dans une collection de textes. Un mot dont la distribution est uniforme sur les textes de la collection est dit « vide ». En d'autres termes, un mot qui apparaît avec une fréquence semblable dans chacun des textes de la collection n'est pas discriminant, ne permet pas de distinguer les textes les uns par rapport aux autres.Lorsque tous les textes de la collection sont rédigés dans une même langue, les mots vides sont principalement des mots caractéristiques de cette langue comme les prépositions, les articles, les pronoms. D'où l'assimilation courante entre mots vides et mots grammaticaux et partant, entre mots pleins et mots lexicaux (noms, verbes, adjectifs). Les listes pré-établies, dites de mots vides, utilisées par les moteurs de recherche sont ainsi des listes de mots grammaticaux. Elles sont parfois appelées « anti-dictionnaires ».Cependant dans une collection de textes réunis autour d'un thème commun, certains mots peuvent respecter une distribution uniforme. Ce sont alors des mots vides pour cette collection bien qu'ils ne soient pas des mots grammaticaux. D'autre part, certains mots grammaticaux sont assez rares pour constituer des mots pleins (ex. : via).
  • Jako stopslova se při počítačovém zpracování přirozeného jazyka označují slova, které se v daném jazyce vyskytují často, ale nenesou žádnou významovou informaci, mají zpravidla pouze syntaktický význam. Typicky se jedná o spojky, předložky atp. Seznam takových slov (též označovaný jako negativní slovník) používají plnotextové vyhledávače a při sestavování indexu tato slova zcela ignorují, neboť jsou pro vyhledávání neužitečná.I při jiných formách počítačového zpracování textových dokumentů se stopslova často vypouštějí, neboť tak dojde jak ke zmenšení zpracovávaného dokumentu, tak i ke zkrácení doby nutné pro jeho zpracování.Při použití lemmatizace může slovník obsahovat pouze základní tvary, v opačném případě musí obsahovat všechny používané tvary stopslov.V češtině mezi stopslova mohou být zařazeny např. spojky (a, aby, ale, ani, …), předložky (na, pro, u, …), zájmena (její, my, on), málovýznamová slovesa (být, mít). V jiných jazycích patří mezi typická stopslova také určité a neurčité členy. V konkrétních kontextech často mezi stopslova bývají zařazena slova v daném kontextu příliš častá (např. při vyhledávání na WWW tak jsou často ignorována slova jako www či com).Za vynálezce stopslov bývá považován Hans Peter Luhn.
  • Palabras vacías es el nombre que reciben las palabras sin significado como artículos, pronombres, preposiciones, etc. que son filtradas antes o después del procesamiento de datos en lenguaje natural (texto). A Hans Peter Luhn, uno de los pioneros en recuperación de información, se le atribuye la acuñación de la locución inglesa stop words y el uso del concepto en su diseño. Está controlada por introducción humana y no automática.No hay una lista definitiva de palabras vacías que todas las herramientas de procesamiento de lenguajes naturales incorporen. No todas las herramientas de PLN usan una lista de palabras vacías. Algunas herramientas evitan usarlo específicamente para soportar búsquedas por frase. El uso de un algoritmo de stemming puede reducir parte de la base lógica o dependencia de una lista de palabras vacías a filtrar.Las palabras vacías pueden causar problemas al usar un motor de búsqueda para buscar frases que las incluyen, especialmente en nombres como 'La verdad' o 'Nunca Jamás'.
  • Stoppwörter nennt man im Information Retrieval Wörter, die bei einer Volltextindexierung nicht beachtet werden, da sie sehr häufig auftreten und gewöhnlich keine Relevanz für die Erfassung des Dokumentinhalts besitzen.Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind bestimmte Artikel ('der', 'die', 'das'), unbestimmte Artikel ('einer', 'eine', 'ein'), Konjunktionen (z. B. 'und', 'oder', 'doch') und häufig gebrauchte Präpositionen (z. B. 'an', 'in', 'von') sowie die Negation 'nicht'.Im Englischen sind unter anderem 'a', 'of', 'the', 'I', 'it', 'you' und 'and' Stoppwörter.Abhängig von den zu erschließenden Dokumenten können Stoppwörter auch mehrsprachig vorliegen. Obwohl eher als Stoppzeichen zu benennen, werden häufig auch der Punkt (.), das Komma (,) und der Strichpunkt (;) als Stoppwörter bezeichnet. Allen Stoppwörtern ist gemeinsam, dass sie vor allem grammatikalische/syntaktische Funktionen übernehmen und daher keine Rückschlüsse auf den Inhalt des Dokumentes zulassen. Eine weitere Gemeinsamkeit ist ihre große Zahl: Sie treten in jedem Dokument sehr oft auf und kommen in sehr vielen Dokumenten vor, wodurch sie bei der Erschließung der Dokumente einen hohen Aufwand verursachen würden.Das Erkennen von Stoppwörtern macht Suchmaschinen effizienter. Würde man Stoppwörter bei einem Suchauftrag beachten, wäre nahezu jedes Dokument ein Treffer. Ein solches Suchergebnis wäre für den Anwender nutzlos.Hans Peter Luhn, einer der Pioniere des Information Retrieval, prägte den Begriff der Stoppwörter und benutzte dieses Konzept im Design und in der Implementation des Indexers KWIC.
  • Een stopwoord is een uitdrukking die een spreker regelmatig gebruikt zonder er veel betekenis in te leggen. Dit kan zowel een woord als woordgroep zijn.
  • In computing, stop words are words which are filtered out prior to, or after, processing of natural language data (text). There is not one definite list of stop words which all tools use and such a filter is not always used. Some tools specifically avoid removing them to support phrase search.Any group of words can be chosen as the stop words for a given purpose. For some search machines, these are some of the most common, short function words, such as the, is, at, which, and on. In this case, stop words can cause problems when searching for phrases that include them, particularly in names such as 'The Who', 'The The', or 'Take That'. Other search engines remove some of the most common words—including lexical words, such as "want"—from a query in order to improve performance.Hans Peter Luhn, one of the pioneers in information retrieval, is credited with coining the phrase and using the concept.[citation needed]
  • Стоп-слова или Шумовые слова — термин из теории поиска информации по ключевым словам.Стоп-слова могут делиться на общие и зависимые.К общим можно отнести предлоги, суффиксы, причастия, междометия, цифры, частицы и т. п. Общие шумовые слова всегда исключаются из поискового запроса (за исключением поиска по строгому соответствию поисковой фразы), так же они игнорируются при построении инвертированного индекса. Считается, что каждое из общих стоп-слов есть почти во всех документах коллекции.Зависимые стоп-слова зависят относительно поисковой фразы. Идея заключается в том, чтобы по разному учитывать отсутствие просто слов из запроса и зависимых стоп-слов из запроса в найденном документе.Например, при поиске по запросу Пушкин Александр Сергеевич, есть смысл отобразить все документы содержащие: Пушкин, Александр, Сергеевич Пушкин, Александр Пушкин, Сергеевич ПушкинНо вряд ли есть смысл отображать документы, содержащие только: Александр, Сергеевич Александр СергеевичТо есть в данном запросе шумовыми словами являются Александр и Сергеевич.Зависимые стоп-слова отличаются тем, что в поисковом запросе их следует учитывать только при наличии в искомом документе значимых ключевых слов. К зависимым стоп-словам можно отнести Александр и Сергеевич из поискового запроса Пушкин Александр Сергеевич.
dbpedia-owl:wikiPageExternalLink
dbpedia-owl:wikiPageID
  • 196922 (xsd:integer)
dbpedia-owl:wikiPageLength
  • 3007 (xsd:integer)
dbpedia-owl:wikiPageOutDegree
  • 28 (xsd:integer)
dbpedia-owl:wikiPageRevisionID
  • 109385797 (xsd:integer)
dbpedia-owl:wikiPageWikiLink
prop-fr:wikiPageUsesTemplate
dcterms:subject
rdfs:comment
  • En recherche d'information, les mots vides (ou stop words, en anglais) sont des mots qui sont tellement communs qu'il est inutile de les indexer ou de les utiliser dans une recherche. En français, des mots vides évidents pourraient être « le », « la », « de », « du », « ce »…Un mot vide est un mot non significatif figurant dans un texte. On l'oppose à mot plein.La signification d'un mot s'évalue à partir de sa distribution (au sens statistique) dans une collection de textes.
  • Een stopwoord is een uitdrukking die een spreker regelmatig gebruikt zonder er veel betekenis in te leggen. Dit kan zowel een woord als woordgroep zijn.
  • Jako stopslova se při počítačovém zpracování přirozeného jazyka označují slova, které se v daném jazyce vyskytují často, ale nenesou žádnou významovou informaci, mají zpravidla pouze syntaktický význam. Typicky se jedná o spojky, předložky atp.
  • Стоп-слова или Шумовые слова — термин из теории поиска информации по ключевым словам.Стоп-слова могут делиться на общие и зависимые.К общим можно отнести предлоги, суффиксы, причастия, междометия, цифры, частицы и т. п. Общие шумовые слова всегда исключаются из поискового запроса (за исключением поиска по строгому соответствию поисковой фразы), так же они игнорируются при построении инвертированного индекса.
  • Palabras vacías es el nombre que reciben las palabras sin significado como artículos, pronombres, preposiciones, etc. que son filtradas antes o después del procesamiento de datos en lenguaje natural (texto). A Hans Peter Luhn, uno de los pioneros en recuperación de información, se le atribuye la acuñación de la locución inglesa stop words y el uso del concepto en su diseño.
  • Stoppwörter nennt man im Information Retrieval Wörter, die bei einer Volltextindexierung nicht beachtet werden, da sie sehr häufig auftreten und gewöhnlich keine Relevanz für die Erfassung des Dokumentinhalts besitzen.Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind bestimmte Artikel ('der', 'die', 'das'), unbestimmte Artikel ('einer', 'eine', 'ein'), Konjunktionen (z. B. 'und', 'oder', 'doch') und häufig gebrauchte Präpositionen (z. B.
  • In computing, stop words are words which are filtered out prior to, or after, processing of natural language data (text). There is not one definite list of stop words which all tools use and such a filter is not always used. Some tools specifically avoid removing them to support phrase search.Any group of words can be chosen as the stop words for a given purpose. For some search machines, these are some of the most common, short function words, such as the, is, at, which, and on.
rdfs:label
  • Mot vide
  • Palabra vacía
  • Stop words
  • Stoppwort
  • Stopslovo
  • Stopwoord (taalkunde)
  • Шумовые слова
owl:sameAs
http://www.w3.org/ns/prov#wasDerivedFrom
foaf:isPrimaryTopicOf
is dbpedia-owl:wikiPageRedirects of
is dbpedia-owl:wikiPageWikiLink of
is foaf:primaryTopic of