Publicité R▼
⇨ voir la définition de Wikipedia
Publicité ▼
Wikipedia
Der Porter-Stemmer-Algorithmus ist ein verbreiteter Algorithmus der Computerlinguistik zum automatischen Zurückführen von Wörtern auf ihren Wortstamm (Stemming). Der Algorithmus basiert auf einer Menge von Verkürzungsregeln, die so lange auf ein zu stemmendes Wort angewandt werden, bis dieses eine Minimalanzahl von Silben aufweist. Der ursprünglich für Wörter der englischen Sprache entwickelte Algorithmus kann relativ leicht für andere Sprachen portiert werden.
Inhaltsverzeichnis |
Maßgeblich ist genaugenommen nicht die Anzahl der Silben, sondern die Anzahl der Vokal-Konsonant-Sequenzen. Jedes Wort lässt sich als eine Zeichenkette der Form [C](VC)m[V] interpretieren, wobei C für eine Folge von einem oder mehreren Konsonanten und V für eine Folge von einem oder mehreren Vokalen steht. Gemessen wird die Anzahl m der Vokal-Konsonant-Sequenzen zwischen optional führenden Konsonanten und einer optionalen Folge von Vokalen am Ende.
Beispiele:
Die Verkürzungsregeln bestehen aus Paaren von Bedingungen und Ableitungen für verschiedene Suffixe (Wortendungen). Die Regeln sind in Gruppen zusammengefasst, die nacheinander abgearbeitet werden. Aus jeder Gruppe darf nur eine Regel angewandt werden.
Beispiel: Die erste Gruppe beinhaltet die Suffix-Verkürzungsregeln "sses" → "s", "ies" → "i" und "s" → "", die beispielsweise zu den Ableitungen "libraries" → "librari" und "Wikis" → "Wiki" führen. Eine später folgende Gruppe besteht aus der Regel "y" → "i", so dass beispielsweise das Wort "library" auf den gleichen Stamm ("library" → "librari") zurückgeführt wird.
Auf der Webseite des Porter-Stemmer-Algorithmus finden sich Implementierungen in mehreren Programmiersprachen. Unter http://snowball.tartarus.org/ befindet sich das "aktuelle" Projekt von Martin Porter. Dort findet man auch einen Porter Stemmer für die deutsche Sprache.
Die aus einem Wort abgeleiteten Stämme entsprechen oft nicht den linguistisch korrekten Wortstämmen. Da das Ziel des Stemmings jedoch keine linguistische Analyse ist, sondern verwandte Worte auf ein und dieselbe Zeichenkette zurückgeführt werden sollen, spielt dies keine Rolle.
Wie praktisch alle Stemming-Algorithmen arbeitet auch der Porter-Stemmer nicht mit hundertprozentiger Genauigkeit, so dass es bei einigen Worten vorkommen kann, dass zu viel (Overstemming) oder zu wenig (Understemming) abgeschnitten wird. In der Praxis ist er jedoch ausreichend gut. (siehe auch weitere Hintergrundinformationen zum Thema im Artikel Stemming).
Contenu de sensagent
dictionnaire et traducteur pour sites web
Alexandria
Une fenêtre (pop-into) d'information (contenu principal de Sensagent) est invoquée un double-clic sur n'importe quel mot de votre page web. LA fenêtre fournit des explications et des traductions contextuelles, c'est-à-dire sans obliger votre visiteur à quitter votre page web !
Essayer ici, télécharger le code;
SensagentBox
Avec la boîte de recherches Sensagent, les visiteurs de votre site peuvent également accéder à une information de référence pertinente parmi plus de 5 millions de pages web indexées sur Sensagent.com. Vous pouvez Choisir la taille qui convient le mieux à votre site et adapter la charte graphique.
Solution commerce électronique
Augmenter le contenu de votre site
Ajouter de nouveaux contenus Add à votre site depuis Sensagent par XML.
Parcourir les produits et les annonces
Obtenir des informations en XML pour filtrer le meilleur contenu.
Indexer des images et définir des méta-données
Fixer la signification de chaque méta-donnée (multilingue).
Renseignements suite à un email de description de votre projet.
Jeux de lettres
Les jeux de lettre français sont :
○ Anagrammes
○ jokers, mots-croisés
○ Lettris
○ Boggle.
Lettris
Lettris est un jeu de lettres gravitationnelles proche de Tetris. Chaque lettre qui apparaît descend ; il faut placer les lettres de telle manière que des mots se forment (gauche, droit, haut et bas) et que de la place soit libérée.
boggle
Il s'agit en 3 minutes de trouver le plus grand nombre de mots possibles de trois lettres et plus dans une grille de 16 lettres. Il est aussi possible de jouer avec la grille de 25 cases. Les lettres doivent être adjacentes et les mots les plus longs sont les meilleurs. Participer au concours et enregistrer votre nom dans la liste de meilleurs joueurs ! Jouer
Dictionnaire de la langue française
Principales Références
La plupart des définitions du français sont proposées par SenseGates et comportent un approfondissement avec Littré et plusieurs auteurs techniques spécialisés.
Le dictionnaire des synonymes est surtout dérivé du dictionnaire intégral (TID).
L'encyclopédie française bénéficie de la licence Wikipedia (GNU).
Copyright
Les jeux de lettres anagramme, mot-croisé, joker, Lettris et Boggle sont proposés par Memodata.
Le service web Alexandria est motorisé par Memodata pour faciliter les recherches sur Ebay.
La SensagentBox est offerte par sensAgent.
Traduction
Changer la langue cible pour obtenir des traductions.
Astuce: parcourir les champs sémantiques du dictionnaire analogique en plusieurs langues pour mieux apprendre avec sensagent.
calculé en 0,046s