2 dépôts
Handling language-specific tokenization, stemming, and normalization for search indexing across different languages.
Distinct from Language Variant Support: None of the candidates cover general natural language processing for search; they focus on programming language syntax or infrastructure SDKs.
Explore 2 awesome GitHub repositories matching data & databases · Multilingual Text Processing. Refine with filters or upvote what's useful.
lunr.js is a JavaScript full-text search library and client-side search engine. It creates in-memory search indexes for fast keyword retrieval and ranked document matching within browser or Node.js environments. The library utilizes a JSON serializable search index, allowing the search structure to be converted to and from JSON for storage and distribution of pre-built search data. This enables search functionality for static websites by indexing content into portable files. The system supports advanced querying capabilities, including fuzzy text matching to account for typos, field-scoped i
Provides specialized processing for different languages to handle stemming and normalization during indexing and search.
Ce projet est un moteur de recherche plein texte et une infrastructure de recherche d'entreprise conçus pour l'indexation et la récupération de grands ensembles de documents. Il fournit un framework complet pour la découverte d'informations grâce à des résultats classés et une analyse linguistique. Le système intègre la recherche de similarité vectorielle haute dimension pour la récupération sémantique, en complément des capacités traditionnelles de recherche plein texte. Il se distingue par sa prise en charge de la récupération de données géospatiales, le traitement de texte multilingue et un flux de suggestion de recherche incluant l'autocomplétion tolérante aux fautes de frappe et la correction orthographique. La plateforme couvre un large éventail de capacités de recherche et d'indexation, notamment l'exécution de requêtes complexes, l'agrégation de facettes et le regroupement de résultats. Elle gère l'analyse de texte par tokenisation et normalisation, tout en offrant des outils spécialisés pour la jointure de documents, la mise en surbrillance des résultats et le scoring personnalisé basé sur la récence et la distance. Une interface de recherche Python est disponible pour exposer les fonctionnalités d'indexation et de requête aux environnements de programmation externes.
Handles language-specific tokenization, stemming, and normalization to ensure accurate search results across different languages.