2 Repos
Handling language-specific tokenization, stemming, and normalization for search indexing across different languages.
Distinct from Language Variant Support: None of the candidates cover general natural language processing for search; they focus on programming language syntax or infrastructure SDKs.
Explore 2 awesome GitHub repositories matching data & databases · Multilingual Text Processing. Refine with filters or upvote what's useful.
lunr.js is a JavaScript full-text search library and client-side search engine. It creates in-memory search indexes for fast keyword retrieval and ranked document matching within browser or Node.js environments. The library utilizes a JSON serializable search index, allowing the search structure to be converted to and from JSON for storage and distribution of pre-built search data. This enables search functionality for static websites by indexing content into portable files. The system supports advanced querying capabilities, including fuzzy text matching to account for typos, field-scoped i
Provides specialized processing for different languages to handle stemming and normalization during indexing and search.
Dieses Projekt ist eine Volltext-Suchmaschine und Enterprise-Suchinfrastruktur, die für die Indizierung und Abfrage großer Dokumentenmengen entwickelt wurde. Es bietet ein umfassendes Framework für die Informationssuche mittels gerankter Ergebnisse und linguistischer Analyse. Das System integriert hochdimensionale Vektor-Ähnlichkeitssuche für semantische Abfragen neben traditionellen Volltext-Funktionen. Es zeichnet sich durch Unterstützung für die Suche nach Geodaten, mehrsprachige Textverarbeitung und einen Suchvorschlags-Workflow aus, der fehlertolerante Abfragevervollständigung und Rechtschreibprüfung umfasst. Die Plattform deckt ein breites Spektrum an Such- und Indizierungsfunktionen ab, einschließlich komplexer Abfrageausführung, Facetten-Aggregation und Ergebnisgruppierung. Sie verarbeitet Textanalysen durch Tokenisierung und Normalisierung und bietet spezialisierte Tools für Document-Joining, das Hervorheben von Suchtreffern sowie benutzerdefiniertes Scoring basierend auf Aktualität und Distanz. Eine Python-Schnittstelle ist verfügbar, um Indizierungs- und Abfragefunktionen für externe Programmierumgebungen bereitzustellen.
Handles language-specific tokenization, stemming, and normalization to ensure accurate search results across different languages.