2 रिपॉजिटरी
Handling language-specific tokenization, stemming, and normalization for search indexing across different languages.
Distinct from Language Variant Support: None of the candidates cover general natural language processing for search; they focus on programming language syntax or infrastructure SDKs.
Explore 2 awesome GitHub repositories matching data & databases · Multilingual Text Processing. Refine with filters or upvote what's useful.
lunr.js is a JavaScript full-text search library and client-side search engine. It creates in-memory search indexes for fast keyword retrieval and ranked document matching within browser or Node.js environments. The library utilizes a JSON serializable search index, allowing the search structure to be converted to and from JSON for storage and distribution of pre-built search data. This enables search functionality for static websites by indexing content into portable files. The system supports advanced querying capabilities, including fuzzy text matching to account for typos, field-scoped i
Provides specialized processing for different languages to handle stemming and normalization during indexing and search.
यह प्रोजेक्ट दस्तावेज़ों के बड़े सेट को इंडेक्स करने और पुनः प्राप्त करने के लिए डिज़ाइन किया गया एक फुल-टेक्स्ट सर्च इंजन और एंटरप्राइज़ सर्च इंफ्रास्ट्रक्चर है। यह रैंक किए गए परिणामों और भाषाई विश्लेषण का उपयोग करके सूचना खोज के लिए एक व्यापक फ्रेमवर्क प्रदान करता है। यह सिस्टम पारंपरिक फुल-टेक्स्ट क्षमताओं के साथ-साथ सिमेंटिक रिट्रीवल के लिए हाई-डायमेंशनल वेक्टर सिमिलरिटी सर्च को एकीकृत करता है। यह जियोस्पेशियल डेटा रिट्रीवल, बहुभाषी टेक्स्ट प्रोसेसिंग, और एक सर्च सजेशन वर्कफ़्लो के लिए समर्थन के माध्यम से खुद को अलग करता है जिसमें टाइपो-टोलरेंट क्वेरी कंप्लीशन और स्पेलचेकिंग शामिल है। प्लेटफ़ॉर्म जटिल क्वेरी निष्पादन, फैसेट काउंट एग्रीगेशन और परिणाम समूहीकरण सहित खोज और इंडेक्सिंग क्षमताओं की एक विस्तृत श्रृंखला को कवर करता है। यह टोकनाइज़ेशन और नॉर्मलाइज़ेशन के माध्यम से टेक्स्ट विश्लेषण को संभालता है, जबकि दस्तावेज़ जॉइनिंग, सर्च हिट हाइलाइटिंग और हालियापन व दूरी के आधार पर कस्टम स्कोरिंग के लिए विशेष टूल्स प्रदान करता है। बाहरी प्रोग्रामिंग वातावरण में इंडेक्सिंग और क्वेरी कार्यक्षमता को उजागर करने के लिए एक Python सर्च इंटरफ़ेस उपलब्ध है।
Handles language-specific tokenization, stemming, and normalization to ensure accurate search results across different languages.