5 dépôts
Conversion of text from one script to another based on phonetic or mapping rules.
Distinct from Pinyin Transliterations: Distinct from Pinyin Transliterations: provides general script-to-script conversion (e.g., Cyrillic to Latin) beyond just Chinese Pinyin.
Explore 5 awesome GitHub repositories matching data & databases · Script Transliterations. Refine with filters or upvote what's useful.
This repository is a comprehensive collection of reference implementations and sample libraries for the Universal Windows Platform. It provides practical examples of how to use Windows Runtime APIs to build cross-device applications, including detailed guidance on XAML-based declarative user interfaces and DirectX-integrated rendering. The project distinguishes itself by providing a wide array of hardware integration suites, covering low-level communication with USB, Serial, I2C, SPI, and GPIO peripherals. It includes specialized implementations for mixed reality holographic rendering, advanc
Converts text from one script to another, such as translating Cyrillic characters to Latin.
Libpostal est une bibliothèque C conçue pour l'analyse et la normalisation d'adresses internationales. Elle utilise le NLP statistique et un classificateur de langue pour décomposer des chaînes d'adresses mondiales non structurées en composants structurés, et pour standardiser les adresses postales en développant les abréviations et en résolvant les variations de nommage régionales dans plusieurs langues. Le projet fournit des outils de translittération de texte, convertissant divers scripts en formes standardisées Latin-ASCII ou NFD. Il inclut également des capacités de déduplication d'adresses, utilisant une correspondance floue (fuzzy matching) symétrique pour identifier si différents enregistrements d'adresses font référence au même emplacement physique. La bibliothèque couvre des besoins plus larges de traitement de texte tels que la normalisation UTF-8 et la conversion de nombres écrits en toutes lettres et de chiffres romains en représentations numériques standard. Elle permet des extensions pour la reconnaissance d'adresses via des fichiers de configuration externes afin d'ajouter de nouvelles langues et synonymes.
Converts non-Latin scripts into standardized ASCII representations using predefined transformation maps.
Mimesis est un générateur de données synthétiques Python utilisé pour créer des jeux de données fictifs réalistes et des données de test pour le développement logiciel. Il fonctionne comme un générateur de jeux de données basé sur des schémas, capable de produire des enregistrements structurés et des jeux de données relationnels, tout en servant d'anonymiseur de données de production pour remplacer les informations sensibles par des valeurs synthétiques. La bibliothèque se distingue par une prise en charge multilingue complète, permettant la génération d'informations spécifiques à une locale pour simuler des profils utilisateur régionaux. Elle garantit la reproductibilité grâce à une génération de données déterministe utilisant des graines (seeds), permettant la création de jeux de données cohérents sur différentes exécutions. L'outil couvre un large éventail de contenus synthétiques, notamment l'identité personnelle, les données financières, les adresses géographiques, les métadonnées réseau et les séquences scientifiques. Ses capacités s'étendent à la transformation de données via une logique conditionnelle et le piping, ainsi qu'à l'intégration avec des dataframes et des modèles de fabrique (factory patterns). Il prend également en charge la génération de codes système standardisés, de jetons cryptographiques et le mocking de fichiers binaires. Le framework est extensible via des fournisseurs de données personnalisés et des gestionnaires de champs, permettant aux utilisateurs d'intégrer une logique spécifique au domaine et des fichiers JSON externes pour une génération de données spécialisée.
Converts strings from one script to another, such as Cyrillic to Latin characters.
Ce projet est une bibliothèque de localisation pour Ruby on Rails qui fournit un ensemble complet de fichiers de traduction pré-traduits, de symboles monétaires et de règles spécifiques à la langue pour de nombreuses langues mondiales. Il sert de jeu de données de traduction multilingue et de moteur de règles linguistiques pour garantir une sortie grammaticalement correcte dans différents alphabets et écritures. Le système inclut des outils spécialisés pour la validation des données de localisation et le formatage de l'internationalisation. Ces utilitaires vérifient l'intégrité structurelle des fichiers de traduction, identifient les clés manquantes ou les données corrompues, et normalisent le formatage des fichiers en triant les clés par ordre alphabétique et en simplifiant les citations. La surface de capacités plus large couvre la gestion de contenu multilingue, incluant l'implémentation de la pluralisation et la prise en charge des ordinaux basée sur les paramètres régionaux actifs. Elle fournit également des flux de travail de translittération de texte pour convertir les caractères entre différents alphabets ou écritures en utilisant des règles de mappage spécifiques à la langue.
Implements conversion of text between different scripts or alphabets using predefined locale-specific mapping tables.
GoldenDict-ng is a multi-source dictionary application and offline dictionary reader that enables users to search for word definitions across local files, DICT servers, and web sources in a single interface. It functions as a web-based definition browser, rendering entries using a browser engine to support HTML, CSS, and JavaScript for rich content presentation. The project distinguishes itself by integrating with Anki flashcard systems to facilitate language learning workflows and offering specialized translation tools that support clipboard monitoring and character set conversion. It also p
Maps characters to alternative representations to customize text conversion during lookups.