5 个仓库
Conversion of text from one script to another based on phonetic or mapping rules.
Distinct from Pinyin Transliterations: Distinct from Pinyin Transliterations: provides general script-to-script conversion (e.g., Cyrillic to Latin) beyond just Chinese Pinyin.
Explore 5 awesome GitHub repositories matching data & databases · Script Transliterations. Refine with filters or upvote what's useful.
This repository is a comprehensive collection of reference implementations and sample libraries for the Universal Windows Platform. It provides practical examples of how to use Windows Runtime APIs to build cross-device applications, including detailed guidance on XAML-based declarative user interfaces and DirectX-integrated rendering. The project distinguishes itself by providing a wide array of hardware integration suites, covering low-level communication with USB, Serial, I2C, SPI, and GPIO peripherals. It includes specialized implementations for mixed reality holographic rendering, advanc
Converts text from one script to another, such as translating Cyrillic characters to Latin.
Libpostal 是一个专为国际地址解析和标准化设计的 C 库。它利用统计自然语言处理(NLP)和语言分类器,将非结构化的全球地址字符串分解为结构化组件,并通过扩展缩写和解决跨语言的区域命名差异来标准化街道地址。 该项目提供文本转写工具,将各种脚本转换为标准化的拉丁-ASCII 或 NFD 形式。它还包括地址去重功能,使用对称模糊匹配来识别不同的地址记录是否指向同一个物理位置。 该库涵盖了更广泛的文本处理需求,例如 UTF-8 标准化,以及将书写数字和罗马数字转换为标准数字表示。它允许通过外部配置文件扩展地址识别功能,以添加新的语言和同义词。
Converts non-Latin scripts into standardized ASCII representations using predefined transformation maps.
Mimesis 是一个 Python 合成数据生成器,用于为软件测试和开发创建逼真的虚假数据集和模拟数据。它作为一个基于模式的数据集生成器,能够生成结构化记录和关系数据集,同时也可作为生产数据脱敏工具,用合成值替换敏感信息。 该库的特色在于全面的多语言支持,允许生成特定区域的信息以模拟区域用户画像。它通过使用种子进行确定性数据生成来确保可重复性,从而在不同运行中创建一致的数据集。 该工具涵盖了广泛的合成内容,包括个人身份、财务数据、地理地址、网络元数据和科学序列。其功能扩展到通过条件逻辑和管道进行数据转换,以及与 DataFrame 和工厂模式的集成。它还支持生成标准化的系统代码、加密令牌和二进制文件模拟。 该框架可通过自定义数据提供程序和字段处理器进行扩展,允许用户集成特定领域的逻辑和外部 JSON 文件以进行专门的数据生成。
Converts strings from one script to another, such as Cyrillic to Latin characters.
该项目是一个 Ruby on Rails 国际化(i18n)区域设置库,为众多全球语言提供了一套全面的预翻译文件、货币符号和特定语言规则。它作为多语言翻译数据集和语言规则引擎,确保跨不同字母表和脚本的语法正确输出。 该系统包含用于区域设置数据验证和国际化格式化的专门工具。这些工具验证翻译文件的结构完整性,识别缺失的键或损坏的数据,并通过按字母顺序排序键和简化引用来规范化文件格式。 其更广泛的能力范围涵盖多语言内容管理,包括基于活动区域设置实施复数和序数支持。它还提供文本音译工作流,使用特定于区域设置的映射规则在不同字母表或脚本之间转换字符。
Implements conversion of text between different scripts or alphabets using predefined locale-specific mapping tables.
GoldenDict-ng is a multi-source dictionary application and offline dictionary reader that enables users to search for word definitions across local files, DICT servers, and web sources in a single interface. It functions as a web-based definition browser, rendering entries using a browser engine to support HTML, CSS, and JavaScript for rich content presentation. The project distinguishes itself by integrating with Anki flashcard systems to facilitate language learning workflows and offering specialized translation tools that support clipboard monitoring and character set conversion. It also p
Maps characters to alternative representations to customize text conversion during lookups.