5 Repos
Tools for translating between hexadecimal codepoints and surrogate pairs for character data handling.
Distinct from Emoji Support: None of the candidates were relevant; this focuses on low-level codepoint translation.
Explore 5 awesome GitHub repositories matching data & databases · Codepoint Conversion Utilities. Refine with filters or upvote what's useful.
Twemoji is a library designed to provide consistent emoji rendering across different web browsers and operating systems. It functions by identifying and extracting Unicode emoji sequences from text and replacing them with standardized graphical assets, ensuring that symbols appear identical regardless of the underlying platform. The project distinguishes itself by offering a comprehensive toolkit that combines parsing logic with a library of scalable vector and rasterized image assets. This allows for the programmatic transformation of text into high-quality visual representations, supporting
Translates between hexadecimal codepoints and surrogate pairs for programmatic character data handling.
RapidJSON is a high-performance C++ library used for parsing and generating JSON data. It provides both document object model and stream-based interfaces to transform JSON strings into structured data and vice versa. The library includes a JSON schema validator to verify that documents conform to predefined rules and a Unicode transcoder for converting strings between UTF-8, UTF-16, and UTF-32 encodings. It also supports relaxed parsing for non-standard JSON containing comments or trailing commas. Additional capabilities cover JSON pointer navigation for locating specific values and string s
Provides a utility for converting JSON strings between UTF-8, UTF-16, and UTF-32 encodings.
Hammerspoon is a programmable automation engine for macOS that enables deep system-level control through a Lua scripting environment. By bridging high-level scripts with native Objective-C APIs, it allows users to interact with the operating system's accessibility tree, intercept hardware input streams, and manage the lifecycle of running applications. The project distinguishes itself through an event-driven architecture that registers asynchronous hooks for system notifications and hardware events. This allows for real-time automation, such as remapping keyboard and mouse inputs, managing wi
Transforms numeric Unicode codepoints into valid UTF-8 byte sequences.
python-ftfy ist eine Unicode-Textreparatur-Bibliothek, die entwickelt wurde, um Mojibake und Kodierungsfehler zu beheben. Sie bietet Dienstprogramme für die Erkennung von Byte-Kodierungen, die Dekodierung von HTML-Entitäten und die Wiederherstellung beschädigten Textes, um ihn in seine beabsichtigte Unicode-Form zurückzuführen. Das Projekt zeichnet sich durch eine mehrschichtige Dekodierungspipeline aus, die komplexe Kodierungsverwechslungen identifiziert und rückgängig macht. Es verwendet heuristikbasierte Erkennung, um Fälle zu lösen, in denen Text über mehrere Korruptionsebenen hinweg mit dem falschen Codec dekodiert wurde, und kann mit nicht standardmäßigen UTF-8-Varianten und unsauberen Kodierungszuordnungen umgehen. Die Bibliothek deckt zudem ein breites Spektrum an Textstandardisierungsaufgaben ab, einschließlich Unicode-Normalisierung, Zeilenumbruch-Standardisierung und der Erweiterung von lateinischen Ligaturen. Sie enthält Funktionen für die Normalisierung der Zeichenbreite sowie das Entfernen von Terminal-Escapes und Steuerzeichen. Eine Command-Line-Interface ist verfügbar, um die Erkennung und Reparatur von Unicode-Fehlern innerhalb von Dateien zu automatisieren.
Maps unmapped bytes in single-byte encodings to ensure interoperability with web browsers and Windows.
Dieses Projekt ist ein Unicode-Textreparatur-Tool und eine Mojibake-Korrekturbibliothek, die entwickelt wurde, um Kodierungsfehler zu beheben und Originalzeichen aus verstümmelten Strings wiederherzustellen. Es fungiert als Textkodierungserkenner und Unicode-Normalisierungstool, um Probleme zu lösen, bei denen Text falsch dekodiert wurde. Die Bibliothek ist auf das Umkehren mehrschichtiger Kodierungsfehler und die Reparatur komplexer Mojibake-Muster spezialisiert. Sie enthält Funktionen zur Erkennung verlustbehafteter Kodierungssequenzen, zum Erraten von Byte-Kodierungen und zum Dekodieren nicht standardmäßiger UTF-8-Varianten. Das Toolset deckt ein breites Spektrum an Textbereinigungs- und Normalisierungsaufgaben ab, einschließlich der Dekodierung von HTML-Entitäten und Backslash-Escapes, der Erweiterung von lateinischen Ligaturen sowie der Standardisierung von Zeichenbreiten und Zeilenumbrüchen. Es bietet zudem Dienstprogramme zum Entfernen unsichtbarer Steuerzeichen und zur Inspektion von Unicode-Strings nach Codepoint. Eine Command-Line-Interface ist für die Reparatur von Unicode-Fehlern und Kodierungsfehlern innerhalb von Dateien oder Eingabeströmen verfügbar.
Replaces UTF-16 surrogate pairs with correct characters to fix text decoded via obsolete standards.