11 dépôts
High-performance utilities for manipulating, filtering, and analyzing structured datasets via a command-line interface.
Distinct from Rust-Implemented Tooling: Existing candidates focus on Rust language internals, compilers, or serialization libraries rather than a high-level CLI toolkit for data processing.
Explore 11 awesome GitHub repositories matching data & databases · Command-Line Data Processors. Refine with filters or upvote what's useful.
xsv is a suite of high-performance command-line utilities written in Rust for the analysis, manipulation, and statistical processing of large delimited datasets. It provides a toolkit for processing comma-separated value files through a command line interface. The project provides capabilities for statistical analysis, including the computation of column statistics, value frequencies, and descriptive metrics. It also includes data manipulation utilities for joining, slicing, sampling, and reformatting records. The toolkit covers a broad range of data operations including column selection, da
Provides a comprehensive suite of high-performance Rust-based command-line tools for processing large CSV datasets.
TextQL is a command line SQL query engine designed to execute relational queries directly against structured text files, such as CSV and TSV, without requiring a database import. It functions as a relational text file analyzer and a CSV processor that treats plain text files as virtual tables for filtering, joining, and aggregating data. The tool is built as a pipe-compatible data transformation utility, allowing it to process data from standard input and output formatted datasets. It enables relational joins across multiple files or directories within a single query to analyze relationships
Provides a high-performance CLI utility for manipulating and analyzing structured datasets via SQL.
This is an open-source educational website that translates and localizes MIT's Missing Semester course, teaching practical computing skills for computer science students. The curriculum covers developer tooling, shell scripting, version control, security fundamentals, and open-source collaboration, with a focus on core computing skills including data processing pipelines, workflow automation, secure remote access, shell productivity, Vim editing, and Git version control. The project distinguishes itself by teaching command-line mastery, shell scripting, and automation to boost daily developer
Teaches generating simple plots from command-line data using tools like gnuplot.
GDAL est une bibliothèque de traduction open source sous licence MIT qui fournit un modèle de données abstrait unifié pour lire et écrire des données géospatiales raster et vectorielles dans des centaines de formats de fichiers. Elle sert de bibliothèque de traduction de données géospatiales fondamentale, permettant l'accès à divers formats de données géospatiales via une interface unique et cohérente. La bibliothèque expose ses fonctionnalités principales via des utilitaires en ligne de commande qui permettent aux utilisateurs de traduire, convertir et traiter des données géospatiales entre les formats. Un moteur de transformation de coordonnées gère les conversions entre les systèmes de référence spatiale, tandis qu'un système de plugin de pilote de format charge la logique de lecture et d'écriture spécifique au format au moment de l'exécution. La couche de système de fichiers virtuel fournit un accès E/S uniforme à travers les fichiers locaux, HTTP, le stockage cloud et les archives compressées, et un cache de blocs raster gère la mise en cache des tuiles en mémoire pour réduire les opérations E/S. GDAL prend en charge la lecture et l'écriture de données géospatiales raster et vectorielles, avec une itération de caractéristiques vectorielles qui diffuse les caractéristiques individuellement sans charger des jeux de données entiers en mémoire. Le projet permet l'interopérabilité géospatiale entre les formats en prenant en charge l'échange de données entre différents écosystèmes logiciels géospatiaux grâce à son support étendu des formats.
Runs command-line utilities to translate and analyze geospatial raster and vector datasets.
sc-im est un tableur et gestionnaire de données en interface utilisateur texte. Il fournit un environnement piloté par clavier pour effectuer des calculs mathématiques et gérer des grilles de données au sein d'une interface en ligne de commande. L'application est scriptable, prenant en charge des fonctions personnalisées, des déclencheurs pilotés par événements et l'intégration de scripts externes pour automatiser les tâches de calcul. Elle permet en outre le chargement de modules compilés externes à l'exécution pour étendre ses capacités mathématiques. Le système couvre la gestion des données via le tri des lignes, le filtrage et les calculs de sous-totaux. Il prend en charge l'interopérabilité des données via l'importation et l'exportation des formats CSV, TAB, Markdown et XLSX. Les capacités supplémentaires incluent un mode d'exécution non interactif pour le traitement de données headless et la capacité d'envoyer des données vers un logiciel de traçage externe pour la visualisation.
Offers a command-line interface for manipulating structured datasets through sorting, filtering, and multi-format I/O.
The Missing Semester is a free, open-source educational curriculum designed to bridge the gap between theoretical computer science and the practical tooling every software engineer needs. Organized as a structured course, it covers Unix shell mastery, version control with Git, software debugging and profiling, system administration fundamentals, and computer security practices — the skills often left out of traditional degree programs. The project is maintained as a collaborative set of lecture notes, exercises, and guides that function as both a professional development tools course and a Uni
The Missing Semester teaches computing statistics and plotting data using command-line tools like bc, R, and gnuplot.
YouPlot est un utilitaire de traçage en ligne de commande et un outil de visualisation de données en terminal utilisé pour rendre des tracés statistiques et des graphiques directement au sein d'une interface de terminal en utilisant des caractères Unicode. Il fonctionne comme un traceur de pipeline Unix, permettant aux utilisateurs de visualiser des données numériques sans quitter le shell. Le projet fonctionne comme un visualiseur de données en temps réel, dessinant les tracés progressivement à mesure que les données affluent dans le système. Il s'intègre dans les pipelines en ligne de commande en lisant les données depuis l'entrée standard pour fournir une surveillance de flux et une analyse de données en temps réel. L'outil couvre une variété de capacités de rendu, incluant les graphiques en courbes, les nuages de points, les histogrammes, les graphiques en barres, les boîtes à moustaches et les tracés de densité. Ceux-ci sont supportés par des systèmes internes pour la mise à l'échelle dynamique des axes et le mapping des coordonnées afin de s'adapter aux dimensions du terminal.
Generates statistical charts and graphs from tabular or streamed data using Unicode characters in the command line.
Proselint est un linter de prose et un analyseur de texte basé sur des règles, conçu pour identifier les erreurs stylistiques, les clichés et le jargon dans les textes écrits. Il scanne les documents par rapport à un registre organisé de règles linguistiques et typographiques afin de maintenir des normes éditoriales professionnelles et d'améliorer la qualité de l'écriture. Le projet fonctionne comme un processeur de texte en ligne de commande, une bibliothèque d'analyse programmable et un hook git pre-commit. Son architecture modulaire permet d'intégrer le moteur principal dans d'autres applications, de l'exposer via une API REST ou de l'intégrer dans des éditeurs de texte. L'outil prend en charge le parcours récursif de répertoires pour l'analyse par lots et accepte du texte via l'entrée standard pour une utilisation dans des pipelines en ligne de commande. Il offre des options de configuration pour activer ou désactiver des vérifications linguistiques spécifiques et peut exporter les résultats de diagnostic au format JSON structuré.
Functions as a terminal-based processor that accepts standard input and outputs structured linting results.
Nali est une suite d'outils en ligne de commande pour résoudre les adresses IP en emplacements géographiques et identifier les fournisseurs de réseaux de diffusion de contenu (CDN) en utilisant des bases de données hors ligne. Il fonctionne comme un outil de géolocalisation IP hors ligne et un résolveur de base de données qui mappe les adresses à des emplacements physiques et des propriétaires de réseau sans nécessiter de connexion internet active. Le projet se distingue par une approche « offline-first » de l'analyse réseau, utilisant des fournisseurs de base de données enfichables et la mise en cache de métadonnées de fichiers locaux pour garantir la confidentialité des données et l'indépendance vis-à-vis des API externes. Il inclut un utilitaire dédié pour identifier les fournisseurs de CDN et un système pour gérer et mettre à jour les fichiers de données géographiques locaux. La suite d'outils prend en charge les flux de travail interactifs et automatisés, avec une boucle de lecture-évaluation-impression (REPL) pour les recherches manuelles séquentielles et un processeur de métadonnées qui lit les flux d'adresses IP depuis l'entrée standard. Cela permet l'intégration de métadonnées géographiques et de fournisseur dans les pipelines shell. La configuration pour les magasins de données et les fichiers de configuration est gérée via des variables d'environnement système.
Processes IP address streams via standard input to add geographic and provider metadata.
Ce projet fournit un framework pour effectuer des tâches de science des données en utilisant des outils en ligne de commande et des scripts. Il se concentre sur le traitement et l'analyse de texte et de données structurées directement au sein du terminal. L'approche se concentre sur l'utilisation de pipes Unix pour streamer des données entre des processus indépendants et l'emploi de scripts shell pour automatiser les workflows de science des données répétitifs. Il utilise des formats d'échange en texte brut, tels que CSV, pour déplacer l'information entre divers utilitaires. Les domaines de capacité incluent le traitement de données basé sur le texte, l'analyse de données en ligne de commande et la visualisation de données basée sur le terminal. Celles-ci sont réalisées en enchaînant des programmes exécutables discrets dans des pipelines de transformation linéaires.
Analyzes datasets using high-performance terminal tools for quick calculations and data manipulations.
Xan is a command-line tool and data transformation engine for processing CSV, TSV, and JSONL datasets. It functions as a processor for compressed files, enabling random access and seeking within gzipped and Zstd files, and serves as a converter for specialized bioinformatics data formats. The tool handles large datasets without requiring full memory loads by utilizing stream-based processing. It provides capabilities for merging, sorting, and deduplicating massive files, as well as converting data between various tabular formats. The project covers a broad range of data wrangling and analysi
Provides high-performance command-line utilities for manipulating, filtering, and analyzing structured CSV, TSV, and JSONL datasets.