11 repositorios
High-performance utilities for manipulating, filtering, and analyzing structured datasets via a command-line interface.
Distinct from Rust-Implemented Tooling: Existing candidates focus on Rust language internals, compilers, or serialization libraries rather than a high-level CLI toolkit for data processing.
Explore 11 awesome GitHub repositories matching data & databases · Command-Line Data Processors. Refine with filters or upvote what's useful.
xsv is a suite of high-performance command-line utilities written in Rust for the analysis, manipulation, and statistical processing of large delimited datasets. It provides a toolkit for processing comma-separated value files through a command line interface. The project provides capabilities for statistical analysis, including the computation of column statistics, value frequencies, and descriptive metrics. It also includes data manipulation utilities for joining, slicing, sampling, and reformatting records. The toolkit covers a broad range of data operations including column selection, da
Provides a comprehensive suite of high-performance Rust-based command-line tools for processing large CSV datasets.
TextQL is a command line SQL query engine designed to execute relational queries directly against structured text files, such as CSV and TSV, without requiring a database import. It functions as a relational text file analyzer and a CSV processor that treats plain text files as virtual tables for filtering, joining, and aggregating data. The tool is built as a pipe-compatible data transformation utility, allowing it to process data from standard input and output formatted datasets. It enables relational joins across multiple files or directories within a single query to analyze relationships
Provides a high-performance CLI utility for manipulating and analyzing structured datasets via SQL.
This is an open-source educational website that translates and localizes MIT's Missing Semester course, teaching practical computing skills for computer science students. The curriculum covers developer tooling, shell scripting, version control, security fundamentals, and open-source collaboration, with a focus on core computing skills including data processing pipelines, workflow automation, secure remote access, shell productivity, Vim editing, and Git version control. The project distinguishes itself by teaching command-line mastery, shell scripting, and automation to boost daily developer
Teaches generating simple plots from command-line data using tools like gnuplot.
GDAL es una biblioteca traductora de código abierto con licencia MIT que proporciona un modelo de datos abstracto unificado para leer y escribir datos geoespaciales ráster y vectoriales en cientos de formatos de archivo. Sirve como una biblioteca fundamental de traducción de datos geoespaciales, permitiendo el acceso a diversos formatos de datos geoespaciales a través de una interfaz única y consistente. La biblioteca expone su funcionalidad principal a través de utilidades de línea de comandos que permiten a los usuarios traducir, convertir y procesar datos geoespaciales entre formatos. Un motor de transformación de coordenadas maneja las conversiones entre sistemas de referencia espacial, mientras que un sistema de plugins de controladores de formato carga la lógica de lectura y escritura específica del formato en tiempo de ejecución. La capa del sistema de archivos virtual proporciona acceso de E/S uniforme a través de archivos locales, HTTP, almacenamiento en la nube y archivos comprimidos, y un caché de bloques ráster gestiona el almacenamiento en caché de mosaicos en memoria para reducir las operaciones de E/S. GDAL admite la lectura y escritura de datos geoespaciales tanto ráster como vectoriales, con iteración de características vectoriales que transmite características individualmente sin cargar conjuntos de datos completos en la memoria. El proyecto permite la interoperabilidad geoespacial entre formatos al admitir el intercambio de datos entre diferentes ecosistemas de software geoespacial a través de su amplio soporte de formatos.
Runs command-line utilities to translate and analyze geospatial raster and vector datasets.
sc-im es una calculadora de hoja de cálculo con interfaz de usuario de texto y gestor de datos. Proporciona un entorno controlado por teclado para realizar cálculos matemáticos y gestionar cuadrículas de datos dentro de una interfaz de línea de comandos. La aplicación es programable, admitiendo funciones personalizadas, disparadores basados en eventos e integración de scripts externos para automatizar tareas de cálculo. Además, permite la carga de módulos compilados externos en tiempo ejecución para extender sus capacidades matemáticas. El sistema cubre la gestión de datos mediante ordenamiento de filas, filtrado y cálculos de subtotales. Admite la interoperabilidad de datos mediante la importación y exportación de formatos CSV, TAB, Markdown y XLSX. Las capacidades adicionales incluyen un modo de ejecución no interactivo para el procesamiento de datos headless y la capacidad de enviar datos a software de trazado externo para su visualización.
Offers a command-line interface for manipulating structured datasets through sorting, filtering, and multi-format I/O.
The Missing Semester is a free, open-source educational curriculum designed to bridge the gap between theoretical computer science and the practical tooling every software engineer needs. Organized as a structured course, it covers Unix shell mastery, version control with Git, software debugging and profiling, system administration fundamentals, and computer security practices — the skills often left out of traditional degree programs. The project is maintained as a collaborative set of lecture notes, exercises, and guides that function as both a professional development tools course and a Uni
The Missing Semester teaches computing statistics and plotting data using command-line tools like bc, R, and gnuplot.
YouPlot es una utilidad de trazado de línea de comandos y herramienta de visualización de datos de terminal utilizada para renderizar gráficos y diagramas estadísticos directamente dentro de una interfaz de terminal usando caracteres Unicode. Funciona como un trazador de tuberías Unix, permitiendo a los usuarios visualizar datos numéricos sin salir de la shell. El proyecto opera como un visualizador de datos en tiempo real, dibujando gráficos progresivamente a medida que los datos fluyen hacia el sistema. Se integra en tuberías de línea de comandos leyendo datos de la entrada estándar para proporcionar monitoreo de flujo y análisis de datos en tiempo real. La herramienta cubre una variedad de capacidades de renderizado, incluyendo gráficos de líneas, diagramas de dispersión, histogramas, gráficos de barras, diagramas de caja y gráficos de densidad. Estos están respaldados por sistemas internos para el escalado dinámico de ejes y el mapeo de coordenadas para ajustarse a las dimensiones de la terminal.
Generates statistical charts and graphs from tabular or streamed data using Unicode characters in the command line.
Proselint es un linter de prosa y analizador de texto basado en reglas, diseñado para identificar errores estilísticos, clichés y jerga en textos escritos. Escanea documentos comparándolos con un registro curado de reglas lingüísticas y tipográficas para mantener estándares editoriales profesionales y mejorar la calidad de la escritura. El proyecto funciona como un procesador de texto de línea de comandos, una librería de análisis programable y un hook de pre-commit de git. Su arquitectura modular permite integrar el motor principal en otras aplicaciones, exponerlo a través de una API REST o integrarlo en editores de texto. La herramienta admite el recorrido recursivo de directorios para análisis por lotes y acepta texto a través de la entrada estándar para su uso en tuberías (pipelines) de línea de comandos. Proporciona opciones de configuración para habilitar o deshabilitar comprobaciones lingüísticas específicas y puede exportar los resultados del diagnóstico en formato JSON estructurado.
Functions as a terminal-based processor that accepts standard input and outputs structured linting results.
Nali es una suite de herramientas de línea de comandos para resolver direcciones IP a ubicaciones geográficas e identificar proveedores de redes de entrega de contenido utilizando bases de datos offline. Funciona como una herramienta de geolocalización IP offline y resolvedor de bases de datos que mapea direcciones a ubicaciones físicas y propietarios de red sin requerir una conexión a internet activa. El proyecto se distingue a través de un enfoque de análisis de red que prioriza el offline, utilizando proveedores de bases de datos conectables y caché de metadatos de archivos locales para asegurar la privacidad de los datos y la independencia de APIs externas. Incluye una utilidad dedicada para identificar proveedores de redes de entrega de contenido y un sistema para gestionar y actualizar archivos de datos geográficos locales. El conjunto de herramientas admite flujos de trabajo interactivos y automatizados, con un bucle de lectura-evaluación-impresión (REPL) para búsquedas manuales secuenciales y un procesador de metadatos que lee flujos de direcciones IP desde la entrada estándar. Esto permite la integración de metadatos geográficos y de proveedores en pipelines de shell. La configuración para almacenes de datos y archivos de configuración se gestiona a través de variables de entorno del sistema.
Processes IP address streams via standard input to add geographic and provider metadata.
Este proyecto proporciona un framework para realizar tareas de ciencia de datos utilizando herramientas y scripts de línea de comandos. Se centra en el procesamiento y análisis de texto y datos estructurados directamente dentro de la terminal. El enfoque se centra en el uso de tuberías (pipes) de Unix para transmitir datos entre procesos independientes y emplear scripts de shell para automatizar flujos de trabajo de ciencia de datos repetitivos. Utiliza formatos de intercambio de texto plano, como CSV, para mover información entre diversas utilidades. Las áreas de capacidad incluyen procesamiento de datos basado en texto, análisis de datos en línea de comandos y visualización de datos basada en terminal. Estos se logran encadenando programas ejecutables discretos en tuberías de transformación lineales.
Analyzes datasets using high-performance terminal tools for quick calculations and data manipulations.
Xan is a command-line tool and data transformation engine for processing CSV, TSV, and JSONL datasets. It functions as a processor for compressed files, enabling random access and seeking within gzipped and Zstd files, and serves as a converter for specialized bioinformatics data formats. The tool handles large datasets without requiring full memory loads by utilizing stream-based processing. It provides capabilities for merging, sorting, and deduplicating massive files, as well as converting data between various tabular formats. The project covers a broad range of data wrangling and analysi
Provides high-performance command-line utilities for manipulating, filtering, and analyzing structured CSV, TSV, and JSONL datasets.