11 repository-uri
High-performance utilities for manipulating, filtering, and analyzing structured datasets via a command-line interface.
Distinct from Rust-Implemented Tooling: Existing candidates focus on Rust language internals, compilers, or serialization libraries rather than a high-level CLI toolkit for data processing.
Explore 11 awesome GitHub repositories matching data & databases · Command-Line Data Processors. Refine with filters or upvote what's useful.
xsv is a suite of high-performance command-line utilities written in Rust for the analysis, manipulation, and statistical processing of large delimited datasets. It provides a toolkit for processing comma-separated value files through a command line interface. The project provides capabilities for statistical analysis, including the computation of column statistics, value frequencies, and descriptive metrics. It also includes data manipulation utilities for joining, slicing, sampling, and reformatting records. The toolkit covers a broad range of data operations including column selection, da
Provides a comprehensive suite of high-performance Rust-based command-line tools for processing large CSV datasets.
TextQL is a command line SQL query engine designed to execute relational queries directly against structured text files, such as CSV and TSV, without requiring a database import. It functions as a relational text file analyzer and a CSV processor that treats plain text files as virtual tables for filtering, joining, and aggregating data. The tool is built as a pipe-compatible data transformation utility, allowing it to process data from standard input and output formatted datasets. It enables relational joins across multiple files or directories within a single query to analyze relationships
Provides a high-performance CLI utility for manipulating and analyzing structured datasets via SQL.
This is an open-source educational website that translates and localizes MIT's Missing Semester course, teaching practical computing skills for computer science students. The curriculum covers developer tooling, shell scripting, version control, security fundamentals, and open-source collaboration, with a focus on core computing skills including data processing pipelines, workflow automation, secure remote access, shell productivity, Vim editing, and Git version control. The project distinguishes itself by teaching command-line mastery, shell scripting, and automation to boost daily developer
Teaches generating simple plots from command-line data using tools like gnuplot.
GDAL este o bibliotecă de traducere open source licențiată MIT care oferă un model de date abstract unificat pentru citirea și scrierea datelor geospațiale raster și vectoriale în sute de formate de fișiere. Servește ca o bibliotecă fundamentală de traducere a datelor geospațiale, permițând accesul la diverse formate de date geospațiale printr-o singură interfață consistentă. Biblioteca își expune funcționalitatea de bază prin utilitare de linie de comandă care permit utilizatorilor să traducă, convertească și proceseze date geospațiale între formate. Un motor de transformare a coordonatelor gestionează conversiile între sistemele de referință spațială, în timp ce un sistem de plugin-uri pentru drivere de format încarcă logica de citire și scriere specifică formatului la runtime. Stratul de sistem de fișiere virtual oferă acces uniform I/O prin fișiere locale, HTTP, stocare în cloud și arhive comprimate, iar un cache de blocuri raster gestionează cache-ul de tile-uri în memorie pentru a reduce operațiunile I/O. GDAL suportă citirea și scrierea datelor geospațiale atât raster, cât și vectoriale, cu iterarea caracteristicilor vectoriale care transmite caracteristicile individual fără a încărca seturi de date întregi în memorie. Proiectul permite interoperabilitatea geospațială între formate prin suportarea schimbului de date între diferite ecosisteme software geospațiale prin suportul său extins pentru formate.
Runs command-line utilities to translate and analyze geospatial raster and vector datasets.
sc-im este un calculator de tip tabel (spreadsheet) cu interfață text și manager de date. Oferă un mediu bazat pe tastatură pentru efectuarea calculelor matematice și gestionarea grilelor de date în cadrul unei interfețe în linie de comandă. Aplicația este scriptabilă, suportând funcții personalizate, declanșatoare bazate pe evenimente și integrarea scripturilor externe pentru automatizarea sarcinilor de calcul. De asemenea, permite încărcarea modulelor compilate externe la runtime pentru a-și extinde capabilitățile matematice. Sistemul acoperă gestionarea datelor prin sortarea rândurilor, filtrare și calcule de subtotaluri. Suportă interoperabilitatea datelor prin importul și exportul formatelor CSV, TAB, Markdown și XLSX. Capabilitățile suplimentare includ un mod de execuție non-interactiv pentru procesarea datelor headless și capacitatea de a trimite date către software-uri de plotare externe pentru vizualizare.
Offers a command-line interface for manipulating structured datasets through sorting, filtering, and multi-format I/O.
The Missing Semester is a free, open-source educational curriculum designed to bridge the gap between theoretical computer science and the practical tooling every software engineer needs. Organized as a structured course, it covers Unix shell mastery, version control with Git, software debugging and profiling, system administration fundamentals, and computer security practices — the skills often left out of traditional degree programs. The project is maintained as a collaborative set of lecture notes, exercises, and guides that function as both a professional development tools course and a Uni
The Missing Semester teaches computing statistics and plotting data using command-line tools like bc, R, and gnuplot.
YouPlot este un utilitar de plotare în linia de comandă și un instrument de vizualizare a datelor în terminal, utilizat pentru a randa grafice statistice direct în interfața terminalului folosind caractere Unicode. Funcționează ca un plotter pentru pipeline-ul Unix, permițând utilizatorilor să vizualizeze date numerice fără a părăsi shell-ul. Proiectul operează ca un vizualizator de date în timp real, desenând graficele progresiv pe măsură ce datele intră în sistem. Se integrează în pipeline-urile liniei de comandă prin citirea datelor din input-ul standard pentru a oferi monitorizarea fluxului și analiza datelor în timp real. Instrumentul acoperă o varietate de capabilități de randare, inclusiv grafice liniare, scatter plots, histograme, grafice cu bare, box plots și grafice de densitate. Acestea sunt susținute de sisteme interne pentru scalarea dinamică a axelor și maparea coordonatelor pentru a se potrivi dimensiunilor terminalului.
Generates statistical charts and graphs from tabular or streamed data using Unicode characters in the command line.
Proselint este un linter de proză și un analizor de text bazat pe reguli, conceput pentru a identifica erori stilistice, clișee și jargon în textele scrise. Acesta scanează documentele comparându-le cu un registru curat de reguli lingvistice și tipografice pentru a menține standarde editoriale profesionale și a îmbunătăți calitatea scrierii. Proiectul funcționează ca un procesor de text pentru linia de comandă, o bibliotecă de analiză programabilă și un hook de pre-commit pentru git. Arhitectura sa modulară permite motorului principal să fie integrat în alte aplicații, expus printr-un API REST sau integrat în editoare de text. Instrumentul suportă parcurgerea recursivă a directoarelor pentru analiză în lot și acceptă text prin input standard pentru utilizarea în pipeline-uri de linie de comandă. Oferă opțiuni de configurare pentru a activa sau dezactiva verificări lingvistice specifice și poate exporta rezultatele diagnosticului în format JSON structurat.
Functions as a terminal-based processor that accepts standard input and outputs structured linting results.
Nali este o suită de instrumente de linie de comandă pentru rezolvarea adreselor IP la locații geografice și identificarea furnizorilor de rețele de livrare a conținutului folosind baze de date offline. Acesta funcționează ca un instrument de geolocalizare IP offline și un resolver de baze de date care mapează adresele la locații fizice și proprietari de rețea fără a necesita o conexiune la internet activă. Proiectul se distinge printr-o abordare offline-first a analizei rețelei, utilizând furnizori de baze de date pluggable și caching-ul metadatelor fișierelor locale pentru a asigura confidențialitatea datelor și independența față de API-urile externe. Include un utilitar dedicat pentru identificarea furnizorilor de rețele de livrare a conținutului și un sistem pentru gestionarea și actualizarea fișierelor de date geografice locale. Setul de instrumente suportă atât fluxuri de lucru interactive, cât și automatizate, prezentând o buclă read-eval-print pentru căutări manuale secvențiale și un procesor de metadate care citește fluxuri de adrese IP din input-ul standard. Acest lucru permite integrarea metadatelor geografice și ale furnizorului în pipeline-urile shell. Configurarea pentru depozitele de date și fișierele de configurare este gestionată prin variabile de mediu ale sistemului.
Processes IP address streams via standard input to add geographic and provider metadata.
This project provides a framework for performing data science tasks using command-line tools and scripts. It focuses on the processing and analysis of text and structured data directly within the terminal. The approach centers on using Unix pipes to stream data between independent processes and employing shell scripting to automate repetitive data science workflows. It utilizes plain-text interchange formats, such as CSV, to move information between diverse utilities. Capability areas include text-based data processing, command-line data analysis, and terminal-based data visualization. These
Analyzes datasets using high-performance terminal tools for quick calculations and data manipulations.
Xan is a command-line tool and data transformation engine for processing CSV, TSV, and JSONL datasets. It functions as a processor for compressed files, enabling random access and seeking within gzipped and Zstd files, and serves as a converter for specialized bioinformatics data formats. The tool handles large datasets without requiring full memory loads by utilizing stream-based processing. It provides capabilities for merging, sorting, and deduplicating massive files, as well as converting data between various tabular formats. The project covers a broad range of data wrangling and analysi
Provides high-performance command-line utilities for manipulating, filtering, and analyzing structured CSV, TSV, and JSONL datasets.