11 مستودعات
High-performance utilities for manipulating, filtering, and analyzing structured datasets via a command-line interface.
Distinct from Rust-Implemented Tooling: Existing candidates focus on Rust language internals, compilers, or serialization libraries rather than a high-level CLI toolkit for data processing.
Explore 11 awesome GitHub repositories matching data & databases · Command-Line Data Processors. Refine with filters or upvote what's useful.
xsv is a suite of high-performance command-line utilities written in Rust for the analysis, manipulation, and statistical processing of large delimited datasets. It provides a toolkit for processing comma-separated value files through a command line interface. The project provides capabilities for statistical analysis, including the computation of column statistics, value frequencies, and descriptive metrics. It also includes data manipulation utilities for joining, slicing, sampling, and reformatting records. The toolkit covers a broad range of data operations including column selection, da
Provides a comprehensive suite of high-performance Rust-based command-line tools for processing large CSV datasets.
TextQL is a command line SQL query engine designed to execute relational queries directly against structured text files, such as CSV and TSV, without requiring a database import. It functions as a relational text file analyzer and a CSV processor that treats plain text files as virtual tables for filtering, joining, and aggregating data. The tool is built as a pipe-compatible data transformation utility, allowing it to process data from standard input and output formatted datasets. It enables relational joins across multiple files or directories within a single query to analyze relationships
Provides a high-performance CLI utility for manipulating and analyzing structured datasets via SQL.
This is an open-source educational website that translates and localizes MIT's Missing Semester course, teaching practical computing skills for computer science students. The curriculum covers developer tooling, shell scripting, version control, security fundamentals, and open-source collaboration, with a focus on core computing skills including data processing pipelines, workflow automation, secure remote access, shell productivity, Vim editing, and Git version control. The project distinguishes itself by teaching command-line mastery, shell scripting, and automation to boost daily developer
Teaches generating simple plots from command-line data using tools like gnuplot.
GDAL هي مكتبة مترجم مفتوحة المصدر مرخصة بموجب MIT توفر نموذج بيانات مجرداً وموحداً لقراءة وكتابة البيانات الجغرافية المكانية النقطية والمتجهة عبر مئات تنسيقات الملفات. تعمل كمكتبة أساسية لترجمة البيانات الجغرافية المكانية، مما يتيح الوصول إلى تنسيقات بيانات جغرافية مكانية متنوعة من خلال واجهة واحدة متسقة. تكشف المكتبة عن وظائفها الأساسية من خلال أدوات سطر الأوامر التي تسمح للمستخدمين بترجمة وتحويل ومعالجة البيانات الجغرافية المكانية بين التنسيقات. يتعامل محرك تحويل الإحداثيات مع التحويلات بين أنظمة المراجع المكانية، بينما يقوم نظام المكونات الإضافية لبرنامج تشغيل التنسيق بتحميل منطق القراءة والكتابة الخاص بالتنسيق في وقت التشغيل. توفر طبقة نظام الملفات الافتراضية وصولاً موحداً للإدخال/الإخراج عبر الملفات المحلية، وHTTP، والتخزين السحابي، والأرشيفات المضغوطة، ويدير ذاكرة التخزين المؤقت للكتل النقطية التخزين المؤقت للبلاط في الذاكرة لتقليل عمليات الإدخال/الإخراج. تدعم GDAL قراءة وكتابة البيانات الجغرافية المكانية النقطية والمتجهة، مع تكرار ميزات المتجه الذي يبث الميزات بشكل فردي دون تحميل مجموعات البيانات بأكملها في الذاكرة. يتيح المشروع إمكانية التشغيل البيني الجغرافي المكاني عبر التنسيقات من خلال دعم تبادل البيانات بين أنظمة برمجيات جغرافية مكانية مختلفة من خلال دعم التنسيق الواسع الخاص به.
Runs command-line utilities to translate and analyze geospatial raster and vector datasets.
sc-im هو برنامج جداول بيانات بواجهة مستخدم نصية ومدير بيانات. يوفر بيئة تعتمد على لوحة المفاتيح لإجراء العمليات الحسابية وإدارة شبكات البيانات داخل واجهة سطر الأوامر. التطبيق قابل للبرمجة، ويدعم وظائف مخصصة، ومشغلات تعتمد على الأحداث، ودمج نصوص خارجية لأتمتة مهام الحساب. كما يسمح بتحميل وحدات مجمعة خارجية في وقت التشغيل لتوسيع إمكانياته الرياضية. يغطي النظام إدارة البيانات من خلال فرز الصفوف، والتصفية، وحسابات المجاميع الفرعية. ويدعم قابلية التشغيل البيني للبيانات عبر استيراد وتصدير تنسيقات CSV وTAB وMarkdown وXLSX. تشمل الإمكانيات الإضافية وضع تنفيذ غير تفاعلي لمعالجة البيانات بدون واجهة والقدرة على إرسال البيانات إلى برامج رسم بياني خارجية للتصور.
Offers a command-line interface for manipulating structured datasets through sorting, filtering, and multi-format I/O.
The Missing Semester is a free, open-source educational curriculum designed to bridge the gap between theoretical computer science and the practical tooling every software engineer needs. Organized as a structured course, it covers Unix shell mastery, version control with Git, software debugging and profiling, system administration fundamentals, and computer security practices — the skills often left out of traditional degree programs. The project is maintained as a collaborative set of lecture notes, exercises, and guides that function as both a professional development tools course and a Uni
The Missing Semester teaches computing statistics and plotting data using command-line tools like bc, R, and gnuplot.
YouPlot is a command line plotting utility and terminal data visualization tool used to render statistical plots and charts directly within a terminal interface using Unicode characters. It functions as a Unix pipeline plotter, allowing users to visualize numerical data without leaving the shell. The project operates as a real-time data visualizer, drawing plots progressively as data streams into the system. It integrates into command line pipelines by reading data from standard input to provide real-time stream monitoring and data analysis. The tool covers a variety of rendering capabilitie
Generates statistical charts and graphs from tabular or streamed data using Unicode characters in the command line.
Proselint هو أداة تدقيق لغوي ومحلل نصوص قائم على القواعد، مصمم لتحديد الأخطاء الأسلوبية، والعبارات المبتذلة، والمصطلحات التقنية في النصوص المكتوبة. يقوم بمسح المستندات مقابل سجل منسق من القواعد اللغوية والطباعية للحفاظ على معايير التحرير المهنية وتحسين جودة الكتابة. يعمل المشروع كمعالج نصوص عبر سطر الأوامر، ومكتبة تحليل برمجية، وخطاف (hook) لعمليات git pre-commit. تسمح بنيته النمطية بدمج المحرك الأساسي في تطبيقات أخرى، أو عرضه عبر REST API، أو دمجه في محررات النصوص. تدعم الأداة التنقل العودي في المجلدات للتحليل الجماعي، وتقبل النصوص عبر المدخلات القياسية للاستخدام في خطوط أنابيب سطر الأوامر. كما توفر خيارات تكوين لتمكين أو تعطيل فحوصات لغوية محددة، ويمكنها تصدير نتائج التشخيص بتنسيق JSON مهيكل.
Functions as a terminal-based processor that accepts standard input and outputs structured linting results.
Nali is a suite of command-line tools for resolving IP addresses to geographic locations and identifying content delivery network providers using offline databases. It functions as an offline IP geolocation tool and database resolver that maps addresses to physical locations and network owners without requiring an active internet connection. The project distinguishes itself through an offline-first approach to network analysis, using pluggable database providers and local file metadata caching to ensure data privacy and independence from external APIs. It includes a dedicated utility for iden
Processes IP address streams via standard input to add geographic and provider metadata.
يوفر هذا المشروع إطار عمل لأداء مهام علوم البيانات باستخدام أدوات سطر الأوامر والنصوص البرمجية. يركز على معالجة وتحليل النصوص والبيانات المنظمة مباشرة داخل الطرفية. يركز النهج على استخدام أنابيب Unix لتدفق البيانات بين العمليات المستقلة وتوظيف برمجة shell لأتمتة سير عمل علوم البيانات المتكررة. يستخدم تنسيقات تبادل النص العادي، مثل CSV، لنقل المعلومات بين الأدوات المتنوعة. تشمل مجالات القدرة معالجة البيانات القائمة على النصوص، وتحليل البيانات عبر سطر الأوامر، وتصور البيانات القائم على الطرفية. يتم تحقيق ذلك عن طريق ربط البرامج التنفيذية المنفصلة في خطوط أنابيب تحويل خطية.
Analyzes datasets using high-performance terminal tools for quick calculations and data manipulations.
Xan is a command-line tool and data transformation engine for processing CSV, TSV, and JSONL datasets. It functions as a processor for compressed files, enabling random access and seeking within gzipped and Zstd files, and serves as a converter for specialized bioinformatics data formats. The tool handles large datasets without requiring full memory loads by utilizing stream-based processing. It provides capabilities for merging, sorting, and deduplicating massive files, as well as converting data between various tabular formats. The project covers a broad range of data wrangling and analysi
Provides high-performance command-line utilities for manipulating, filtering, and analyzing structured CSV, TSV, and JSONL datasets.