10 个仓库
Tools and grammars for cleaning, filtering, and transforming structured tabular data.
Distinct from Tabular Data Transformations: Candidates focus on guides, visualization-specific transformations, or spreadsheet layout changes, rather than a general-purpose manipulation engine.
Explore 10 awesome GitHub repositories matching data & databases · Tabular Data Manipulations. Refine with filters or upvote what's useful.
dplyr 是一个 R 语言数据处理库,为转换表格数据框提供了语法。它充当内存数据框处理器和关系数据代数工具,使用一组一致的动词来过滤、选择和汇总数据。 该项目包含一个 SQL 翻译引擎,可将高级数据处理表达式转换为优化后的查询。这允许用户直接在远程关系数据库和云存储上执行转换,而无需将数据拉取到本地。 该库涵盖了广泛的表格操作,包括列变异、行子集化和关系数据连接。它还提供了分组数据分析功能,允许对数据集进行分区以进行独立的聚合和汇总。
Provides a comprehensive grammar for cleaning, filtering, and transforming structured tabular data frames.
该项目是用于网页抓取、网络流量拦截、数据分析和情感分析的 Python 实现集合。它提供了从网站和移动应用程序界面提取结构化数据的方法。 该集合包括用于捕获和分析移动应用程序网络数据包以识别隐藏内部 API 端点的工具。它还具有用于评估文本数据的情感基调和公众认知的脚本。 该项目涵盖了大型数据集的数据操作和转换,以及生成图表以识别人口统计趋势和模式。
Processes large datasets using tabular structures for cleaning, filtering, and transforming raw scraped information.
Tablib 是一个用于导入、导出和操作表格数据集的 Python 库。它作为多格式数据转换器和管理器,允许用户在不同的文件标准之间迁移信息。 该库支持 CSV、JSON、YAML 和 Excel 格式之间的数据转换。它提供了一个编程接口,通过添加行、过滤列和分离记录来管理这些数据集。 系统使用通用的内部表示和基于适配器的映射来规范化不同的输入源,从而在支持的文件格式之间实现一致的读写操作。
Provides a programmatic interface for cleaning, filtering, and modifying structured tabular data.
Rivet 是一个可视化 LLM 工作流设计器和 AI 代理编排引擎。它既是一个用于构建检索增强生成(RAG)流水线的开发环境,也是一个用于将可视化 AI 图表和提示词逻辑嵌入 JavaScript 应用的 TypeScript 库。 该系统通过基于节点的编辑器区分开来,该编辑器可映射语言模型、向量数据库和外部 API 之间的数据流。它提供了专门的提示词工程工具,包括用于迭代优化提示词和 A/B 测试的界面,以提高模型响应质量。 该平台涵盖了广泛的功能,包括支持并行处理和循环的有向图执行、用于实时状态调试和执行重放的全面可观测性,以及通过验证套件验证代理行为的自动化测试框架。它还支持音频转录和推理,以及用于定义自定义节点的插件架构。 逻辑图以 YAML 文件形式存储,以支持版本控制和协作。
Enables programmatic loading and appending of tabular datasets within a visual graph to automate agent data handling.
该项目是一个 Python 机器学习库和数据科学工具包,旨在构建预测模型和分析复杂数据集。它提供了一系列使用 Scikit-Learn 框架实现的常见监督和无监督算法。 该工具包包括一个用于从历史数据生成预测的预测建模套件,以及一个用于应用贝叶斯建模和因果检验的统计分析框架。它还具有一个基于 Matplotlib 的数据可视化套件,用于渲染静态图表和图形,以解释分类器边界和数据趋势。 该项目涵盖了用于识别模式和细分的数据聚类工作流、探索性数据分析,以及使用 Pandas 和 NumPy 进行的数据预处理。
Utilizes Pandas to structure raw datasets into tabular dataframes for efficient cleaning and preprocessing.
Python-Guide-CN is a Chinese translation of a comprehensive guide to idiomatic Python programming and software development. It serves as a curated programming tutorial and ecosystem reference, providing a structured path for learning Python syntax, standard libraries, and professional coding patterns. The project distinguishes itself by offering detailed instructions for setting up development environments across Windows, macOS, and Linux. It specifically focuses on the selection of interpreters and the management of virtual environments to ensure a consistent workspace. The guide covers a b
Explains how to index, merge, and align structured tabular data using dataframes.
CrawlerTutorial 是一个全面的 Python 网络爬虫教程和框架,旨在从静态和动态网站中提取数据。它作为一个网络数据提取管道和 HTTP 请求编排器,涵盖了从初始获取到最终数据存储的爬虫应用程序全生命周期。 该项目提供了关于反机器人绕过技术和 Web API 逆向工程的专业指导。它包括通过身份掩码和代理轮换规避浏览器检测的方法,以及通过分析网络流量和请求签名识别隐藏 API 端点的技术。 该框架包含广泛的功能,包括针对 JavaScript 重度页面的浏览器自动化、通过 QR 码或短信的自动用户身份验证以及会话持久性管理。它还具有用于清理原始文本、删除重复记录并将收集到的信息持久化到平面文件或关系数据库中的数据预处理工具。
Performs tabular data manipulations using data frames to structure and transform extracted information.
该项目是一个针对 R 的高性能表格数据处理框架,旨在以内存效率和速度处理海量数据集。它提供了一种增强的数据结构,利用引用语义和就地修改来执行复杂的转换,而无需不必要的对象复制开销。 该库凭借其底层架构优化脱颖而出,包括多线程并行处理、基数排序和内存映射文件解析。通过将关键的数据操作和聚合例程卸载到编译后的 C 代码,它实现了对原本计算昂贵的任务的快速执行。其核心引擎支持高级关系操作,如非等值连接、滚动连接和重叠区间连接,以及用于加速重复数据访问的自动二级索引。 除了主要的处理功能外,该项目还提供了一套全面的数据生命周期管理工具。这包括具有自动类型检测的高速摄取和序列化工具,以及对时间序列分析和多维聚合的专门支持。该框架旨在实现可扩展性,允许用户在包含数十亿行的数据集上执行复杂的分组、过滤和重塑操作,同时保持系统稳定性和性能。
Performs high-performance data wrangling, including filtering, aggregation, and reshaping, using efficient memory management and reference semantics.
This repository serves as an educational resource and structured curriculum for performing statistical analysis using Python. It provides a comprehensive guide to the scientific computing workflow, focusing on the practical application of data cleaning, numerical modeling, and distribution visualization. The tutorial covers the end-to-end process of transforming raw tabular data into actionable insights. It demonstrates how to manipulate structured datasets through merging and aggregation, perform descriptive and inferential statistical calculations, and fit regression models to evaluate rela
Cleans and reshapes structured datasets by merging, indexing, and aggregating rows and columns to prepare for analysis.
This library is a data processing framework for the JVM that provides a type-safe environment for manipulating structured tabular data. It functions as a comprehensive toolset for performing complex data transformations, aggregations, and statistical analysis, while leveraging compile-time schema validation to ensure structural integrity across data pipelines. The project distinguishes itself through its deep integration with interactive notebook environments and its use of compile-time code generation. By automatically deriving and enforcing schemas from raw inputs, it generates type-safe ac
Creates structured datasets from collections of values for organized storage and manipulation.