16 مستودعات
Mechanisms for navigating large datasets through automatic or manual page-by-page retrieval.
Distinct from Paginated Results: The candidates are too specialized (e.g., asset discovery or trading insights); this is a general-purpose API pagination pattern.
Explore 16 awesome GitHub repositories matching data & databases · Iterator-Based Pagination. Refine with filters or upvote what's useful.
Octokit.js is a GitHub API SDK used to interact with GitHub via REST and GraphQL interfaces. It serves as a client for executing typed queries and mutations, managing authenticated REST requests, and handling signed webhooks across Node.js, Deno, and browser environments. The library features a plugin-based request pipeline and an adapter-based HTTP client, allowing the interception of requests and responses across different runtimes. It employs strategy-based authentication to separate credential management from request logic, supporting static tokens, OAuth flows, and GitHub App installatio
Wraps paginated API responses in asynchronous generators for simplified dataset iteration.
PyGithub is a Python library that serves as an object-oriented wrapper for the GitHub REST API. It functions as a specialized client that translates API endpoints into a hierarchy of Python classes, allowing for the programmatic management of GitHub repositories, user profiles, and organizations. The library manages the serialization of requests and responses, converting JSON data into structured object attributes. It utilizes lazy-loading for property retrieval and employs generators to handle pagination when iterating over large remote datasets. This toolkit enables the automation of GitHu
Implements a transparent engine that automatically fetches subsequent pages of API responses until all results are collected.
JMComic-Crawler-Python is a high-performance asynchronous web scraper and API client designed to programmatically retrieve images and metadata from a comic hosting service. It functions as a media archiving tool for batch downloading albums and chapters, automating the process of saving content to a local filesystem. The project is distinguished by its ability to reverse server-side pixel obfuscation, using a decryption tool to reconstruct sliced and shuffled images. To maintain stable connectivity, it utilizes a network bypass utility featuring dynamic domain rotation and proxy routing to ci
Navigates large datasets of comic albums through automated page-by-page retrieval using generators.
The AWS SDK for PHP is a software development kit that provides HTTP client classes for every supported Amazon Web Service, enabling PHP applications to send authenticated requests and receive structured, typed response objects. It includes a credential resolution chain that automatically locates credentials from environment variables, instance profiles, or configuration files, and supports promise-based asynchronous execution for running multiple API calls concurrently to improve throughput. The SDK distinguishes itself through a middleware pipeline architecture that allows interception and
Iterates over multi-page API responses transparently by fetching subsequent pages until all results are collected.
X-Ray هو إطار عمل لكشط الويب ومزاحف ويب غير متزامن مصمم لاستخراج البيانات المهيكلة من المواقع. يعمل كمستخرج بيانات HTML يحول محتوى الصفحة الخام إلى مخطط محدد باستخدام محددات بنمط CSS. يطبق المشروع مزاحف متصفح بدون واجهة رسومية قادراً على تنفيذ JavaScript لعرض المحتوى الديناميكي. يتعامل مع اكتشاف محتوى الموقع من خلال استراتيجية زحف بالعرض أولاً واكتشاف الترقيم التلقائي لاجتياز مجموعات النتائج متعددة الصفحات. يدير إطار العمل خطوط أنابيب بيانات الويب باستخدام قائمة انتظار طلبات محدودة التزامن والتحكم في معدل الطلبات لتنظيم مكالمات الشبكة الصادرة. تتم معالجة النتائج المستخرجة عبر استمرارية البيانات القائمة على التدفق لمعالجة مجموعات البيانات الكبيرة دون تحميل ذاكرة النظام بشكل زائد.
Implements automatic discovery of navigation links to traverse multi-page website result sets.
X-ray هو متصفح ويب بدون واجهة رسومية (headless) ومزاحف محتوى HTML مصمم لاستخراج البيانات المهيكلة من المواقع. يعمل كمزاحف بيانات يعتمد على التدفق ومستخرج بيانات مهيكلة، باستخدام محددات لاسترداد النصوص والسمات من HTML ككائنات أو مصفوفات متداخلة. يتضمن المشروع وحدة تحكم في معدل الطلبات لإدارة حركة مرور الشبكة من خلال حدود التزامن، والمخنق، والمهلات. يتعامل مع كشط المواقع الديناميكية عن طريق عرض JavaScript عبر متصفح بدون واجهة رسومية ويقوم بأتمتة زحف المواقع باستخدام تتبع الروابط بالعرض أولاً وإدارة الترقيم. يوفر النظام خط أنابيب بيانات يطبق تحويلات قيم وظيفية على السلاسل الخام ويكتب النتائج إلى تدفق قابل للقراءة لمنع تجاوز سعة الذاكرة أثناء مهام كشط الويب واسعة النطاق.
Automatically identifies and follows pagination links to traverse multi-page HTML result sets.
هذا المشروع عبارة عن مكتبة عميل JavaScript و SDK للتفاعل مع Notion REST API. يوفر طرقاً وأدوات مكتوبة (typed) لإدارة الصفحات وقواعد البيانات وموارد مساحة العمل برمجياً داخل بيئة Notion. تتضمن SDK أدوات لتنفيذ تدفقات تفويض OAuth 2.0 لمنح تطبيقات الطرف الثالث الوصول إلى محتوى مساحة العمل. تتميز بآليات للتعامل مع التصفح القائم على المؤشر عبر المكررات غير المتزامنة وتنفذ عمليات إعادة المحاولة مع التراجع الأسي لإدارة حدود المعدل وأخطاء الخادم العابرة. تغطي المكتبة مجموعة واسعة من القدرات، بما في ذلك إدارة مخطط قاعدة البيانات، ومزامنة محتوى الصفحة، ورفع أصول الوسائط. كما توفر دعماً لاسترجاع ملف تعريف المستخدم، واشتراكات الأحداث في الوقت الفعلي عبر خطافات الويب، والتحقق من صحة الاستجابة الآمنة للنوع باستخدام حراس نوع TypeScript.
Provides an automatic engine to iterate over multi-page API responses as an async iterator.
dlt هي أداة لاستيعاب البيانات بلغة Python وإطار عمل لخط أنابيب ETL مصمم لجلب البيانات من مصادر متنوعة وحفظها في وجهات مهيكلة. تعمل كمحرك لاستنتاج المخطط (schema inference) يكتشف تلقائياً أنواع البيانات ويسطح هياكل JSON المتداخلة في جداول علائقية، ناقلاً البيانات من المصادر إلى بحيرات البيانات، أو المستودعات، أو قواعد بيانات المتجهات. يتميز المشروع بتوليد خط أنابيب مدعوم بالذكاء الاصطناعي، باستخدام نماذج لغات كبيرة لسقالات كود الاستخراج والموصلات لـ REST APIs. كما يدعم تخزين المتجهات متعدد الوسائط والتعبئة المتخصصة لقواعد بيانات المتجهات لدعم تطبيقات الذكاء الاصطناعي والتعلم الآلي. يغطي إطار العمل مجموعة واسعة من القدرات بما في ذلك تطور المخطط المؤتمت، وتحميل البيانات التزايدي عبر تتبع الحالة، والتحقق من جودة البيانات من خلال فرض عقود البيانات. يوفر أدوات لتطبيع البيانات العلائقية، وتحويلات ما قبل وما بعد التحميل، ومجموعة متنوعة من محولات الوجهة لقواعد بيانات SQL ومخازن الكائنات السحابية. تتم إدارة المراقبة من خلال لوحات معلومات تنفيذ خط الأنابيب، وتتبع نسب الأعمدة، والتحقق من إصدار المخطط باستخدام التجزئات القائمة على المحتوى.
Automatically iterates over multi-page API responses to retrieve all available data without manual configuration.
snscrape هو أداة كشط وزحف ويب لوسائل التواصل الاجتماعي تعتمد على Python مصممة لاستخراج المنشورات العامة، والملفات الشخصية، والوسوم من الشبكات الاجتماعية دون استخدام واجهات برمجة التطبيقات الرسمية. تعمل كأداة أرشفة وأداة لجمع بيانات الاستخبارات مفتوحة المصدر، مما يسمح بجمع المعلومات المتاحة علناً للتحقيق في الاتجاهات والأشخاص. تسهل الأداة استخراج بيانات وسائل التواصل الاجتماعي لأغراض البحث والأرشفة، مما يتيح إنشاء سجلات تاريخية للمحادثات ونشاط المستخدم. تدعم سير العمل للتحليل الاجتماعي الأكاديمي وتصدير مجموعات كبيرة من البيانات الوصفية والرسائل إلى ملفات محلية. تشمل القدرات القدرة على كشط منصات التواصل الاجتماعي المختلفة وتحديد حجم النتائج المستخرجة. يمكن للنظام تصدير العناصر المكتشفة كقوائم من عناوين URL أو ملفات مفصلة تحتوي على المحتوى والطوابع الزمنية.
Automatically navigates through large datasets by detecting and following pagination tokens in server responses.
هذه مكتبة من جانب الخادم ذات أنواع (typed) وSDK لبوابة دفع لدمج Stripe في تطبيقات Node.js. توفر عميلاً ذا أنواع لإدارة المدفوعات والعملاء والاشتراكات، مع تقديم أدوات متخصصة لتنفيذ المعاملات المالية الآمنة وإدارة موارد الفوترة. تتميز المكتبة بعميل API متطابق (idempotent) يمنع العمليات المكررة باستخدام مفاتيح المطابقة ومنطق إعادة المحاولة المتسارع. تتضمن أداة تحقق من توقيع webhook للتأكد من أن إشعارات أحداث HTTPS الواردة أصلية، وغلاف ترقيم صفحات (pagination wrapper) يعتمد على async-iterator لاجتياز مجموعات البيانات الكبيرة. يغطي المشروع مجموعة واسعة من القدرات، بما في ذلك إدارة فوترة الاشتراكات، وتنسيق منصة الدفع للحسابات المتصلة، والبحث عن الموارد. يوفر معالجة شاملة للاستجابات من خلال توسيع الكائنات واختيار الحقول، إلى جانب ميزات أمنية لمصادقة طلبات API والتحقق من webhook. المكتبة مكتوبة بلغة TypeScript.
Automatically traverses multi-page API results using async iterators to remove manual cursor management.
AWS Java SDK هي واجهة برمجية ومكتبة عميل لإدارة والتفاعل مع البنية التحتية وخدمات سحابة AWS باستخدام لغة Java. تعمل كغلاف لواجهة برمجة التطبيقات (API wrapper) يربط التطبيقات بالتخزين السحابي، وقواعد البيانات، وموارد الحوسبة من خلال مجموعة قياسية من فئات Java. توفر المكتبة نموذج إدخال/إخراج غير محظور (Non-blocking I/O) ومعالجة طلبات قائمة على المستقبلات (Futures) لدعم عمليات سحابية غير متزامنة ذات إنتاجية عالية. وتتضمن آليات لتحسين الأداء في بيئات الحوسبة بدون خادم (Serverless) لتقليل أوقات البدء الأولية. تدير الـ SDK دورة حياة التفاعل مع الخدمة السحابية بالكامل، بما في ذلك ترقيم الصفحات التلقائي لمجموعات النتائج متعددة الأجزاء ونظام حل بيانات الاعتماد القائم على السلاسل الذي يقوم بتحميل وتحديث رموز الأمان. كما تتميز بطبقة نقل HTTP قابلة للتوصيل، مما يسمح باستبدال عميل الشبكة الافتراضي بتنفيذات مخصصة في وقت التشغيل.
Automatically iterates over multi-page API results from AWS services without requiring manual paging logic.
هذا المشروع هو إطار عمل لكشط الويب (web scraping) مبني على Node.js مصمم لأتمتة استخراج البيانات من خلال سير عمل برمجي للطلبات، والتحليل، وتفاعل المستندات. يعمل كزاحف ويب بدون رأس (headless)، ومدير طلبات HTTP، ومحلل ومستخرج DOM. يتميز إطار العمل بدمج محرك تنفيذ JavaScript للتفاعل مع المحتوى الديناميكي ونظام اختيار هجين يستخدم كلاً من محددات CSS وXPath. يتضمن برمجيات وسيطة (middleware) متخصصة لتدوير الوكيل (proxy rotation) وإدارة جلسة ملفات تعريف الارتباط للحفاظ على الحالات المصادق عليها وإدارة حركة المرور المؤتمتة. تغطي قدراته الأوسع زحف الروابط المتكرر، ومعالجة الترقيم، وأتمتة نماذج الويب. توفر الأداة أيضاً ميزات إدارة حركة المرور مثل تحديد معدل الطلبات من خلال تأخيرات زمنية وتكوين رؤوس HTTP مخصصة.
Automatically identifies and follows pagination links to traverse multi-page result sets.
WeiboSpider هو أداة كشط (scraper) لوسائل التواصل الاجتماعي مصممة لاستخراج ملفات تعريف المستخدمين والمنشورات وبيانات التفاعل من منصة Sina Weibo. يعمل كزاحف بيانات ويب يسترجع المعلومات عبر واجهات خارجية بدلاً من تحليل الواجهة الأمامية المرئية. تتضمن الأداة متتبعاً لسلسلة المحتوى لمتابعة المنشورات المشتركة وصولاً إلى مصادرها الأصلية. كما تتميز بمحلل تفاعل اجتماعي لجمع عدد المشاهدات وسلاسل التعليقات المتداخلة لقياس مقاييس تفاعل المستخدمين. يوفر النظام إمكانيات للمراقبة الاجتماعية القائمة على الكلمات المفتاحية وتصفية نتائج البحث لتتبع مواضيع محددة بمرور الوقت. كما يدير مجموعات البيانات الكبيرة من خلال التكرار القائم على الترقيم (pagination) والاجتياز العودي لسلاسل التفاعل.
Crawls large datasets by looping through sequential page offsets to ensure all matching search results are collected.
Octokit.rb is a Ruby client library and REST API wrapper used to programmatically interact with GitHub. It provides a structured interface for automating workflows, managing repositories, and transforming raw HTTP responses into Ruby objects. The library differentiates itself through hypermedia-driven navigation, which uses URI templates and link relations to discover resources dynamically. It also implements automated result pagination to combine paginated responses into single arrays and uses fingerprint-based caching to reduce redundant network requests. The tool covers a broad range of c
Transparently iterates over multi-page API responses to collect all results into a single dataset.
openai-go is an LLM SDK for Go and a client for interacting with OpenAI services. It provides type-safe bindings to generate text, images, and audio via REST endpoints, enabling the integration of large language models and AI assistant orchestration into Go applications. The library serves as an agent orchestration tool for managing stateful conversation threads and autonomous agents with integrated tool calling and file search. It also functions as an asynchronous batch processing client for monitoring large-scale request groups and fine-tuning jobs, alongside a management SDK for controllin
Navigate through large datasets using automatic paging or manual retrieval.
This is a Python SDK for interacting with large language models via API. It serves as a client library to generate text, process messages, and manage conversational states, while providing a specialized interface for connecting to models hosted across different cloud infrastructure providers. The SDK includes a tool-calling framework that maps Python functions to JSON schemas, allowing models to execute external tools. It also features a built-in token counting utility to estimate input size before transmission and a server-sent events client for receiving model tokens in real time. The libr
Provides iterator-based pagination to transparently fetch subsequent pages of API data.