Why is pentaho/pentaho-kettle a recommended Cross-Source Data Integration GitHub Repositories repository?

Connects diverse cloud services and on-premises databases to consolidate fragmented information into a unified format.

Why is alasql/alasql a recommended Cross-Source Data Integration GitHub Repositories repository?

Performs relational joins across diverse data sources including Google Spreadsheets, SQLite files, and remote APIs.

Why is cube2222/octosql a recommended Cross-Source Data Integration GitHub Repositories repository?

Joins and transforms data from multiple different database engines and file formats using a single SQL interface.

Why is datawhalechina/joyful-pandas a recommended Cross-Source Data Integration GitHub Repositories repository?

Provides techniques for joining and merging datasets from different sources into unified sets.

Why is apache/calcite a recommended Cross-Source Data Integration GitHub Repositories repository?

Connects diverse storage systems through a common interface, joining datasets from external sources into a single result.

Why is edp963/davinci a recommended Cross-Source Data Integration GitHub Repositories repository?

Integrates and merges datasets from both CSV files and JDBC sources into unified results for visualization.

Why is splware/esproc a recommended Cross-Source Data Integration GitHub Repositories repository?

Enables joining and merging datasets from diverse external relational and NoSQL sources into a single result set.

Why is alibaba/x-deeplearning a recommended Cross-Source Data Integration GitHub Repositories repository?

Combines image and text data using joint training algorithms to improve multi-media matching and retrieval.

Why is thilinarajapakse/simpletransformers a recommended Cross-Source Data Integration GitHub Repositories repository?

Provides joint training algorithms that integrate text and image modalities into a shared semantic representation.

Why is dtstack/chunjun a recommended Cross-Source Data Integration GitHub Repositories repository?

Joins and calculates data between diverse sources using a plugin-based architecture to ensure cross-database compatibility.

10 مستودعات

Awesome GitHub RepositoriesCross-Source Data Integration

Systems capable of joining and merging datasets from diverse external sources into a single result set.

Distinct from Universal Data Parsers: Focuses on relational joins across different sources rather than just normalizing formats [f10_mt1].

Explore 10 awesome GitHub repositories matching data & databases · Cross-Source Data Integration. Refine with filters or upvote what's useful.

اعثر على أفضل المستودعات باستخدام الذكاء الاصطناعي.سنبحث عن أفضل المستودعات المطابقة باستخدام الذكاء الاصطناعي.

pentaho/pentaho-kettle
pentaho/pentaho-kettle
8,353عرض على GitHub
Pentaho Kettle هو منصة مؤسسية لدمج البيانات (ETL) مصممة لاستخراج وتحويل وتحميل البيانات بين المصادر المتباينة وقواعد البيانات المستهدفة. يعمل كمنظم قائم على البيانات الوصفية يستخدم مصمماً مرئياً لسير العمل لإنشاء وإدارة تسلسلات معقدة من مهام البيانات وخطوط أنابيب التحويل. يتميز النظام بمحرك معالجة بيانات موزع، يقوم بتنفيذ أعباء العمل عبر مجموعات من عقد الخادم لزيادة الإنتاجية. يستخدم بنية قائمة على الإضافات، مما يسمح بتوسيع المنصة عبر ملفات JAR خارجية لتوفير الاتصال بقواعد بيانات وخدمات سحابية متنوعة. تغطي المنصة مجموعة واسعة من قدرات دمج البيانات، بما في ذلك التحميل بالجملة، وإدارة الملفات عن بُعد، وتحويل هيكل البيانات. توفر أدوات للتحقق من جودة البيانات، وأتمتة خطوط الأنابيب، وإدارة دورة حياة الوظائف، إلى جانب أدوات مراقبة لتتبع صحة الخادم وحالة التنفيذ في الوقت الفعلي.
Connects diverse cloud services and on-premises databases to consolidate fragmented information into a unified format.
Java
عرض على GitHub8,353
alasql/alasql
AlaSQL/alasql
7,278عرض على GitHub
AlaSQL is a JavaScript SQL database engine that allows for the filtering, grouping, and joining of in-memory object arrays and JSON data. It functions as an in-memory SQL database and client-side data processor, enabling the execution of SQL statements against JavaScript arrays and external data sources in both browser and server environments. The project serves as a universal data query tool capable of performing relational joins across diverse sources, such as merging Google Spreadsheets, SQLite files, and remote APIs into a single result set. It also acts as an IndexedDB SQL wrapper, allow
Performs relational joins across diverse data sources including Google Spreadsheets, SQLite files, and remote APIs.
JavaScript
عرض على GitHub7,278
cube2222/octosql
cube2222/octosql
5,258عرض على GitHub
Octosql هو محرك استعلامات SQL موزع، ومحول بيانات، ومعالج SQL للبث المباشر. يتيح للمستخدمين تنفيذ استعلامات SQL واحدة عبر مصادر بيانات متعددة ومتباينة، بما في ذلك أنواع قواعد البيانات المختلفة وتنسيقات الملفات، لدمج النتائج وتحويلها إلى مجموعة بيانات موحدة. يتميز النظام بمعاملة ملفات CSV وJSONLines وParquet كجداول افتراضية، ويستخدم بنية تعتمد على الإضافات (plugins) لتوسيع الاتصال بمحركات التخزين الخارجية. يعمل كمعالج للبث المباشر لتدفقات البيانات غير المحدودة، مستخدماً العلامات المائية (watermarks) وعمليات التراجع (retractions) والنوافذ الزمنية (tumbling windows) للحفاظ على الاتساق في الأحداث غير المرتبة. بالإضافة إلى ذلك، يعمل كمولد بيانات SQL قادر على إنتاج مجموعات بيانات اصطناعية وتدفقات سجلات عبر دوال ذات قيم جدولية. يتضمن المحرك قدرات لربط البيانات عبر مصادر متعددة والتحليل متعدد المصادر، مع تحسين الأداء عبر دفع التنبؤات (predicate push-down) إلى جانب المصدر لتقليل نقل البيانات. يدير النظام البيانات المعقدة من خلال نظام أنواع ثابت (static type system) مع أنواع اتحادية (union types) ويوفر إمكانية المراقبة عبر تصور خطط تنفيذ الاستعلامات.
Joins and transforms data from multiple different database engines and file formats using a single SQL interface.
Go
عرض على GitHub5,258
datawhalechina/joyful-pandas
datawhalechina/joyful-pandas
5,164عرض على GitHub
هذا المشروع عبارة عن برنامج تعليمي شامل لتحليل بيانات pandas ودليل تعليمي مصمم لتعلم معالجة البيانات وتحليلها. يعمل كدليل لمعالجة البيانات الجدولية ودليل لتحليل السلاسل الزمنية، مما يوفر نهجاً منظماً لتنظيف ودمج وتحويل مجموعات البيانات. يعمل المستودع كدورة هندسة ميزات البيانات، حيث يوفر برامج تعليمية حول بناء واختيار ميزات مجموعة البيانات لتحسين أداء نموذج التعلم الآلي. كما يتضمن دليل عمليات البيانات المتجهة لإجراء حسابات رياضية على مستوى العناصر ومعالجات المصفوفة. تغطي المادة مجموعة واسعة من القدرات بما في ذلك سير عمل تنظيف البيانات، ومهام تكامل البيانات، وتحليل البيانات الجدولية. يوفر توجيهاً حول معالجة المعلومات النصية، والتعامل مع البيانات الفئوية، وتحسين سرعة التنفيذ لمجموعات البيانات الكبيرة. يتم تسليم المشروع كسلسلة من Jupyter Notebooks التي تحتوي على تمارين عملية ومشاكل ممارسة مستهدفة.
Provides techniques for joining and merging datasets from different sources into unified sets.
Jupyter Notebookpandas
عرض على GitHub5,164
apache/calcite
apache/calcite
5,139عرض على GitHub
Calcite هو إطار عمل لتحليل وتحسين وترجمة استعلامات SQL إلى جبر علائقي للتنفيذ عبر مصادر بيانات متنوعة. يعمل كمحرك استعلامات متعدد المصادر، ومكتبة لتحليل SQL، ومحسن للجبر العلائقي. يوفر المشروع محرك تحسين قائم على التكلفة يقوم بتحويل خطط الاستعلام المنطقية إلى خطط تنفيذ مادية فعالة باستخدام قواعد قابلة للتوصيل. ويستخدم محولات ترجمة لتحويل طلبات SQL القياسية إلى التنسيقات الأصلية لقواعد البيانات الخارجية وأنظمة المراسلة، مما يتيح اتحاد البيانات عبر أنظمة التخزين غير المتجانسة. يغطي النظام دورة حياة الاستعلام الكاملة، بما في ذلك تحليل SQL والتحقق من المخططات، وترجمة التعبيرات إلى عوامل جبرية، واختيار خطط تنفيذ فعالة. كما يتضمن واجهة سطر أوامر لتنفيذ الاستعلامات وإدارة الاتصالات بمصادر البيانات.
Connects diverse storage systems through a common interface, joining datasets from external sources into a single result.
Java
عرض على GitHub5,139
edp963/davinci
edp963/davinci
5,002عرض على GitHub
Davinci هي منصة ذكاء أعمال وتصور بيانات تُستخدم لبناء لوحات معلومات وتقارير تفاعلية. تعمل كمنشئ لوحة معلومات قائم على SQL وخدمة تحليلات متعددة المستأجرين تتصل بقواعد البيانات عبر JDBC وملفات CSV لتحويل البيانات الخام إلى مكونات بصرية. تتميز المنصة بنموذج أمان دقيق، يتضمن أذونات على مستوى الصف والعمود مدمجة مع مصادقة LDAP و OAuth2. كما توفر أداة تصور مضمنة تسمح بإدراج مخططات ولوحات معلومات آمنة ومُعاملة في تطبيقات خارجية عبر روابط URL وإطارات. يغطي النظام مجموعة واسعة من القدرات، بما في ذلك نمذجة البيانات باستخدام قوالب SQL، ومحرك تخطيط السحب والإفلات للوحات المعلومات سريعة الاستجابة، ومجموعة واسعة من أنواع التصور مثل مخططات Sankey، ومخططات الرادار، والخرائط الجغرافية. كما يتضمن أتمتة لجدولة التقارير القائمة على البريد الإلكتروني ويستخدم التخزين المؤقت للقيمة الرئيسية لتحسين أداء الاستعلام.
Integrates and merges datasets from both CSV files and JDBC sources into unified results for visualization.
TypeScriptdashboarddata-visualizationdavinci
عرض على GitHub5,002
splware/esproc
SPLWare/esProc
4,685عرض على GitHub
esProc هو إطار عمل ETL موزع ومحرك حساب بيانات مضمن. يوفر لغة بيانات مهيكلة لآلة Java الافتراضية مصممة للاستعلامات العلائقية، وحساب البيانات المعقدة، وتحليل البيانات المهيكلة. يتميز النظام بواجهة استعلام بيانات باللغة الطبيعية تستفيد من النماذج اللغوية الكبيرة لترجمة الطلبات إلى استعلامات قابلة للتنفيذ مقابل مجموعات البيانات المهيكلة. يستخدم النظام لغة استعلام خاصة بالمجال ذات بناء جملة موجز لإنشاء علاقات الجداول واسترداد المعلومات. تغطي المنصة تكامل البيانات عبر مصادر علائقية و NoSQL متباينة وتدير سير عمل ETL لنقل البيانات بين الملفات وقواعد البيانات. تشمل الإمكانيات الإضافية إنشاء تقارير البيانات المهيكلة، وواجهة شبكة في الوقت الفعلي لتصور التنفيذ خطوة بخطوة، والقدرة على دمج مكتبات خارجية مشتركة مخصصة.
Enables joining and merging datasets from diverse external relational and NoSQL sources into a single result set.
Javacluster-computingdatabasedataset
عرض على GitHub4,685
alibaba/x-deeplearning
alibaba/x-deeplearning
4,301عرض على GitHub
This project is a distributed machine learning platform and sparse deep learning framework designed for training and serving models with high-dimensional sparse data. It functions as an online model serving infrastructure and recommendation system engine, enabling real-time item retrieval and scoring using deep tree matching and neural networks. The system distinguishes itself through a multi-task learning framework that optimizes multiple objective functions within a shared representation space. It features a specialized online serving infrastructure that supports dynamic model hot-loading a
Combines image and text data using joint training algorithms to improve multi-media matching and retrieval.
PureBasic
عرض على GitHub4,301
thilinarajapakse/simpletransformers
ThilinaRajapakse/simpletransformers
4,248عرض على GitHub
SimpleTransformers هو إطار عمل عالي المستوى لتدريب وضبط نماذج المحولات لمهام معالجة اللغات الطبيعية المتنوعة. يعمل كمجموعة أدوات لتطوير تصنيف النصوص، والتعرف على الكيانات المسماة، ونماذج الإجابة على الأسئلة، بينما يعمل أيضاً كأداة تسلسل إلى تسلسل ومولد تضمين نصي. تتميز المكتبة بتوفير مدرب نماذج متعدد الوسائط قادر على معالجة وتصنيف البيانات التي تجمع بين مدخلات النص والصورة. كما تدعم سير عمل متخصص لتدريب الذكاء الاصطناعي التحادثي، وتوليد النماذج اللغوية، واسترجاع المستندات الكثيفة لأنظمة استرجاع المعلومات. يغطي إطار العمل نطاقاً واسعاً من القدرات، بما في ذلك إدارة سير عمل التدريب مع التوقف المبكر، وتحسين أداء النموذج من خلال التكميم، وإنشاء رموز مميزة مخصصة خاصة بالمجال. كما يدمج تتبع التجارب وتصور التنبؤ عبر لوحات معلومات القياس عن بعد الخارجية.
Provides joint training algorithms that integrate text and image modalities into a shared semantic representation.
Pythonconversational-aiinformation-retrivalnamed-entity-recognition
عرض على GitHub4,248
dtstack/chunjun
DTStack/chunjun
4,104عرض على GitHub
Chunjun هو إطار عمل لتكامل البيانات الموزعة وخط أنابيب ETL قائم على SQL مصمم لمزامنة البيانات بين مصادر غير متجانسة. يعمل كأداة لالتقاط بيانات التغيير (CDC) ومزامن بيانات غير متجانس، ويستخدم بيئة معالجة موزعة لنقل وتحويل البيانات عبر أنواع قواعد بيانات مختلفة. يتميز النظام ببنية موصل قائمة على الإضافات، والتي تسمح بتطوير إضافات مصدر ووجهة مخصصة لتوسيع الاتصال بأنظمة البيانات غير المدعومة. ويدعم التقاط بيانات التغيير في الوقت الفعلي من سجلات قواعد البيانات العلائقية وينفذ انتشار تطور المخطط لتطبيق التغييرات الهيكلية تلقائياً من جداول المصدر إلى الوجهة. يوفر إطار العمل قدرات لمزامنة البيانات التزايدية وحساب البيانات عبر المصادر باستخدام منطق SQL. تتم إدارة الموثوقية من خلال استرداد المهام القائم على نقاط الفحص لاستئناف عمليات النقل المقاطعة وطوابير الرسائل الميتة لإدارة البيانات المتسخة لتدقيق السجلات المشوهة. يمكن نشر مهام التكامل عبر مجموعات مستقلة، أو Yarn، أو بيئات Kubernetes، مع دعم للنشر الحاوي عبر Docker.
Joins and calculates data between diverse sources using a plugin-based architecture to ensure cross-database compatibility.
Javabigdatadata-integrationflink
عرض على GitHub4,104

Awesome Cross-Source Data Integration GitHub Repositories

pentaho/pentaho-kettle

AlaSQL/alasql

cube2222/octosql

datawhalechina/joyful-pandas

apache/calcite

edp963/davinci

SPLWare/esProc

alibaba/x-deeplearning

ThilinaRajapakse/simpletransformers

DTStack/chunjun

استكشف الوسوم الفرعية