StreamPark

流处理极速开发框架, 流批一体 & 湖仓一体的云原生平台, 一站式流处理计算平台

最近更新: 9个月前

Dagster

Dagster 是一个业务流程协调程序,旨在开发和维护数据资产,例如表、数据集、机器学习模型和报表。 声明要运行的函数以及这些函数生成或更新的数据资产。然后,Dagster 可帮助您在正确的时间运行函数,并使资产保持最新状态。 Dagster 旨在用于数据开发生命周期的每个阶段 - 本地开...

最近更新: 9个月前

SeaTunnel

SeaTunnel是一个分布式、高性能的数据集成平台,用于海量数据的同步和转换(离线和实时)

最近更新: 9个月前

InLong

Apache InLong(应龙)是一个一站式海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,同时支持批和流,方便业务构建基于流式的数据分析、建模和应用。

最近更新: 9个月前

DolphinScheduler

Apache DolphinScheduler是一个分布式和可扩展的开源工作流协调平台,具有强大的DAG可视化界面

最近更新: 11个月前

Compass

罗盘是一个大数据任务诊断平台,旨在提升用户排查问题效率,降低用户异常任务成本。 其主要功能特性如下: 非侵入式,即时诊断,无需修改已有的调度平台,即可体验诊断效果。 支持多种主流调度平台,例如DolphinScheduler、Airflow或自研等。 支持多版本Spark、Hadoop 2.x...

最近更新: 11个月前

Beam

Apache Beam是一个统一的模型,用于定义批处理和流数据并行处理管道,以及一组特定于语言的SDK,用于构建管道和Runners,用于在分布式处理后端(包括Apache Flink,Apache Spark,Google Cloud Dataflow和Hazelcast Jet)上执行它们。

最近更新: 1年多前

podman desktop

Podman Desktop 是一个开源图形工具,使您能够在本地环境中无缝地使用容器和 Kubernetes。

最近更新: 1年多前

Airflow

Apache Airflow是一个开源平台,用于开发、调度、 以及监控面向批处理的工作流。Airflow的可扩展Python框架使您能够构建工作流程 与几乎任何技术连接。Web 界面有助于管理工作流的状态。气流是 可通过多种方式进行部署,从笔记本电脑上的单个进程到分布式设置,甚至支持 最大的工...

最近更新: 1年多前

kestra

Kestra 是一个可无限扩展的编排和调度平台,可创建、运行、调度和监控数百万个复杂的管道。

最近更新: 1年多前

Zeppelin

基于 Web 的 notebook ,支持数据驱动的 交互式数据分析以及与 SQL、Scala、Python、R 等的协作文档。

最近更新: 1年多前

NiFi

一个易于使用、功能强大且可靠的系统来处理和分发数据。

最近更新: 1年多前

BitSail

一款基于分布式架构的高性能数据集成引擎,支持多种异构数据源间的数据同步,目前服务于抖音、今日头条等业务线,每日同步百万级数据。

最近更新: 1年多前

Canal

canal [kə'næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费 基于日志增量订阅和消费的业务包括 数据库镜像 数据库实时备份 索引构建和实时维护(拆分异构索引、倒排索引等) 业务 cache 刷新 带业务逻辑的增量数据处理

最近更新: 1年多前

Celeborn

Apache Celeborn 是一种弹性和高性能服务,用于随机播放和溢出数据

最近更新: 1年多前

Hop

Hop编排平台旨在促进数据和元数据编排的各个方面。

最近更新: 1年多前

dbt-core

DBT 使数据分析师和工程师能够使用与软件工程师用于构建应用程序的相同实践来转换其数据。

最近更新: 1年多前

dbt-spark

dbt-Spark包含使dbt能够与Apache Spark和Databrick一起使用的所有代码

最近更新: 1年多前

Prefect

Prefect 是一个新的工作流管理系统,专为现代基础设施而设计,由开源 Prefect Core 工作流引擎提供支持。

最近更新: 1年多前
成员
1167036 tonglai 1578944234