Apache SeaTunnel × Hive 深度集成指南:原理、配置与实践
在大数据处理的复杂生态中,数据的高效流转与整合是实现数据价值的关键。Apache SeaTunnel作为一款高性能、分布式、易扩展的数据集成框架,能够快速实现海量数据的实时采集、转换和加载;而Apac...
读商战数据挖掘:你需要了解的数据科学与分析思维08评估模型
1. 概述 1.1. 为了让数据科学给实际应用增加价值,数据科学家和其他利益相关者必须仔细地考虑他们究竟希望通过挖掘数据实现什么 1.1.1. 将数据挖掘的结果与他们的实际目标联系起...
读商战数据挖掘:你需要了解的数据科学与分析思维07相似性
1. 概述 1.1. 相似性是许多数据科学方法和商业问题解决方案的基础 1.1.1. 共通之处 1.1.2. 很多数据挖掘过程通常基于相似性或寻找“合适”的相似性来对个体进行分组 1.1.3....
读商战数据挖掘:你需要了解的数据科学与分析思维06过拟合
1. 概述 1.1. 数据科学中最重要的基本概念之二就是过拟合和泛化能力 1.2. 数据挖掘包含模型复杂度和过拟合概率之间的基本权衡 1.3. 如果数据所表现的现象本身就很复杂,那...
读商战数据挖掘:你需要了解的数据科学与分析思维04预测建模
1. 预测建模 1.1. 把预测建模视为有监督的数据划分,也就是根据某个值得关注的量,将整个总体划分为不同的群组 1.1.1. 根据某个希望预测或估计的值对总体进行分组 1.2. 预...
DolphinScheduler 6 个高频 SQL 操作技巧
摘要: Apache DolphinScheduler系列4-后台SQL经验分享 关键词: 大数据、数据质量、数据调度 整体说明 在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些后台SQL实际经验...
喜讯!Apache SeaTunnel 荣获上海开源创新菁英荟优秀开源项目奖
近日,在 2025 上海开源创新菁英荟上,Apache SeaTunnel 凭借信创生态适配与智能化技术突破,荣获 「优秀开源项目奖」。这个由中国团队孵化的开源项目,已成为全球数据集成领域的标杆。 信创生...
读商战数据挖掘:你需要了解的数据科学与分析思维03数据挖掘流程
1. 数据挖掘流程 1.1. 数据挖掘是一门手艺 1.1.1. 涉及大量科学与技术的应用,而如何恰当地应用这些科学与技术也是一门艺术 1.2. 数据挖掘也有一套易于理解的流程,可以将...
SeaTunnel 社区月报(5-6 月):全新功能上线、Bug 大扫除、Merge 之星是谁?
在 5 月和 6 月,SeaTunnel 社区迎来了一轮密集更新:2.3.11 正式发布,新增对 Databend、Elasticsearch 向量、HTTP 批量写入、ClickHouse 多表写入等多个连接器能力,全面提升了数据同步灵活性...
SeaTunnel 社区 2 项目中选“开源之夏 2025”,探索高阶数据集成能力!
Apache SeaTunnel 社区在“开源之夏 2025”中再传捷报,共有两个项目成功入选,聚焦于 Flink CDC schema 支持与元数据管理的生态扩展方向,体现出 SeaTunnel 在实时数据集成和平台化能力构建上...