分类
标签
排序
DolphinScheduler JavaTask动态传参秘籍:轻松实现任务间数据流动
Apache DolphinScheduler的JavaTask可以通过在任务执行日志中输出特定格式的参数来支持OUT参数的下游传输,通过捕捉日志并将其作为参数传递给下游任务。这种机制允许任务间的数据流动和通信,增...
Kafka集群管理:大数据运维专家来教你如何实现数据均衡与性能最大化
Kafka 概述 Kafka 起初是 由 LinkedIn 公司采用 Scala 语言开发的一个多分区、多副本且基于 ZooKeeper 协调的分布式消息系统,现已被捐献给 Apache 基金会。 目前 Kafka 已经定位为一个...
从ETL到DataOps:WhaleStudio替代Informatica,实现信创化升级
作者 | 白鲸开源 姜维 在数据集成和调度的领域,Informatica曾经是公认的权威工具。其强大的ETL功能、多年积累的市场经验,使其成为众多企业数据处理的核心工具。 然而,随着新一代大数据平台的...
读数据质量管理:数据可靠性与数据质量问题解决之道14普及数据质量
1. 普及数据质量 1.1. 随着企业摄取越来越多的数据,数据分析也逐渐成为企业战略的重要组成部分,对高质量数据的需求只会不断增加,这给数据工程师、分析工程师,甚至数据分析师都带...
读数据质量管理:数据可靠性与数据质量问题解决之道13数据沿袭
1. 数据沿袭 1.1. MyDoom的病毒 1.2. 现在,许多团队甚至整个公司都在使用数据,这要求数据管理的方式要更便于合作,同时也更不容许发生错误 1.3. 从采用dbt和Apache Airfl...
AI实现简历筛选助手
背景 为什么要使用AI进行简历筛选? 效率: AI工具比人类招聘人员更快地处理简历,减少招聘时间。 减少偏见: AI有助于消除无意识偏见,确保更公平的招聘实践。 成本效益: 自动化筛选流程可以...
使用Redis分布式锁优化 Java Spark 服务
为了优化 Java Spark 服务,尝试了各种办法和各种参数组合。 为什么要优化 现网有个spark服务,白天数据量大,积压数据,夜间数据量小,再把积压的数据处理完,虽然达到了平衡,保证了每天的数...
Spark习题汇总
目录 单选 多选 单选 网络中很多数据是以图的形式呈现的,比如社交网络、交通事故,现场证据采集等,为了解决大型图的分布式计算问题,最适合采用以下哪种计算框架: Spark Core Storm Pregel ...
10月月报 | Apache DolphinScheduler进展总结
各位热爱 Apache DolphinScheduler 的小伙伴们,社区10月份月报更新啦!这里将记录 DolphinScheduler 社区每月的重要更新,欢迎关注! 月度Merge之星 感谢以下小伙伴10月份为 Apache DolphinSch...
某大型商超客户采购数据分析(Spark实战)
写了一些使用sparksql以及spark机器学习来进行数据分析的东西,希望能给大家做一些参考 项目需求:对某大型商超客户采购数据集进行数据分析 数据来源:https://www.heywhale.com/mw/dataset/656...