智能工控

DolphinScheduler JavaTask动态传参秘籍:轻松实现任务间数据流动-牛翰网

DolphinScheduler JavaTask动态传参秘籍:轻松实现任务间数据流动

Apache DolphinScheduler的JavaTask可以通过在任务执行日志中输出特定格式的参数来支持OUT参数的下游传输,通过捕捉日志并将其作为参数传递给下游任务。这种机制允许任务间的数据流动和通信,增...
猿柒的头像-牛翰网钻石会员猿柒7个月前
04210
Kafka集群管理:大数据运维专家来教你如何实现数据均衡与性能最大化-牛翰网

Kafka集群管理:大数据运维专家来教你如何实现数据均衡与性能最大化

Kafka 概述 Kafka 起初是 由 LinkedIn 公司采用 Scala 语言开发的一个多分区、多副本且基于 ZooKeeper 协调的分布式消息系统,现已被捐献给 Apache 基金会。   目前 Kafka 已经定位为一个...
猿柒的头像-牛翰网钻石会员猿柒7个月前
09415
从ETL到DataOps:WhaleStudio替代Informatica,实现信创化升级-牛翰网

从ETL到DataOps:WhaleStudio替代Informatica,实现信创化升级

作者 | 白鲸开源 姜维 在数据集成和调度的领域,Informatica曾经是公认的权威工具。其强大的ETL功能、多年积累的市场经验,使其成为众多企业数据处理的核心工具。 然而,随着新一代大数据平台的...
猿柒的头像-牛翰网钻石会员猿柒7个月前
0486
读数据质量管理:数据可靠性与数据质量问题解决之道14普及数据质量-牛翰网

读数据质量管理:数据可靠性与数据质量问题解决之道14普及数据质量

1. 普及数据质量 1.1. 随着企业摄取越来越多的数据,数据分析也逐渐成为企业战略的重要组成部分,对高质量数据的需求只会不断增加,这给数据工程师、分析工程师,甚至数据分析师都带...
猿柒的头像-牛翰网钻石会员猿柒7个月前
03912
读数据质量管理:数据可靠性与数据质量问题解决之道13数据沿袭-牛翰网

读数据质量管理:数据可靠性与数据质量问题解决之道13数据沿袭

1. 数据沿袭 1.1. MyDoom的病毒 1.2. 现在,许多团队甚至整个公司都在使用数据,这要求数据管理的方式要更便于合作,同时也更不容许发生错误 1.3. 从采用dbt和Apache Airfl...
猿柒的头像-牛翰网钻石会员猿柒7个月前
0598
AI实现简历筛选助手-牛翰网

AI实现简历筛选助手

背景 为什么要使用AI进行简历筛选? 效率: AI工具比人类招聘人员更快地处理简历,减少招聘时间。 减少偏见: AI有助于消除无意识偏见,确保更公平的招聘实践。 成本效益: 自动化筛选流程可以...
猿柒的头像-牛翰网钻石会员猿柒7个月前
01025
使用Redis分布式锁优化 Java Spark 服务-牛翰网

使用Redis分布式锁优化 Java Spark 服务

为了优化 Java Spark 服务,尝试了各种办法和各种参数组合。 为什么要优化 现网有个spark服务,白天数据量大,积压数据,夜间数据量小,再把积压的数据处理完,虽然达到了平衡,保证了每天的数...
猿柒的头像-牛翰网钻石会员猿柒7个月前
05613
Spark习题汇总-牛翰网

Spark习题汇总

目录 单选 多选 单选 网络中很多数据是以图的形式呈现的,比如社交网络、交通事故,现场证据采集等,为了解决大型图的分布式计算问题,最适合采用以下哪种计算框架: Spark Core Storm Pregel ...
猿柒的头像-牛翰网钻石会员猿柒7个月前
05215
10月月报 | Apache DolphinScheduler进展总结-牛翰网

10月月报 | Apache DolphinScheduler进展总结

各位热爱 Apache DolphinScheduler 的小伙伴们,社区10月份月报更新啦!这里将记录 DolphinScheduler 社区每月的重要更新,欢迎关注! 月度Merge之星 感谢以下小伙伴10月份为 Apache DolphinSch...
猿柒的头像-牛翰网钻石会员猿柒7个月前
0447
某大型商超客户采购数据分析(Spark实战)-牛翰网

某大型商超客户采购数据分析(Spark实战)

写了一些使用sparksql以及spark机器学习来进行数据分析的东西,希望能给大家做一些参考 项目需求:对某大型商超客户采购数据集进行数据分析 数据来源:https://www.heywhale.com/mw/dataset/656...
猿柒的头像-牛翰网钻石会员猿柒7个月前
0838