大数据

Tableau的国产化替换实践案例

在数据开发侧,数据开发人员已经习惯Tableau的设计、开发特点,对可视化工具来说,也需要具备操作简单、设计便捷、类Tableau操作、数据处理等能力,以便适应大量报告的迁移工作。

danny_2018
数据分析
2023-09-28 14:34

Amoro Mixed Format 在上海钢联的构建实时湖仓实践

通过借助 Amoro 开箱即用的能力,以及 Amoro Mixed Iceberg 在 upsert 和 MOR 等方面的功能特性和优化,我们成功解决了在生产场景中流批一体、数据实效性等方面的需求。

danny_2018
数据分析
2023-09-28 14:28

Kafka:介绍和内部工作原理

展示Kafka工作方式的简单架构。

大数据技术前线
数据分析
2023-09-28 11:13

MySQL到TiDB:Hive Metastore横向扩展之路

本文介绍了vivo在大数据元数据服务横向扩展道路上的探索历程,由实际面临的问题出发,对当前主流的横向扩展方案进行了调研及对比测试,通过多方面对比数据择优选择TiDB方案。其次分享了整个扩展方案流程、实施遇到的问题及解决方案,对于在大数据元数据性能上面临同样困境的开发者本篇文章具有非常高的参考借鉴价值。

vivo互联网技术
数据挖掘
2023-09-28 11:00

理解Kafka offset

日常开发中,相信大家都对 Kafka 有所耳闻,Kafka 作为一个分布式的流处理平台,一般用来存储和传输大量的消息数据。在 Kafka 中有三个重要概念,分别是 topic、partition 和 offset。

大数据技术前线
数据分析
2023-09-25 13:50

Elasticsearch 8.X:这个复杂的检索需求如何实现?

如果排序逻辑变得太复杂或影响性能,可能需要考虑在应用层进行后处理,而不是依赖 Elasticsearch 的内部排序。

大数据技术前线
数据分析
2023-09-25 11:05

同一份数据全域共享,HashData UnionStore实时性背后的故事

存算分离已经成为云数仓的主流技术趋势。HashData正通过一份数据全域共享的方式,满足核心业务的实时性需求,为企业业务决策提速带来了强大助力。

danny_2018
数据分析
2023-09-22 16:19

Flink Batch SQL Improvements on Lakehouse

1. Flink Batch on Paimon 挑战 2. Flink Batch 核心优化 3. 后续规划

大数据技术前线
数据分析
2023-09-22 09:27

货拉拉大数据离线混合引擎服务建设实践

支持ETL场景。引入Spark引擎,将离线链路的ETL任务无感迁移到Spark,并且保证任务的稳定性。

danny_2018
数据分析
2023-09-21 10:24

进步神速,Pandas 2.1来了!

本文将介绍Pandas 2.1中的新功能,探讨关于这个新版本中最有趣的事情。

编程学研
数据分析
2023-09-19 16:44

招商信诺人寿基于 Apache Doris 统一 OLAP 技术栈实践

招商信诺人寿基于 Apache Doris 实现 OLAP 技术栈统一,赋能 70 + 一线业务场景实时化

SelectDB
数据分析
2023-09-19 12:07

ClickHouse 存算分离改造:小红书自研云原生数据仓库实践

在保持 ClickHouse 原有超高性能的基础上,我们对其进行深度的云原生改造,实现了计算和存储层的弹性扩缩容能力,从而有效减轻运维负担并降低成本。

danny_2018
数据分析
2023-09-18 14:38

B站大数据系统诊断实践-SQLSCAN篇

在本篇文章中,我们主要介绍了B站大数据系统诊断在SQLScan所做的改造和阶段性成果,主要关注任务的事前治理,对于事中和事后的治理诊断,请关注后续文章《BMR大数据元仓》以及《大数据任务诊断系统-数据智囊》

大数据技术前线
数据分析
2023-09-18 13:49

幸福里基于 Flink & Paimon 的流式数仓实践

本文整理自字节跳动基础架构工程师李国君,在 Streaming Lakehouse Meetup 的分享。幸福里业务是一种典型的交易、事务类型的业务场景,这种业务场景在实时数仓建模中遇到了诸多挑战。本次分享主要介绍幸福里业务基于 Flink & Paimon 构建流式数仓的实践经验,从业务背景、流批一体数仓架构、实践中遇到的问题和解决方案,借助 Paimon 最终能拿到的收益,以及未来规划方面进行介绍。

大数据技术前线
数据分析
2023-09-15 09:44

一文了解袋鼠云在实时数据湖上的探索与实践

近日,袋鼠云大数据引擎专家郝卫亮,为大家带来了《袋鼠云在实时数据湖上的探索与实践》主题分享,帮助大家能了解到什么是实时数据湖、如何进行数据湖选型及数据平台建设数据湖的经验。如今,大规模、高时效、智能化数据处理已是“刚需”,企业需要更强大的数据处理能力,来应对数据查询、数据处理、数据挖掘、数据展示以及多种计算模型并行的挑战。因此,袋鼠云基于自研的一站式大数据基础软件——数栈提出相应的实时数据湖解决方

数栈DTinsight
Hadoop
2023-09-14 16:08

SmartNews 基于 Flink 的 Iceberg 实时数据湖实践

本文整理自 SmartNews 数据平台架构师 Apache Iceberg Contributor 戢清雨,在 Flink Forward Asia 2022 实时湖仓专场的分享。本篇内容主要分为五个部分:

大数据技术前线
数据分析
2023-09-14 09:31

数据研发“新人”如何快速落地?

以“如何快速落地”、“快速适应新环境”为出发点,探讨数据研发“新人”如何快速了解公司业务、领域模型和业务系统,然后快速高效的推进相关工作,赢得合作伙伴的信任和支持。

danny_2018
可视化
2023-09-13 15:19

什么让 Apache Kafka 如此快速?

Kafka 支持高吞吐量、高度分布式、容错性强的平台,能够以低延迟传递消息。

大数据技术前线
数据分析
2023-09-13 14:33

推荐三款适合运维小白的网络监测工具

对于刚刚步入职场的运维小白而言,面对工作中的突发情况时常会感到手忙脚乱,为了帮助他们更好地应对这些挑战,本文将介绍三款特别适合运维新手使用的网络监测工具:                    1.Zabbix是一个功能强大的网络监控系统,可以监视各种网络设备的性能指标、应用的运行状态等,并提供实时

小魏技术
数据分析
2023-09-13 11:16

性能、安全和稳定,DataAPI 为企业 API 保驾护航

对于 API 平台管理者、开发者和调用者来说,API 的调用性能、安全性和稳定性是在平台选型时最需要考虑的三个因素。本文将为大家分享 袋鼠云数据服务平台DataAPI 是如何实现这三方面保障的。

数栈DTinsight
Hadoop
2023-09-13 11:12
联系我们

商务合作:

Tel: +86-15801238530

Email:sales@itpub.net

媒体合作:

Email:edit@it168.com

关注公众号获取更多技术文章