大数据

加速推动AI与数据的融合,Databricks发力Lakeflow Designer

Lakeflow Designer的的“谋篇布局”,标志着Databricks正从单纯的数据湖仓平台,向AI驱动的数据操作层延伸。通过平衡易用性与治理能力,其有望助力企业突破数据工程“最后一公里”的瓶颈,真正释放数据与AI的融合价值。

danny_2018
数据分析
2025-06-16 15:34

vivo Pulsar 万亿级消息处理实践(2)-从0到1建设 Pulsar 指标监控链路

本文是《vivo Pulsar万亿级消息处理实践》系列文章第2篇,Pulsar支持上报分区粒度指标,Kafka则没有分区粒度的指标,所以Pulsar的指标量级要远大于Kafka。在Pulsar平台建设初期,提供一个稳定、低时延的监控链路尤为重要。

vivo互联网技术
Spark
2025-06-12 10:52

为什么你的数据分析不起作用?

若在挑选用于分析趋势和洞察的数据指标时缺乏明确目标,那么最终产出的报告大概率毫无价值。我们建议企业在构建数据架构前,一定要先梳理清楚业务需求以及对数据应用的预期。

danny_2018
数据分析
2025-05-22 09:29

RAG(检索增强生成)AI代表未来,而高质量数据是关键,为什么?

如果生成式AI模型使用的是质量低下的数据,那么它们生成的内容可能会充满错误、误导性信息或无关紧要的信息。这种情况下,AI的输出就会变得“华而不实”,看似有吸引力但实际上缺乏实质内容和价值。

danny_2018
数据挖掘
2025-05-19 10:51

湖仓一体架构解析:如何平衡数据灵活性与分析性能?

在数据爆炸的时代,企业面临着如何高效处理和分析海量数据的挑战。传统架构难以同时满足灵活性和性能需求,湖仓一体架构应运而生。

镜舟科技
数据挖掘
2025-05-04 17:19

平替Pandas,主流数据处理库优劣势比较

数据处理是数据架构现代化体系中的关键能力。尤其在数据大爆炸的今天,不仅数据量越来越大、数据类型越来越复杂,更要求数据能够实时或者近实时处理。因此,如何有效处理数据,是数据价值释放的“必修课”。

danny_2018
数据分析
2025-04-24 09:27

分析型数据库与事务型数据库?核心差异与选型指南

本文讨论了在数据驱动的业务环境中,事务型数据库和分析型数据库的核心差异与选型问题。

镜舟科技
数据挖掘
2025-04-22 19:52

IDC预计,2028年中国大数据总体市场规模将超621亿美元

国际数据公司(IDC)近日发布了2025年V1版本《全球大数据支出指南》(IDC Worldwide Big Data and Analytics Spending Guide)。IDC最新数据显示,2024年全球大数据IT总投资规模约为3,540亿美元,2028年预计接近6,441亿美元,五年复合增长率(CAGR)约为16.8%。

qing_yun
数据分析
2025-04-21 13:47

Spark on K8s 在vivo大数据平台的混部实战

本文将从在离线混部中的离线任务的角度,讲述离线任务是如何进行容器化、平台上的离线任务如何平滑地提交到混部集群、离线任务在混部集群中如何调度的完整实现以及过程中的问题解决。

vivo互联网技术
Spark
2025-04-17 11:29

ETL多源数据集成架构设计:到底选择专用管道,还是通用管道?

不管是选择每个数据源的专用管道,还是具有集成层、核心层和接收器层的通用管道,两种方法各有利弊,适用于不同的场景和用户需求。

danny_2018
ELK
2025-02-25 18:11

数据无界、湖仓无界,Apache Doris 湖仓一体典型场景实战指南(下篇)

导读: 湖仓一体是将数据湖和数据仓库的优势相结合的数据管理系统。Apache Doris 结合自身特性,提出了【数据无界】和【湖仓无界】核心理念。上篇文章已介绍了 Apache Doris 湖仓一体完整方案,本文将聚焦典型应用场景,进一步深入,帮助读者更好地理解和应用 Apache Doris 湖仓一体。在数据驱动决策的时代,湖仓一体架构以统一存储、统一计算、统一管理的创新形式,补齐了传统数据仓库

SelectDB
数据分析
2025-02-21 12:19

数据无界、湖仓无界, Apache Doris 湖仓一体解决方案全面解读(上篇)

导读:湖仓一体架构融合了数据湖的低成本、高扩展性,以及数据仓库的高性能、强数据治理能力,高效应对大数据时代的挑战。为助力企业实现湖仓一体的建设,Apache Doris 提出了数据无界和湖仓无界核心理念,并结合自身特性,助力企业加速从 0 到 1 构建湖仓体系,降低转型过程中的风险和成本。本文将对湖仓一体演进及 Apache Doris 湖仓一体方案进行介绍。在过去的数年间,数据分析技术栈经历了许

SelectDB
数据分析
2025-02-19 11:20

官宣|Apache Paimon 1.0 发布公告

在后续计划中,我们重点投入 RESTCatalog 的建设,并且推动 REST Server 的发展,在未来,我们希望通过 REST 元数据服务极大的提升整个湖仓的体验、可用性和易用性。

danny_2018
数据分析
2025-02-11 18:16

DeepSeek等AI产品如何重塑数据分析师的工作

近年来,以ChatGPT为代表的AI产品正在深刻改变数据分析领域的工作方式。这个春节又被DeepSeek刷屏,这些智能工具不仅能够自动化处理海量数据,还能通过机器学习算法发现数据中的潜在规律,为决策提供支持。

qing_yun
数据分析
2025-02-08 09:53