ITPUB技术论坛_专业的IT技术社区

用 Doris Manager 升级 Doris 集群，好用不？

那这一次，我决定换一种更省事的升级方式，用上次我部署过的 Doris Manager，虽然部署之后就几乎没有用过，但希望在这次集群升级中，能发挥出它的价值。下面，是记录我用 Doris Manager 将 Doris 集群从2.0.2升级到2.1.2的完整过程。

大数据技术前线

数据分析

2024-05-17 09:52

产品需求抽象需要如何抽象？

产品经理要避免成为需求传声筒，就需要具备需求挖掘、需求转化、需求抽象的能力，很多产品新人经常会被问到如何做需求抽象，那么产品需求抽象究竟指的是什么呢?

qing_yun

数据分析

2024-05-16 14:50

Clickhouse 的 variant 类型，不能干啥？

从功能介绍来说，无论是 CK 还是 Doris，它们的目标都是在解决，对于一个「值类型不确定」的列，怎么样用一种比较合理的方式，把它作为一个数据库字段，给存储起来，以便后续的检索。

大数据技术前线

数据分析

2024-05-16 10:22

Elasticsearch 电商场景：明明有这个关键词，但是搜不出来，怎么办？

本文是基于实战问题的思路探讨。要说明的是：Ngram 的本质是空间换时间，可能会导致写入的延时以及存储的成倍增长，选型一定要慎重。只有高精准检索要求的场景才考虑 Ngram 分词。普通业务场景实际是容许一些数据明明存在但就是无法召回的情况的，现在主流搜索引擎Google、Bing、baidu等都肯定无法召回全部数据的。所以，还得结合业务场景进行探讨。

大数据技术前线

数据分析

2024-05-14 09:43

Kafka最全详解(6大架构原理图解)

Kafka是非常重要的消息中间件，是构建高并发的基石，也是大厂重点考察内容，下面我就全面来详解Kafka

大数据技术前线

数据分析

2024-05-14 09:32

Kafka最全详解(6大架构原理图解)

Kafka是非常重要的消息中间件，是构建高并发的基石，也是大厂重点考察内容，下面我就全面来详解Kafka

大数据技术前线

数据分析

2024-05-13 11:17

Flink CDC 3.0.1，这次能雄起不？

那么今天这篇文章，咱就针对上次测试CDC 3.0.0时，遇到的3大槽点进行一一验证。槽点1：不能以 on yarn 的集群方式运行；槽点2：说好的可以兼容 Flink 1.15，但实测不行；槽点3：用本地模式运行时，只能同步历史数据，增量变化数据感知不到。

大数据技术前线

数据分析

2024-05-10 09:19

从离线到实时：无锡锡商银行基于 Apache Doris 的数据仓库演进实践

作者：武基鹏，无锡锡商银行大数据技术经理编辑整理：SelectDB 技术团队导读：为实现数据资产的价值转化以及全面数字化、智能化的风险管理，无锡锡商银行大数据平台经历从 Hive 离线数据仓库到 Apache Doris 实时数据仓库的演进，目前已接入数百张实时表、上百数据服务接口，接口 QPS 达到数百万级别，解决了离线数据仓库时效性不足、成本高昂、效率低下等问题，查询提速超 10 倍，为用

SelectDB

数据分析

2024-05-08 14:51

大模型存储实践：性能、成本与多云

大模型应用领域的迅猛发展，也推动着基础技术领域持续探索和进步。文件存储服务在 AI 基础设施中成为不可或缺的重要部分。

danny_2018

数据分析

2024-05-08 09:39

监控 Kafka，这 10 个指标请考虑！

使用消息队列可以帮助我们实现系统解耦、流量管控等功能。但使用过程中可能会遇到各种各样的问题，比如系统资源使用率高、集群节点宕机等，进而影响我们生产业务正常开展。为了不让消息队列失控，增加监控是非常必要的。今天来聊一聊 Kafka 有哪些重要的监控指标。

ITPUB社群

数据分析

2024-04-30 09:12

Elasticsearch 存储 json，天然的舒适区

如果说前两篇文章，分别用 Clickhouse(下称CK) 跟 Doris 来处理 schema-free 的 json 数据，从实测的情况来看，多少有点赶鸭子上架的味道。

大数据技术前线

数据分析

2024-04-30 09:08

实战干货｜Spark 在袋鼠云数栈的深度探索与实践

Spark 是一个快速、通用、可扩展的大数据计算引擎，本文从引擎侧和 Spark 本身两个方面来阐述Spark 在袋鼠云数栈的深度探索与实践。

数栈DTinsight

Hadoop

2024-04-26 14:23

Doris的json解决方案，能否干过Clickhouse？

带着这些对 CK 的不满跟遗憾，这一次，我们把目光挪向 Doris，看它在面对相同场景时，能不能给我们带来更多的惊喜呢？

大数据技术前线

数据分析

2024-04-26 09:40

数据源的schema老变，如何存储——(Clickhouse篇)？

Clickhouse(CK)、Doris、Elasticsearch，都支持对 json 数据的存储和查询。由于这3种数据库，在理论上都能满足当前的这个需求，那我就准备做一个系列性的测评，在摸清楚它们3，各自如何搞定这个问题的同时，也能找出最符合你胃口的方案。

大数据技术前线

数据分析

2024-04-25 09:45

懂数据还不够，重要的是拥有数据思维！

在大数据时代，数据分析的重要性毋庸置疑。但依然有很多人掌握了数据分析工具和技能，却做不好数据分析。

danny_2018

数据分析

2024-04-24 10:14

Spark跟Flink的聚合状态恢复，谁能保证精确一次性？

通过彼此的 checkpoint 来恢复数据，从最终的恢复效果来看，在没有采取其他任何辅助措施的情况下，Flink 跟 Spark 都不能实现数据的「精确一次性」。

大数据技术前线

数据分析

2024-04-24 09:28

如何使用Apache Kafka处理1亿用户的大型应用程序

Apache Kafka的架构和功能使其成为需要处理1亿或更多用户的应用程序的绝佳选择。通过有效管理高容量数据流，确保可靠性和可扩展性，并支持解耦的事件驱动架构，Kafka使应用程序能够扩展以满足庞大用户基础的需求。然而，在这种规模上利用Kafka也需要仔细的规划、监控和管理，以解决相关挑战并确保系统的弹性和性能。

大数据技术前线

数据分析

2024-04-23 10:21

手把手教你实现 OceanBase 数据到 Apache Doris 的便捷迁移｜实用指南

作者 | SelectDB 技术团队作为广受认可的分布式数据库，OceanBase 已在众多企业关键业务系统中得到广泛应用。在 Apache Doris 社区，有众多用户选择基于 OceanBase 与 Apache Doris 以构建强大的数据处理与分析链路，本文将详细介绍如何便捷高效将数据从 OceanBase 迁移/同步至 Apache Doris 。实用指南00 环境准备使用

SelectDB

数据分析

2024-04-22 11:19

用户行为分析模型实践（四）—— 留存分析模型

本文详细介绍了留存分析模型的概念及基本原理，并阐述了其在产品中具体实现。针对在实际使用过程问题，探索了基于ClickHouse留存分析模型实践方案。

vivo互联网技术

数据分析

2024-04-19 11:23

2024年10款必备的数据库工具（终极指南）

对于企业而言，选择恰当的数据库工具显得尤为关键。从挑选信赖的供应商到确保系统的平稳扩张，卓越的数据库工具能助您一臂之力，实现既定目标。在本指南中，我精心筛选并深入评测了10款数据库工具，并特别为您推荐了5大优选软件，旨在助您轻松找到最适合自身需求的解决方案。

网络通信频道

数据分析

2024-04-18 11:16

Apache Paimon 成为优秀项⽬，数据湖步⼊实时新篇章

开源软件基金会 Apache Software Foundation(以下简称 ASF)正式宣布 Apache Paimon 毕业成为 Apache 优秀项目(TLP, Top Level Project)。

danny_2018

数据分析

2024-04-18 10:02

通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统

阿里云向量检索 Milvus 版已开启免费公测。您可以在E-MapReduce控制台，选择 EMR Serverless > Milvus，进入 Milvus 页面创建入门版的实例，公测期间您可以免费试用 Milvus 服务。

阿里云大数据AI技术

数据挖掘

2024-04-18 09:46

MaxCompute 近实时增全量处理一体化新架构和使用场景介绍

随着当前数据处理业务场景日趋复杂，对于大数据处理平台基础架构的能力要求也越来越高，既要求数据湖的大存储能力，也要求具备海量数据高效批处理能力，同时还可能对延时敏感的近实时链路有强需求，本文主要介基于 MaxCompute 的离线近实时一体化新架构如何来支持这些综合的业务场景，提供近实时增全量一体的数据存储和计算（Transaction Table2.0）解决方案。

阿里云大数据AI技术

数据分析

2024-04-16 12:38