IT基础架构

如何搞定一个可以支持多芯混合训练的AI集群

由于外部环境的变化,适用于大模型训练任务的 GPU 整体规模无法继续增长。这些存量 GPU 组成的集群,仍然是当前加速大模型训练的主要 AI 算力来源。同时,各类国产 AI 芯片开始大规模投入实际生产任务。在未来一段时间内,数据中心的 AI 算力将保持多种芯片并存的现象。

陶然陶然
服务器/存储
2024-04-30 09:57

非标类型导致Dubbo接口出入参异常的本质 | 得物技术

目录 一、概述 二、问题是什么? 1. DTO中声明了类型模糊的字段 2. DTO中赋值了非标集合类型数据 三、为什么会有这个问题? 1. 对端(另一个进程)不存在的类型 2. 无法通过反射实例化的类型 四、怎么处理这个问题? 1. 调整序列化方案 2. 包容它、迁就它 2.1 标准库工具类 2.2 lang3库工具类 2.3 guava库工具类 五、总结

架构师修行手册
服务器/存储
2024-04-30 09:14

以智算网络驱动行业创新,新华三构建开放生态体系

近年来,人工智能领域呈现爆发式增长,尤其在OpenAI、文心一言等大模型的不断推出,参数规模实现了飞跃式增长。同时,Character AI、谷歌Bard等应用已经逐渐渗透至日常生活和工作当中,越来越多的人开始借助AIGC工具来提升工作效率。

网络通信频道
网络通信/物联网
2024-04-28 20:34

携程多品牌融合与多端一致的前端方案实践

参照Apple、Booking和AirBnB等一众品牌在国际化的进程中始终保持品牌认知的一致性,Ctrip和Trip(以下简称为“C&T”)并驾齐驱的过程中,集团对于不同国度和不同客群的品牌效应有趋于统一的诉求。

陶然陶然
服务器/存储
2024-04-28 10:49

NameNode锁细粒度优化在B站的实践

NameNode的性能优化已经告一段落了,第一步和第二部的拆锁已经在我们的生产集群上稳定运行了一段时间,整体性能提升明显,整体RPC Queue Time相比于拆锁之前有数量级的下降,当前已经可以支持绝大多数应用场景,包括之前的描述的任务日志聚合和Flink CheckPoint 路径等场景,在接下来计划中,我们也正在考虑是否将BlockPool层锁做进一步细粒度拆分,进一步提升NameNode的性能。

架构师修行手册
服务器/存储
2024-04-28 10:46

世界知识产权日:以更多架构核心专利,推进 SDS 产业创新创造

  今天是第 24 个世界知识产权日,今年世界知识产权日活动的主题是:“知识产权和可持续发展目标:立足创新创造,构建共同未来。”  这也正是 XSKY 在软件定义存储领域的目标之一。以“数据常青”为使命的 XSKY,始终立足于软件定义存储行业,坚持“创新架构”深入研发,引领行业的发展。  全新专利 提升数据处理效率  就在近日,XSKY 刚刚获得了一款在星海极速全共享架构(XSEA)领域的一款发明

丸喵喵
服务器/存储
2024-04-26 11:09

虚假繁荣?GenAI光鲜背后并未促进IT支出大幅增长

研究表明,支持生成式人工智能(GenAI)的基础设施支出正在快速增长,英伟达的收入和利润飙升就清楚地证明了这一点。但全球在数据中心硬件上的支出并没有发生太大变化。这似乎是违反人们直觉的一个悖论。

陶然陶然
服务器/存储
2024-04-26 10:20

IT风向标:液冷技术创新赋能数据中心绿色发展

近日,ITPUB举办了主题为《先进技术助力数据中心高效算力与绿色发展》的IT风向标系列线上沙龙。本期沙龙,科华数据液冷技术高级经理张海舟、新华三集团云与计算存储产品线解决方案部总监周弘立两位专家深入剖析了液冷作为数据中心先进技术所面临的挑战与未来的机遇。

陶然陶然
服务器/存储
2024-04-26 10:19

分布式架构最全详解(万字图文总结)

分布式架构是大型网站的必经之路,也是架构师的必备技能,掌握好分布式架构非常重要,下面我就全面来详解分布式

张哥说技术
服务器/存储
2024-04-26 09:26

服务于金融新核心系统 XSKY星辰天合与中电金信完成产品兼容认证

  近日,北京星辰天合科技股份有限公司(简称:XSKY星辰天合)与中电金信软件有限公司(简称:中电金信)完成产品兼容性认证,星辰天合的企业级分布式统一数据平台 XEDP 符合金融级数字底座"源启”(2.0版)技术规范,满足生产级需求。  金融级数字底座“源启”,是中国电子依托全栈自主计算产业链,采用新一代技术架构,为金融等重点行业打造的数字化新型基础设施,由基础运行支撑平台,数字构建平台

丸喵喵
服务器/存储
2024-04-25 16:14

AIGC在京东广告创意的技术应用

电商广告图片不仅能够抓住消费者的眼球,还可以传递品牌核心价值和故事,建立起与消费者之间的情感联系。然而现有的广告图片大多依赖人工制作,存在效率和成本的限制。尽管最近AIGC技术取得了卓越的进展,但其在广告图片的应用还存在缺乏卖点信息、难以规模化和个性化以及不利于卖点展示等问题。

陶然陶然
服务器/存储
2024-04-25 15:18

我们在顺序消息和事务消息方面的实践

最近团队内部在RocketMQ的业务实践上有一些心得,想给大家分享一下,首先转转这边是有架构团队自研的ZZMQ的,所以我们自然而然的用的ZZMQ,考虑到受众人群,开篇会先讲开源版本的一些基础知识,然后从顺序消息和事务消息2个炽手可热的话题上逐渐转入到与ZZMQ的比较,希望可以帮助到大家绕过"坑"。

架构师修行手册
服务器/存储
2024-04-25 09:55

商品上新业务状态机接入实践 | 得物技术

我们通过策略模式将不同商品来源渠道的业务逻辑解耦,保留共性,各自实现自己的差异化逻辑,为未来的业务需求变更提供扩展性;通过状态机的引入明确和规范了新品流程中的状态流转,确保状态正确、合法地流转,同时为未来的业务流程的变更打下坚实的基础。 本次改造一方面解决了目前实现中的顽疾,降低了现有代码的上手难度,另一方面也兼顾了开发效率,后续不管是新增来源渠道或是修改业务流程,都可以保障代码修改范围的可控、可测,也不会增加额外的工作量,能够更有效、更安全稳定地支撑业务

ITPUB社群
服务器/存储
2024-04-25 09:52

B站下行CDN架构的探索与应用

B站的下行CDN旧架构如下图所示,可以看到边缘CDN节点与中心调度服务有紧密协作,简单说是先由调度服务进行流量调度(负责均衡的调度到每个网关组件节点),再由回源组件进行集群内的回源收敛,最终到对应的回源节点进行回源。随着业务体量的增加,这种模式所带来的风险也不断的被暴露出来。

架构师修行手册
服务器/存储
2024-04-25 09:47

通过示例理解 MapReduce | 系统设计

尽管对于大多数现代大数据批处理任务来说,Spark取代了MapReduce,但理解MapReduce仍然很重要,因为它为理解这些强大工具的工作原理提供了坚实的基础。

带你聊技术
服务器/存储
2024-04-25 09:36