选择语言
< 返回主菜单

SQZ Talk | 第14期—专题报告“AI原生数据分析系统:过去,现在和未来”

2025-04-25

图片

       2025年3月28日,上海期智研究院第14期“SQZ Talk”学术论坛邀请新加坡国立大学助理教授陆遥带来专题报告“AI-Native Data Analytics Systems: Past, Present and Future”。论坛由姜建娟博士主持。



报告人简介

图片

陆遥

上海期智研究院兼职研究员

新加坡国立大学助理教授

       陆遥,新加坡国立大学计算机学院助理教授。他的研究领域涵盖人工智能和数据分析系统,在学术界和工业界都有丰富的经验。在加入新加坡国立大学之前,他曾在微软研究院雷德蒙德工作了超过十年,与必应和Azure数据平台团队合作。他于2018年在华盛顿大学获得博士学位。


专题报告

图片

       AI科学研究越来越依赖于使用大型语言模型(LLM)处理海量的异构数据集,这导致了显著的计算成本。例如,分析100TB的金融新闻进行情感分析,单个NVIDIA L4 GPU需要18年时间才能完成。多模态数据分析的挑战更为复杂。

       传统的在线分析处理(OLAP)数据库和数据仓库,如Oracle和Snowflake,长期以来已经通过索引、分布式执行和存储优化来优化批量查询处理,以支持商业智能应用。然而,AI科学研究需要能够处理更大、更复杂的数据集,同时资源有限。实现100倍的效率提升至关重要。此外,科学数据分析还面临独特的挑战,如资源异构性和由于隐私与安全限制而导致的数据孤岛。现有的OLAP系统难以高效整合LLM,通常将其视为黑盒用户定义函数(UDF),并进行最小化优化。

       本次报告探讨了下一代AI原生数据分析系统,这些系统利用一种新的数据湖屋架构,采用分离的计算和存储方式。通过集成LLM支持的查询处理和AI驱动的优化,这些系统有望提供显著更好的成本效益。尽管这些创新仍处于初期阶段,但随着AI驱动的分析和计算需求不断扩展,它们将变得至关重要。

图片


       报告结束后,科研人员们探讨了大数据时代存储技术的重要性,特别是分布式存储方案的现状和未来发展方向,存储分离架构的优势,云存储解决方案的设计与灵活性以及存储与计算结合的趋势,此外,还讨论了如何通过高性能网络和硬件配置优化存储与计算的效率等问题。

图片

李朝 SQZ 高级工程师

图片

肖笑傲 SQZ IT主管

分享到