近日,威廉希尔亚洲公司交叉研究中心汪云海教授带领的团队在大数据可视分析方向上,围绕大规模时序数据交互式渐进可视化、图表自动配色、复杂图布局等课题有三项研究成果分别被数据库领域顶级学术会议ACM SIGMOD、人机交互领域顶级会议ACM SIGCHI、数据可视化领域顶级期刊IEEE TVCG接收,第一作者单位均为威廉希尔亚洲公司,其中SIGMOD论文是威廉希尔亚洲公司首次在该会议发表论文。
图1 本文提出方法的系统整体架构示意图
第一项工作《OM3:An Ordered Multi-level Min-Max Representation for Interactive Progressive Visualization of Time Series》被数据库领域顶级会议ACM SIGMOD 2023(International Conference on Management of Data)接收,这是威廉希尔亚洲公司首次在该会议中发表论文。该项工作的研究主题是大规模时序时序数据交互式可视化。当面对大规模时序数据存储在云端数据库中的场景时,现有的方法或者技术存在两个问题:数据查询的延时太高,导致其难以为用户提供流畅的交互体验;可视化结果结果不准确,导致用户对数据的理解出现偏差。为了解决上述大规模时序数据可视化存在的问题,本文创新性地提出了基于最大最小树结构的时序数据表示方式OM3和基于树结构的增量查询可视化生成方法。两者相结合不仅能够渐进式生成准确的可视化,而且可以提供多种流畅的交互方式。定量评估表明,本文提出的方法能够在保证可视化结果完全准确的前提下,大幅提高可视化生成的速度和交互的流畅性。在超过10亿规模的数据集下,本文提出的方法比当前最先进的方法快接近1000倍。本文由汪云海教授和其硕士生王玉春、博士生陈昕、博士生赵跃共同完成。合作学者包括美国哥伦比亚大学的Eugene Wu教授、香港中文大学的Chi-Wing Fu教授、加拿大约克大学的Xiaohui Yu教授。
图2 不同颜色高亮方法针对同一多类散点图的可视化结果
第二项工作《Interactive Context-Preserving Color Highlighting for Multiclass Scaterplots》被人机交互领域顶级会议 ACM SIGCHI 2023 (The ACM Conference on Human Factors in Computing Systems ) 接收。论文所关注的问题是交互可视化中长期存在的一个open problem:高亮部分数据时其余颜色的临时消失问题。在多类别数据可视化结果的交互式探索过程(如刷选)中,现有的颜色高亮方法通常是将非关注区域的颜色变为灰色,或改变颜色亮度、透明度等可视化属性,导致关注点周围上下文信息部分甚至全部损失,如图2(a-c),增加了用户交互探索数据的难度。针对此问题,本文提出了上下文保持的多类别数据可视化动态着色方法(Demo网址:https://palettailor.github.io/highlighting/demo/),在用户交互式选择过程中我们的方法除了实现目标区域的高亮效果外,同时保持了其他区域中类的可分离度及颜色变化间的一致性,提升了交互过程的流畅度。大规模的在线用户实验结果,充分验证了我们方法的有效性。通过简单的拓展,该方法可推广到其它图表,如折线图和直方图等。本文由汪云海教授指导,第一作者是博士生卢克成,合作教师包括美国印第安纳大学的Khairi Reda教授和德国康斯坦茨大学的Oliver Deussen教授。
图3 不同图布局方法针对同一数据的可视化结果
第三项工作《Force-Directed Graph Layouts Revisited: A New Force Based on the T-Distribution》被IEEE TVCG (IEEE Transactions on Visualization and Computer Graphics)接收。该工作的研究主题是大规模图数据可视化布局方法,该工作提出的t-FDP模型不仅解决了力导向布局结构保持差的问题,还将布局速度提高了1-2个数量级。图数据常用于表示实体之间的关系,广泛存在于人们的日常生活中,图可视化是分析图数据的重要手段之一。近年来,图数据的规模不断增加,如何为大规模图数据快速高效地生成高质量图布局结果是一个亟待解决的问题。在大规模图数据场景下,现有的图可视化布局技术在布局质量和布局效率上均存在不足。为解决这两个问题,本文提出了一种新的力导向模型t-FDP,并引入了一种高效近似求解方法。该模型不仅能够为大多数图数据生成高质量布局结果,而且大幅度提高了大规模图数据下的布局效率。定量评估结果表明,t-FDP模型在邻居结构保持方面具有显著优势,同时能较好地保持全局结构和类簇结构,且在其他可读性和美观性评价方面与现有方法相当或更优。在布局效率方面,本文近似方法的CPU版本在大规模图数据上比现有图布局方法快一个数量级,GPU版本则再快一个数量级。此外,本文还通过两类扩展应用展示了新模型的灵活性和实用性。本文以硕士生钟发海为第一作者,由汪云海教授指导完成。合作学者包括中科院网络信息中心的张鉴研究员、德国康斯坦兹大学的Oliver Deussen教授。博士生薛明亮(本文二作)也为本文研究做出了重要贡献。本文被IEEE TVCG接收。
备注:ACM SIGMOD 会议关注数据库管理系统和数据管理技术的原理、技术和应用,是数据库领域具有最高学术地位的国际性学术会议之一。ACM SIGCHI致力于研究人机交互 (HCI) 领域,是该领域具有最高学术地位的国际性学术会议之一。IEEE TVCG期刊关注图形学与数据可视化,是图形学与数据可视化领域的顶级国际学术期刊,也是中国计算机学会推荐的A类国际学术期刊。
(文/王玉春 卢克成 钟发海 图/王玉春 卢克成 钟发海 审核/于东晓 责任编辑/徐慧 供稿单位:威廉希尔)