Skip to content

KaggleBench是一个用于评价可视化推荐效果的公开benchmark。其数据来源是数据分析网站Kaggle上的数据集及其对应的数据可视化结果。Benchmark总共包含18个数据集,每个数据集对应一个有序的可视化结果。

Notifications You must be signed in to change notification settings

DASLab-IDA/KaggleBench

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 

Repository files navigation

KaggleBench

介绍

这是一个用于评价可视化推荐效果的公开benchmark。其数据来源是数据分析网站Kaggle上的数据集及其对应的数据可视化结果。我们利用收集的数据集及其对应的来自不同用户的可视化结果,以及不同用户对每个可视化结果的投票,构造了一系列有序的可视化,作为每个数据集的期望结果。Benchmark总共包含18个数据集,每个数据集对应一个有序的可视化结果。同时,我们也将收集的原始的来自不同用户的可视化结果记录并公开vengeji/vizrec_bench: benchmark dataset for visualization recommendation (github.com)。

目录结构

对每个数据集,它包含以下部分内容:

  1. 原始数据文件,airplane_crashes_drop_unused_cols.csv,但由于文件大小限制,我们将其保存到了别处,共约6.7GB
  1. 从Kaggle上收集的数据分析记录,位于目录/notebooks下

  2. 收集的数据分析记录中提取的可视化结果,位于目录/raw_json下

  3. 合并后的有序的可视化结果,保存于airplane_crashes.json中

  4. 数据表的列名以及对应的列类型(对应于pandas的数据类型) 目录结构

benchmark_manager

benchmark_manager中包含对benchmark的处理代码。主要有对数据文件的清洗,可视化的过滤与合并,以及一系列评估指标。manage.py可直接执行并查看在benchmark上的评估结果。

执行方式

  1. 进入benchmark_manager目录,执行命令python manage.py

  2. 待所有benchmark中18个数据集处理完成后即可看到结果(处理需要依赖VizGrank的代码)

输入图片说明

Citation

Qianfeng Gao, Zhenying He, Yinan Jing, Kai Zhang, and X. Sean Wang. 2021. VizGRank: A Context-Aware Visualization Recommendation Method Based on Inherent Relations Between Visualizations. In Database Systems for Advanced Applications: 26th International Conference, DASFAA 2021, Taipei, Taiwan, April 11–14, 2021, Proceedings, Part III. Springer-Verlag, Berlin, Heidelberg, 244–261. https://doi.org/10.1007/978-3-030-73200-4_16

About

KaggleBench是一个用于评价可视化推荐效果的公开benchmark。其数据来源是数据分析网站Kaggle上的数据集及其对应的数据可视化结果。Benchmark总共包含18个数据集,每个数据集对应一个有序的可视化结果。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages