这是一个用于评价可视化推荐效果的公开benchmark。其数据来源是数据分析网站Kaggle上的数据集及其对应的数据可视化结果。我们利用收集的数据集及其对应的来自不同用户的可视化结果,以及不同用户对每个可视化结果的投票,构造了一系列有序的可视化,作为每个数据集的期望结果。Benchmark总共包含18个数据集,每个数据集对应一个有序的可视化结果。同时,我们也将收集的原始的来自不同用户的可视化结果记录并公开vengeji/vizrec_bench: benchmark dataset for visualization recommendation (github.com)。
对每个数据集,它包含以下部分内容:
- 原始数据文件,airplane_crashes_drop_unused_cols.csv,但由于文件大小限制,我们将其保存到了别处,共约6.7GB
-
百度网盘: https://pan.baidu.com/s/1Olmoi6hx6tH7A-jXT0DGNw?pwd=nc3m 提取码: nc3m
-
从Kaggle上收集的数据分析记录,位于目录/notebooks下
-
收集的数据分析记录中提取的可视化结果,位于目录/raw_json下
-
合并后的有序的可视化结果,保存于airplane_crashes.json中
benchmark_manager中包含对benchmark的处理代码。主要有对数据文件的清洗,可视化的过滤与合并,以及一系列评估指标。manage.py可直接执行并查看在benchmark上的评估结果。
-
进入benchmark_manager目录,执行命令python manage.py
-
待所有benchmark中18个数据集处理完成后即可看到结果(处理需要依赖VizGrank的代码)
Qianfeng Gao, Zhenying He, Yinan Jing, Kai Zhang, and X. Sean Wang. 2021. VizGRank: A Context-Aware Visualization Recommendation Method Based on Inherent Relations Between Visualizations. In Database Systems for Advanced Applications: 26th International Conference, DASFAA 2021, Taipei, Taiwan, April 11–14, 2021, Proceedings, Part III. Springer-Verlag, Berlin, Heidelberg, 244–261. https://doi.org/10.1007/978-3-030-73200-4_16