Skip to content

Latest commit

 

History

History
1128 lines (736 loc) · 58.5 KB

Dataset.md

File metadata and controls

1128 lines (736 loc) · 58.5 KB

VizWiz Dataset Browser: A Tool for Visualizing Machine Learning Datasets https://arxiv.org/abs/1912.09336

数据集索引 https://hyper.ai/datasets

WoodScape: A multi-task, multi-camera fisheye dataset for autonomous driving https://github.com/valeoai/WoodScape

Tabler Icons:免费高质量SVG图标集 https://github.com/tabler/tabler-icons

口罩遮挡人脸数据集(Real-World Masked Face Dataset,RMFD) https://github.com/X-zhangyang/Real-World-Masked-Face-Dataset

【缺失大量行人、骑车人标注的无人驾驶数据集可能是个大问题】 https://blog.roboflow.ai/self-driving-car-dataset-missing-pedestrians/

Holopix50k: A Large-Scale In-the-wild Stereo Image Dataset https://github.com/leiainc/holopix50k

【微软最新开放研究工具/数据集锦】 https://www.microsoft.com/en-us/research/blog/research-collection-tools-and-data-to-advance-the-state-of-the-art/

Manga109:面向多媒体应用的漫画标注数据集,包括109本日本漫画,对文字框、话语文字、人脸和人身进行了标注《Building a Manga Dataset "Manga109" with Annotations for Multimedia Applications》(2020) https://www.arxiv-vanity.com/papers/2005.04425/

Mapillary街景级序列数据集:超过160万张图片,横跨六大洲30个主要城市,所有图像标注了序列信息、GPS地理定位及罗盘角信息

https://www.mapillary.com/dataset/places

【Yoga-82:(瑜伽🧘‍♀️)人体姿态细粒度分类数据集】 https://arxiv.org/abs/2004.10362

《The AVA-Kinetics Localized Human Actions Video Dataset》 https://www.arxiv-vanity.com/papers/2005.00214/

【创建自定义COCO目标检测数据集】'How to create custom COCO data set for object detection' https://github.com/Tony607/voc2coco

Google Landmarks Dataset v2 -- A Large-Scale Benchmark for Instance-Level Recognition and Retrieval https://github.com/cvdfoundation/google-landmark

MIT、DeepMind等联合发布CLEVRER数据集,推动视频理解的因果逻辑推理 http://clevrer.csail.mit.edu/ https://arxiv.org/abs/1910.01442

PyTorch implementation of MMT on TVCaption dataset - TVR: A Large-Scale Dataset for Video-Subtitle Moment Retrieval https://github.com/jayleicn/TVCaption

Python SDK for "A Dataset of Multi-Illumination Images in the Wild" (ICCV 2019) https://github.com/lmurmann/multi_illumination

A*3D: An Autonomous Driving Dataset in Challeging Environments https://github.com/I2RDL2/ASTAR-3D

PANDA: A Gigapixel-level Human-centric Video Dataset http://www.panda-dataset.com/

PySlowFast: video understanding codebase from FAIR for reproducing state-of-the-art video models. https://github.com/facebookresearch/SlowFast

SIXray:A Large-scale Security Inspection X-ray Benchmark for Prohibited Item Discovery in Overlapping Images https://github.com/MeioJane/CHR

EuroSAT : Land Use and Land Cover Classification with Sentinel-2 https://github.com/phelber/EuroSAT

【支持众多图片网站的命令行图片爬虫】

https://github.com/mikf/gallery-dl

【3RScan:大规模实景数据集,包括478个自然变化室内环境,1482个3D重建/快照,可用于基准测试新兴任务,如long-term SLAM、场景变化检测和目标实例重定位】 https://github.com/WaldJohannaU/3RScan

'电影数据集 Moviedata-10M - 1000万豆瓣电影/评论/名人/评分数据采集源码分享(内含千万电影数据集,可下载' by D.W https://github.com/csuldw/AntSpider

《Neural Data Server: A Large-Scale Search Engine for Transfer Learning Data》 https://www.arxiv-vanity.com/papers/2001.02799/

【3D着装人体数据集】 “3DPeople Dataset - The first dataset of dressed humans with specific geometry representation for clothes” https://cv.iri.upc-csic.es/

【机器人/计算机视觉相关数据集列表】 https://github.com/sunglok/awesome-robotics-datasets

【卫星图像目标检测基准】 https://github.com/dingjiansw101/AerialDetection

【HO-3D:手/目标3D姿态标注数据集】 https://www.tugraz.at/index.php?id=40231

'PolSF - PolSAR dataset on San Francisco' https://github.com/liuxuvip/PolSF

【Danbooru2018:大规模众包标记动漫图片数据集】 https://www.gwern.net/Danbooru2019#danbooru2018

面向图像自动描述系统的“图片-描述”数据集 https://github.com/google-research-datasets/conceptual-captions

Virtual KITTI 2:基于Unity游戏引擎合成的虚拟场景数据集 https://europe.naverlabs.com/research/computer-vision/proxy-virtual-worlds-vkitti-2/ https://europe.naverlabs.com/blog/announcing-virtual-kitti-2/

史上最大规模1.4亿中文知识图谱 https://github.com/ownthink/KnowledgeGraphData

【汽车信息数据集:64,000张汽车图片,标注信息包括车型、型号、年份、价格、马力、车身风格等】 https://github.com/nicolas-gervais/predicting-car-price-from-scraped-data/tree/master/picture-scraper

【暴力识别视频数据集】’Violence-Recognition-Dataset - some video with fighting and normal' https://github.com/ZHEQIUSHUI/Violence-Recognition-Dataset

'QQ音乐爬虫(with scrapy)/QQ Music Spider/49万+歌曲信息(歌曲信息、歌词、精彩评论等)数据’ https://github.com/yangjianxin1/QQMusicSpider

ObjectNet:借鉴了其他科学领域控制思想的新视觉数据集 https://objectnet.dev/

【CoreUI高品质免费图标集】 https://github.com/coreui/coreui-icons

【AVSpeech大规模音视频数据集】 https://github.com/changil/avspeech-downloader

【安全帽佩戴检测数据集】'SafetyHelmetWearing-Dataset - Safety helmet wearing detect dataset, with pretrained model' https://github.com/njvisionpower/Safety-Helmet-Wearing-Dataset

Furnishing Your Room by What You See: An End-to-End Furniture Set Retrieval Framework with Rich Annotated Benchmark Dataset https://arxiv.org/abs/1911.09299

Creative Flow+ 数据集:大型密集标注艺术视频数据集,标注包括光流、遮挡、对应关系、分割标记、法线和深度等 https://www.cs.toronto.edu/creativeflow/

Human3.6M:包含360万个人体姿态和相应图像的3D人体姿态数据集 http://vision.imar.ro/human3.6m/description.php

图像配准资源集 https://github.com/uncbiag/registration

【RoboNet:大规模多机器人学习数据集】 https://bair.berkeley.edu/blog/2019/11/26/robo-net/

【RGBD数据集列表】“List of RGBD datasets” http://www.michaelfirman.co.uk/RGBDdatasets/

【机器学习数据集大列表】“Dataset list — A list of the biggest machine learning datasets” https://www.datasetlist.com/

自然场景垃圾废物标注数据集 http://tacodataset.org/ https://github.com/pedropro/TACO

JRMOT: A Real-Time 3D Multi-Object Tracker and a New Large-Scale Dataset https://arxiv.org/abs/2002.08397

'Toolkit for ApolloScape Dataset - Api for visualize sample data, evaluation of different tasks' by ApolloScapeAuto https://github.com/ApolloScapeAuto/dataset-api

全年龄人脸数据集 https://github.com/JingchunCheng/All-Age-Faces-Dataset

面向场景解构/表示学习的多目标数据集 https://github.com/deepmind/multi_object_datasets

V3C1 视频检索数据集 https://github.com/klschoef/V3C1Analysis/blob/master/README.md

LVIS:长尾目标实例分割数据集 https://github.com/lvis-dataset/lvis-api

医疗(图像)数据集大列表 https://github.com/adalca/medical-datasets

目标姿态检测数据集与渲染方法 https://github.com/YoungXIAO13/ObjectPoseEstimationSummary

水果/蔬菜图像数据集 https://github.com/Horea94/Fruit-Images-Dataset

推荐一些数据集 https://mp.weixin.qq.com/s/kJCrCFnc3EyEhM_2-xbWDQ

大规模中英文数据集VATEX

http://vatex.org/main/index.html

面向少样本分割的1000类图片数据集

https://github.com/HKUSTCV/FSS-1000

ImageNet草图版数据集,1000类50000图片

https://github.com/HaohanWang/ImageNet-Sketch

最好用的 AI 开源数据集(涵盖计算机视觉、NLP、语音等 6 大类) https://mp.weixin.qq.com/s/epeFvNjYk8f-49xMaO1bdg

Open Images v4图像数据集单类/多类下载与可视化工具集 https://github.com/EscVM/OIDv4_ToolKit

Open Images 2019实例分割比赛 https://www.kaggle.com/c/open-images-2019-instance-segmentation/overview

Argoverse数据集:用于测试、实验和训练自驾车辆理解周围世界 https://github.com/argoai/argoverse-api

大规模野外车辆再识别数据集 https://github.com/PKU-IMRE/VERI-Wild

代码机器学习数据集列表 https://github.com/src-d/datasets

Traffic-Net:拥挤、少车、事故和车辆起火图像数据集 https://github.com/OlafenwaMoses/Traffic-Net

YouTube-8M大规模视频分割数据集升级及ICCV 2019比赛发布 https://ai.googleblog.com/2019/06/announcing-youtube-8m-segments-dataset.html

GOT-10k:通用目标追踪数据集 https://github.com/got-10k/toolkit

Open Images V4数据集降采样 https://github.com/quanhua92/downsampled-open-images-v4

Comma.ai发布的无人驾驶数据集(加利福尼亚280高速公路超过33小时通勤数据与参考代码) https://github.com/commaai/comma2k19

神经网络算法学习—获取常用训练数据集 https://bigquant.com/community/t/topic/124829

最全中华古诗词数据库, 唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词 http://shici.store/chinese-poetry/

Scale和nuTonomy发布nuScenes——拥有超过140万张图像的无人驾驶数据集 https://www.nuscenes.org/

计算机视觉数据集搜索引擎 https://www.visualdata.io/

获取Human 3.6M 3D人体姿态数据集 https://github.com/anibali/h36m-fetch

计算机视觉数据集搜索引擎 https://www.visualdata.io/

腾讯发布的大规模多标签图像数据集和预训练模型 https://github.com/Tencent/tencent-ml-images

实体识别数据集集锦 https://github.com/juand-r/entity-recognition-datasets

Open Images V6最新发布:以局部化叙事为特色 https://ai.googleblog.com/2020/02/open-images-v6-now-featuring-localized.html

史密森尼(美国博物馆)开放280万张高分辨率2D/3D图像数据:“我们无法想象人们将如何使用这些藏品,我们准备好大吃一惊了。 https://www.si.edu/openaccess

机器学习十大免费车辆图像/视频数据集 https://lionbridge.ai/datasets/250000-cars-top-10-free-vehicle-image-and-video-datasets-for-machine-learning/

医疗图像数据集大列表 https://github.com/sfikas/medical-imaging-datasets

fast.ai开放数据集 https://course.fast.ai/datasets

开放式博物馆识别挑战(ACCV 2018) http://users.cecs.anu.edu.au/~koniusz/openmic-dataset/

(IPython Notebooks)创建自己的Google图片数据集 https://github.com/fpingham/google-images-dataset

中科院发布了目标追踪数据集,1万多条视频,150万个边界框 http://got-10k.aitestunion.com/downloads https://zhuanlan.zhihu.com/p/53685015

HACS:人体行为片段/分割数据集 https://github.com/hangzhaomit/HACS-dataset

SCUT-EPT离线手写汉字数据集 https://github.com/HCIILAB/SCUT-EPT_Dataset_Release

AI 从业者都应该知道的实验数据集 https://bigquant.com/community/t/ai-%E4%BB%8E%E4%B8%9A%E8%80%85%E9%83%BD%E5%BA%94%E8%AF%A5%E7%9F%A5%E9%81%93%E7%9A%84%E5%AE%9E%E9%AA%8C%E6%95%B0%E6%8D%AE%E9%9B%86/127802?weibo&181112&L1

淋巴结切片病理图像数据集:机器学习模型新基准——比CIFAR10规模大,比imagenet规模小,可在单个GPU上训练 https://github.com/basveeling/pcam

Open Images V5发布与ICCV 2019 Open Images Challenge https://ai.googleblog.com/2019/05/announcing-open-images-v5-and-iccv-2019.html

CelebAMask-HQ:大规模人脸图像数据集,包含三万张高分辨率人脸图像(从CelebA数据集选择而来)及人脸属性分割蒙版 https://github.com/switchablenorms/CelebAMask-HQ

SLAM数据集大列表 https://github.com/youngguncho/awesome-slam-datasets

Google发布Open Images Dataset V4大规模图像数据集 https://storage.googleapis.com/openimages/web/index.html

人像matting数据集,包含34427张图像和对应的matting结果图 https://github.com/aisegmentcn/matting_human_datasets

TextVQA:基于图像中文本的视觉推理基准数据集 https://textvqa.org/

航拍图像语义分割基准数据集 https://github.com/ishann/aeroscapes

推荐个小网站,收集了好多数据集 https://www.datasetlist.com/

街景店铺(中文)牌匾图像数据集 https://github.com/chongshengzhang/shopsign

包含480个图标的开源图标集 https://github.com/akveo/eva-icons

具有多边形注释的大型街拍数据集 https://github.com/eBay/modanet

A new test set for ImageNet https://github.com/modestyachts/ImageNetV2

DeepFashion2服饰数据集 https://github.com/switchablenorms/DeepFashion2

超现实室内机器人视觉数据集 https://github.com/3dperceptionlab/therobotrix

大规模零售商品结账图像数据集 https://rpc-dataset.github.io/

Dataset and Codebase for CVPR2019 "Precise Detection in Densely Packed Scenes" https://github.com/eg4000/SKU110K_CVPR19

Hotels-50K全球酒店识别数据集,包含来自全球50,000家不同酒店的100多万张图片。许多人口贩运受害者的照片都是在酒店房间拍摄的,从图像识别酒店有挑战也很有意义。 https://github.com/GWUvision/Hotels-50K

面向城市场景行人姿态估计与跟踪的“侠盗猎车手V(GTA V)”视频数据集 https://github.com/fabbrimatteo/JTA-Dataset

This dataset contains 108,463 human-labeled and 656k noisily labeled pairs that feature the importance of modeling structure, context, and word order information for the problem of paraphrase identification. https://github.com/google-research-datasets/paws

official github for paper "CELEB-500K: A LARGE TRAINING DATASET FOR FACE RECOGNITION" https://github.com/JiajiongCao/CELEB-500K

PartNet Dataset Official Release Repo https://github.com/daerduoCarey/partnet_dataset

Info and sample codes for "NTU RGB+D Action Recognition Dataset" https://github.com/shahroudy/NTURGB-D

【无人机检测/跟踪图像/视频数据集】

https://github.com/VisDrone/VisDrone-Dataset

「Bald Classification Dataset」的秃头分类数据集,里面包含了 20 多万张图像,共 1.3 G https://www.kaggle.com/ashishjangra27/bald-classification-200k-images-celeba/version/1

【DocBank:文档布局分析基准数据集】 https://github.com/doc-analysis/DocBank

【MSeg:多域语义分割复合数据集】《MSeg: A Composite Dataset for Multi-domain Semantic Segmentation》 https://github.com/mseg-dataset

RarePlanes:面向飞机检测的真实+合成的卫星遥感图像数据集 https://github.com/aireveries/RarePlanes

【MetFaces Dataset:艺术作品人脸数据集】 https://github.com/NVlabs/metfaces-dataset

【3D人/场景互动数据集】 https://github.com/ZheC/GTA-IM-Dataset

【整体大规模视频理解数据集】“Holistic Video Understanding Dataset” https://github.com/holistic-video-understanding/HVU-Dataset

VGG-Sound视听多模态数据集:从YouTube视频中提取的带有音频的小短片 https://github.com/hche11/VGGSound

zhvoice: Chinese voice corpus. 中文语音语料,语音更加清晰自然,包含8个开源数据集,3200个说话人,900小时语音,1300万字。 https://github.com/KuangDD/zhvoice

【DriveSeg:动态驾驶场景分割数据集】 https://agelab.mit.edu/driveseg

清理版MS-Celeb-1M人脸库 https://github.com/EB-Dodo/C-MS-Celeb

(CVonline)视觉/图像数据集大列表 http://homepages.inf.ed.ac.uk/rbf/CVonline/Imagedbase.htm

VoxConverse视听说话人分散数据集:从YouTube视频中提取的,由超过50小时的多说话人语音片段组成(说话人分散(Speaker diarisation)指根据说话人身份将输入音/视频流分段的过程 http://www.robots.ox.ac.uk/~vgg/data/voxconverse/

DanbooRegion: An Illustration Region Dataset (ECCV 2020) https://github.com/lllyasviel/DanbooRegion

FineGym: A Hierarchical Video Dataset for Fine-grained Action Understanding https://github.com/SDOlivia/FineGym

Code for the CVPR 2020 paper "OASIS: A Large-Scale Dataset for Single Image 3D in the Wild" https://github.com/princeton-vl/oasis

The Unsplash Dataset:Unsplash网站(免费)图片数据集,包括200万+图片及其关键字、查询词等 https://github.com/unsplash/datasets

VoxConverse说话人分散数据集,由YouTube视频中提取的超过50小时的多说话人语音片段组成 https://github.com/joonson/voxconverse

谷歌开源 TFRecorder,几行代码即可高效创建数据集 https://www.oschina.net/news/117843/google-opensources-tfrecorder

Halpe Full-Body Human Keypoints and HOI-Det dataset:Halpe人体全身关键点和人-目标交互检测数据集

https://github.com/Fang-Haoshu/Halpe-FullBody

MovieNet:电影理解综合数据集,1100部电影,60K预告片,1.1M标注框

http://movienet.site/

Poetry - 非常全的古诗词数据,收录了从先秦到现代的共计85万余首古诗词 https://github.com/Werneror/Poetry

汉字拆字 - 汉字拆字库,可以将汉字拆解成偏旁部首,在机器学习中作为汉字的字形特征 https://github.com/howl-anderson/hanzi_chaizi

'开源中文数据集分类索引' https://github.com/luge-ai/luge-ai

StanfordExtra:12k标记狗图片实例,带2D关键点和分割 https://github.com/benjiebob/StanfordExtra

NBA2K数据集,从NBA2K19游戏引擎采集的RGB 图像、三角网格、纹理贴图、三维人体姿态和相机投影矩阵 https://github.com/luyangzhu/NBA2K-dataset

Fashionpedia API:Fashionpedia时尚数据集的Python API https://github.com/KMnP/fashionpedia-api

OpenTraj:人员轨迹预测数据集基准集 https://github.com/crowdbotp/OpenTraj

SpaceNet 7多时相城市发展挑战:数据集发布 https://medium.com/the-downlinq/the-spacenet-7-multi-temporal-urban-development-challenge-dataset-release-9e6e5f65c8d5

【LogoDet-3K: 用于Logo检测的大规模图像数据集】 https://github.com/Wangjing1551/LogoDet-3K-Dataset

语料库 https://github.com/wainshine

FiftyOne: 开源数据集工具,可以快速搜索、排序、过滤、可视化、分析和改进数据集

https://github.com/voxel51/fiftyone

A benchmark of UCAS-AOD dataset. https://github.com/ming71/UCAS-AOD-benchmark

场景文字图像超分辨率数据集 https://github.com/JasonBoy1/TextZoom

图像数据集探索性数据分析工具

https://github.com/Soongja/basic-image-eda

COCO-dataset-explorer:用来浏览和可视化COCO数据集的Streamlit工具

https://github.com/i008/COCO-dataset-explorer

【宜家家居装配数据集】’IKEA Assembly Dataset' https://github.com/IkeaASM/IKEA_ASM_Dataset

IDT:图像数据集快捷创建工具 https://github.com/deliton/idt

KITTI-360无人驾驶数据集,包含320k图像和100k激光扫描数据 https://github.com/autonomousvision/kitti360Scripts

CurveLanes Dataset:车道检测基准数据集,包含150,000个车道图像,用于困难场景如车道检测中的曲线和多车道等 https://github.com/xbjxh/CurveLanes

地标检测模型集&Demo

https://tfhub.dev/google/collections/landmarks/1

MedMNIST:医学图像分类数据集 https://github.com/MedMNIST/MedMNIST

COCO minitrain:小型COCO训练数据集 https://github.com/giddyyupp/coco-minitrain

Hub:用PyTorch和TensorFlow方便快捷访问和管理数据集

https://github.com/activeloopai/Hub

Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene Understanding https://arxiv.org/abs/2011.02523

fire-detect-yolov4 - fire-smoke-detection-dataset and fire-detection-yolov4-5 (with xml annotations),火灾-烟雾 yolov4 yolov5检测数据集 https://github.com/gengyanlei/fire-detect-yolov4

开源的点状云图数据集: PointCloudDatasets,每个形状包含均匀采样的 2048 个点。 https://github.com/AnTao97/PointCloudDatasets

Objectron Dataset:以对象为中心的短视频剪辑数据集,每个视频剪辑带有 AR 会话元数据,包括摄像机姿态和稀疏点云,包含为每个对象手动标记的3D包围框,整个数据集包含15K标记视频剪辑和超过4M 从各地搜集的多样性图像标记样本 https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html

PubTabNet:大规模表格图像识别数据集,包含568k+表格数据图像,用对应的HTML进行标记 https://github.com/ibm-aur-nlp/PubTabNet

TJU-DHD:面向目标检测和行人检测的高分辨率数据集 https://github.com/tjubiit/TJU-DHD

HouseExpo:大规模2D室内布局数据集 https://github.com/TeaganLi/HouseExpo

The MTA Dataset:大型多目标多摄像机跟踪数据集,包含2800+个人身份,6个摄像头,每摄像头100+分钟的视频长度(一天一夜)

Toronto-3D: 面向城市道路语义分割的大规模移动激光雷达数据集 https://github.com/WeikaiTan/Toronto-3D

The Hypersim Dataset:Apple首次发布公开数据集——面向室内场景整体理解的真实感合成数据集,74K高分辨率HDR计算机生成的逼真室内场景图像,1.9TB像素级标记 https://github.com/apple/ml-hypersim

OpenViDial:大规模多模态对话数据集 https://github.com/ShannonAI/OpenViDial

Fashionpedia Dataset:时尚百科数据集,包括48825张服饰图像,对服饰进行了详尽分割,对分割类别进行细粒度的标记 https://github.com/cvdfoundation/fashionpedia

OrigamiSet1.0: Two New Datasets for Origami Classification and Difficulty Estimation https://github.com/multimedia-berkeley/OriSet

BDD100K:面向异构多任务学习的多样化驾驶数据集 https://github.com/bdd100k/bdd100k

Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels https://arxiv.org/abs/2101.05022 https://github.com/naver-ai/relabel_imagenet

MaskedFace-Net:基于FFHQ数据集的正确/错误佩戴口罩人脸图像数据集 https://www.sciencedirect.com/science/article/pii/S2352648320300362?via%3Dihub

Hypersim: A Photorealistic Synthetic Dataset for Holistic Indoor Scene Understanding https://github.com/apple/ml-hypersim

SOREL-20M: A Large Scale Benchmark Dataset for Malicious PE Detection https://github.com/sophos-ai/SOREL-20M

Source code and dataset for EMNLP 2020 paper "MAVEN: A Massive General Domain Event Detection Dataset". https://github.com/THU-KEG/MAVEN-dataset

机器学习/深度学习数据集集锦

https://sebastianraschka.com/blog/2021/ml-dl-datasets.html

Dataset Management Framework (Datumaro):数据集管理框架,提供用于构建、转换和分析数据集的工具集

intel出品,可以用于竞赛数据集管理 https://github.com/openvinotoolkit/datumaro

gopup - 数据接口:百度、谷歌、头条、微博指数,宏观数据,利率数据,货币汇率,千里马、独角兽公司,新闻联播文字稿,影视票房数据,高校名单,疫情数据… https://github.com/justinzm/gopup

clothing-dataset:包含20类5000多张图片的服饰数据集 https://github.com/alexeygrigorev/clothing-dataset

IDT:图像数据集快捷创建工具

https://github.com/deliton/idt

计算机视觉数据集搜索引擎

https://datasets.bifrost.ai/

机器学习研究数据集列表 https://www.wikiwand.com/en/List_of_datasets_for_machine-learning_research

DoTA:无人驾驶异常检测数据集 https://github.com/MoonBlvd/Detection-of-Traffic-Anomaly

Placepedia:带有多方面标注的大规模位置图像数据集 github.com/hahehi/placepedia

Contract Understanding Atticus Dataset(CUAD):法律合同理解基准数据集,涉及数百份法律合同,13,000多个标注,由法律专家手工标注 github.com/TheAtticusProject/cuad/

包含130k张柯基图片的数据集,以及用这些数据训练的StyleGAN2-ADA github.com/seawee1/Did-Somebody-Say-Corgi

Conceptual 12M:包含约1200万图像文本对的数据集,用于视觉和语言预训练

github.com/google-research-datasets/conceptual-12m

ADE20K Dataset:ADE20K场景语义理解数据集 github.com/CSAILVision/ADE20K

面向社会公益领域的统计/机器学习研究数据集列表 github.com/shreyashankar/datasets-for-good

【Kinetics datasets:大规模、高质量的URL链接数据集,多达650,000段视频剪辑,涵盖400/600/700人类行为类】 github.com/cvdfoundation/kinetics-dataset

Real-World Masked Face Dataset,口罩人脸数据集

https://github.com/X-zhangyang/Real-World-Masked-Face-Dataset

ffhq-features-dataset:Flickr-Faces-HQ (FFHQ)图像数据集性别、年龄和情绪扩展信息集 github.com/DCGM/ffhq-features-dataset

Awesome-Video-Datasets:视频数据集大列表 github.com/xiaobai1217/Awesome-Video-Datasets

DeformingThings4D:包含1972个动画序列的合成数据集,涵盖31种类人和动物物种 github.com/rabbityl/DeformingThings4D

VPCD:面向人物聚类的多模态电视节目和电影数据集 https://www.robots.ox.ac.uk/~vgg/data/Video_Person_Clustering/

China_House - 中国买房相关资料和项目整理 github.com/beiliangshizi/China_House

FLORES-101数据集:多对多机器翻译系统评估数据集,涵盖来自世界各地的101种语言 https://github.com/facebookresearch/flores

PIC:以人为中心的关系分割数据集 http://picdataset.com/challenge/task/download/

ARC浮世绘人脸数据集 http://codh.rois.ac.jp/ukiyo-e/face-dataset/

Brno Urban Dataset:自动驾驶汽车和自主机器人的导航和定位数据集 github.com/Robotics-BUT/Brno-Urban-Dataset

musescore-dataset:musescore.com乐谱数据集 github.com/Xmader/musescore-dataset

IMGUR5K:手写英文数据 github.com/facebookresearch/IMGUR5K-Handwriting-Dataset

CVPR2021多场景大规模视频语义分割数据集 github.com/sssdddwww2/vspw_dataset_download

Open Images扩展数据集中更具包容性的人物标注 https://ai.googleblog.com/2021/06/a-step-toward-more-inclusive-people.html

WebVid Dataset:大规模视频-文本数据集,包含从网上抓取的1000万对视频-文本数据 github.com/m-bain/webvid

Detecting Underwater Objects (DUO):水下目标检测数据集 github.com/chongweiliu/DUO

GitHub 上一款开源的企业信息查询工具,可用于更加快速的获取企业信息,减少收集的工作量。可查询到企业 ICP 备案号、网站、APP 信息、子公司的基本信息、供应商信息等内容。 github.com/wgpsec/ENScan

brain-tumor-mri-dataset:脑部肿瘤MRI数据集 github.com/guillaumefrd/brain-tumor-mri-dataset

ASPset-510:用于训练和评估3D人体姿态估计模型的大规模视频数据集 github.com/anibali/aspset-510

CatMeows:猫叫开放数据集,由440段录音组成,包含了猫在不同场景发出的喵喵声 https://zenodo.org/record/4008297#.YM2anjHitQ2

OpenRooms Dataset Release:开放房间数据集 github.com/ViLab-UCSD/OpenRooms

大规模卫星遥感-地图数据集 github.com/taesungp/larger-google-sat2maps-dataset

Awesome collections on DataHub:高质量数据集大列表 github.com/datasets/awesome-data

ONCE:带有2D和3D标注的大规模无人驾驶数据集 once-for-auto-driving.github.io/index.html

UDIS-D:无监督深度图像拼接数据集 github.com/nie-lang/UnsupervisedDeepImageStitching

HM3D:面向具身人工智能研究的3D扫描数据集 https://ai.facebook.com/blog/introducing-the-habitat-matterport-3d-research-data-set-for-training-embodied-ai

Ground Mobile Robot Perception Dataset:地面移动机器人感知数据集 github.com/hlwang1124/GMRPD

HC-STVG:以人为中心的时空视频数据集,只关注视频中的人 github.com/tzhhhh123/HC-STVG

iMiGUE:面向微动作理解和情感分析的视频数据集 github.com/linuxsino/iMiGUE

TrajAir:通用航空轨迹数据集 https://theairlab.org/trajair/

Multi-HT100M:HowTo100M数据集的多语言描述数据

github.com/berniebear/Multi-HT100M

Habitat:3D空间研究数据集 github.com/matterport/habitat-matterport-3dresearch

3D重建/3D深度学习数据集列表 github.com/sunbuny/3D-Recon_3D-DL_Datasets

CO3D数据集工具包 github.com/facebookresearch/co3d

Animal Pose dataset:动物姿态数据集 github.com/noahcao/animal-pose-dataset

“Common Sense AI”常识数据集

https://arxiv.org/abs/2102.12321 https://www.marktechpost.com/2021/07/20/researchers-from-ibm-mit-and-harvard-announced-the-release-of-its-darpa-common-sense-ai-dataset-along-with-two-machine-learning-models-at-icml-2021/

ONCE Benchmark:无人驾驶3D目标检测数据集 github.com/PointsCoder/ONCE_Benchmark

细粒度情感数据集 github.com/jerbarnes/finegrained_data

PASTIS:全景农业卫星语义分割农业地块时序数据集 github.com/VSainteuf/pastis-benchmark

Language-annotated Abstraction and Reasoning Corpus (LARC):带语言标注摘要和推理语料库 github.com/samacqua/LARC

GMOT-40 Benchmark:通用多目标追踪数据集

github.com/Spritea/GMOT40

遥感数据集大列表 github.com/zhangbin0917/Awesome-Remote-Sensing-Dataset

EasyCom: 面向嘈杂环境通信算法的增强现实数据集 github.com/facebookresearch/EasyComDataset

Multi-Modal-CelebA-HQ:大规模多模态人脸图像数据集,包括30,000张选自CelebA-HQ的高分辨率人脸图像,每个图像都有高质量的分割掩膜、草图、描述性文本和具有透明背景的图像 github.com/IIGROUP/Multi-Modal-CelebA-HQ-Dataset

建筑分布数据集 https://sites.research.google/open-buildings/

CLIP 数据集 #TODO

https://ai.google.com/research/ConceptualCaptions/download

NLPDataSet - 个人整理的一些数据集 github.com/liucongg/NLPDataSet

fast.ai发布的数据集/档案快速下载、验证和提取库 https://fastdownload.fast.ai/

Disfl-QA:针对问答上下文不流畅的数据集 github.com/google-research-datasets/Disfl-QA

Mapillary Street-level Sequences:大规模长时道路级地点识别数据集 github.com/mapillary/mapillary_sls

Zillow Indoor Dataset (ZInD):室内场景视觉数据集 github.com/zillow/zind

D3D-HOI: 视频中动态3D人-物交互数据集 github.com/facebookresearch/d3d-hoi

LVIS:面向大词表实例分割(长尾目标识别)的数据集 https://www.lvisdataset.org/

ETH-MS localization dataset:面向视觉定位尤其是AR场景的数据集 github.com/cvg/visloc-iccv2021

面向高层次叙事结构长程理解研究的压缩电影数据集(CMD)与挑战 https://www.robots.ox.ac.uk/~vgg/research/condensed-movies/challenge.html

AP-10K:真实场景动物姿态估计基准 github.com/AlexTheBad/AP-10K

SHIFT15M:具有分布偏移的多目标大规模时尚数据集 github.com/st-tech/zozo-shift15m

MOD: 大规模开放域多模态对话数据集 github.com/lizekang/DSTC10-MOD

DataCLUE: 国内首个以数据为中心的AI测评(含模型分析报告) github.com/CLUEbenchmark/DataCLUE

LAION-400M:包含4亿样本世界上最大的公开图像-文本对数据集,数据来源于 Common Crawl 在 2014 - 2021 年间随机抓取的网页。 https://laion.ai/laion-400-open-dataset/

谷歌基于维基百科开发的数据集WIT(Wikipedia-Based Image Text),是一个通过从维基百科文章及其图像链接中提取多个与图像相关的文本,在过滤后得到的高品质的图像文本集。 WIT中包含有3750万个图像-文本实例,其中包括1150万个跨108种语言的图像。 github.com/google-research-datasets/wit

Goose Dataset:1000张加拿大鹅图片数据集 github.com/steggie3/goose-dataset

PASS: 大规模图像数据集,不包括任何人、人体部位或其他个人身份信息,可用于高质量预训练,同时大大减少隐私问题 github.com/yukimasano/PASS

WenetSpeech:10000小时的中文语音识别数据集 github.com/wenet-e2e/WenetSpeech

语音识别数据集列表

github.com/double22a/speech_dataset

Foodi-ML dataset:食品饮料和百货图像多语言数据集 github.com/Glovo/foodi-ml-dataset

GoEmotions:细粒度情感分类数据集 github.com/google-research/google-research/tree/master/goemotions

5000+数据集 https://paperswithcode.com/datasets

【Simulated garment dataset for virtual try-on:面向虚拟试穿的模拟服装数据集】 github.com/isantesteban/vto-dataset

《PartImageNet: A Large, High-Quality Dataset of Parts》 github.com/TACJu/PartImageNet

Met dataset:艺术品领域大规模实例级识别数据集 github.com/nikosips/met

KgCLUE: 大规模中文开源知识图谱问答 github.com/CLUEbenchmark/KgCLUE

用动漫图片训练深度模型资源集 github.com/STomoya/animeface

WeSing:高质量普通话演唱语料库 github.com/zpcoftts/wesing

多语言口语语料库 https://mlcommons.org/en/multilingual-spoken-words/

人工语音数据集 https://mlcommons.org/en/peoples-speech/

IKEA 3D Assembly Dataset:宜家3D家具组装数据集 github.com/IKEA/IKEA3DAssemblyDataset

ImgFlip575K Memes Dataset - 575K memes from ImgFlip github.com/schesa/ImgFlip575K_Dataset

BOVText-Benchmark:面向视频文本识别的大规模双语开放世界数据集 github.com/weijiawu/BOVText-Benchmark

Incidents1M: a large-scale dataset of images with natural disasters, damage, and incidents https://arxiv.org/abs/2201.04236 http://incidentsdataset.csail.mit.edu/

Opencpop:公开可用的高质量中文普通话歌唱语料库,为歌唱声音合成(SVS)系统设计 https://wenet.org.cn/opencpop/

Dolt:面向数据的版本控制,数据的Git github.com/dolthub/dolt

TalkingHead-1KH:由YouTube视频组成的“说话头部”数据集

github.com/deepimagination/TalkingHead-1KH

InfiniteRep:适合健身和理疗应用的视觉数据集 github.com/toinfinityai/InfiniteRep

Objectron Dataset:以对象为中心的短视频剪辑数据集,每个视频剪辑带有 AR 会话元数据,包括摄像机姿态和稀疏点云,包含为每个对象手动标记的3D包围框,整个数据集包含15K标记视频剪辑和超过4M 从各地搜集的多样性图像标记样本 https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html github.com/google-research-datasets/Objectron

The Abduction of Sherlock Holmes: A Dataset for Visual Abductive Reasoning https://arxiv.org/abs/2202.04800

LDPolypVideo-Benchmark:面向息肉检测的开放内窥镜视频数据集 github.com/dashishi/LDPolypVideo-Benchmark

Bach Violin Dataset:巴赫小提琴数据集,巴赫无伴奏小提琴奏鸣曲与组曲的高质量开放录音集合 github.com/salu133445/bach-violin-dataset

MOTSynth:用于行人检测、分割和城市场景跟踪的大规模合成数据集,用视频游戏GTA V(Grand Theft Auto V)创建 https://motchallenge.net/data/MOTSynth-MOT-CVPR22/

StandardSim:零售环境逼真合成数据集 github.com/standard-ai/Standard-Sim

Ego4D:世界上最大的自我中心(第一人称)视频机器学习数据集和基准 github.com/facebookresearch/Ego4d

SDIP Dataset:自蒸馏互联网照片(SDIP)数据集 github.com/self-distilled-stylegan/self-distilled-internet-photos

iCartoonFace:卡通脸数据集 github.com/luxiangju-PersonAI/iCartoonFace

Chinese voice corpus. 中文语音语料,语音更加清晰自然,包含8个开源数据集,3200个说话人,900小时语音,1300万字。 github.com/fighting41love/zhvoice

MT-Opt:大规模连续多任务机器人强化学习基准数据集 https://www.tensorflow.org/datasets/catalog/mt_opt

OpenLane:大规模真实3D车道数据集 github.com/OpenPerceptionX/OpenLane

Datasets-of-MVS-reconstruction:三维重建公开数据集整理(MVS篇) github.com/ethan-li-coding/Datasets-of-MVS-reconstruction

cmu_multilingual_speech:CMU多语种语音资源 github.com/shinjiwlab/cmu_multilingual_speech

ChineseMRC-Data - 收集了目前为止中文领域的MRC抽取式数据集 github.com/sherlcok314159/ChineseMRC-Data

Relative Human(RH) dataset:包含丰富人工标注信息的多人自然场景RGB图像,包括深度关系、年龄、性别、边框、2D姿态等信息 github.com/Arthur151/Relative_Human

Text Recognition on Cross Domain Datasets:跨领域数据集文本识别(场景文字、手写、印刷、中文/英文、甚至古书) github.com/Mountchicken/Text-Recognition-on-Cross-Domain-Datasets

The HierText Dataset:自然场景/文档文本分层标注数据集 github.com/google-research-datasets/hiertext

Facestar Dataset:高质量人类会话语音视频记录数据集,旨在支持大规模高质量环境下的视听建模研究 github.com/facebookresearch/facestar

UCF-SST-CitySim-Datasett

github.com/ozheng1993/UCF-SST-CitySim-Dataset

ABSA datasets for PyABSA:基于方面情感分析和文本分类数据集 github.com/yangheng95/ABSADatasets

non-hair-FFHQ:秃头人像数据集 github.com/oneThousand1000/non-hair-FFHQ

MetaSLAM地点识别比赛数据集 github.com/MetaSLAM/GPR_Competition

meerkat:面向复杂机器学习数据集的灵活数据结构 github.com/robustness-gym/meerkat

THUman3.0 Dataset github.com/fwbx529/THuman3.0-Dataset

DroneDeploy NeRF Dataset - NerF computer vision dataset github.com/nickponline/dd-nerf-dataset

互联网数据集 - 包括域名数据(2.7G)、网页数据(6.4G)、反向索引数据(39.7G) github.com/RimoChan/internet-dataset

【Google Scanned Objects:高质量日常用品3D扫描数据集】 https://ai.googleblog.com/2022/06/scanned-objects-by-google-research.html

【tiers-lidars-dataset:多模态激光雷达数据集】'tiers-lidars-dataset - Multi-Modal Lidar Dataset for Benchmarking General-Purpose Localization and Mapping Algorithms' by TIERS GitHub: github.com/TIERS/tiers-lidars-dataset

【UrbanNav:开源城市定位算法基准测试多感官数据集】'UrbanNav:An Open-sourced Multisensory Dataset for Benchmarking Positioning Algorithms Designed for Urban Areas' by PolyU Intelligent Positioning And Navigation Lab GitHub: github.com/IPNL-POLYU/UrbanNavDataset

【HaGRID:手势识别数据集】’HaGRID - HAnd Gesture Recognition Image Dataset - HAnd Gesture Recognition Image Dataset' by Alexander Kapitanov GitHub: github.com/hukenovs/hagrid

【HM3D-ABO Dataset:照片级以对象为中心的多视图数据集】'HM3D-ABO Dataset - a photo-realistic object-centric multi-view dataset’ by zhenpeiyang GitHub: github.com/zhenpeiyang/HM3D-ABO

【Simulacra Aesthetic Captions:面向图像提示生成、审美评级等的合成图像数据集】’Simulacra Aesthetic Captions - Dataset of prompts, synthetic AI generated images, and aesthetic ratings.' by John David Pressman GitHub: github.com/JD-P/simulacra-aesthetic-captions

【CelebA-Dialog Dataset:带有细粒度标注的大型视觉-语言人脸数据集】'CelebA-Dialog Dataset - A large-scale visual-language face dataset with fine-grained annotations' by ziqihuangg GitHub: github.com/ziqihuangg/CelebA-Dialog

【CelebV-HQ: 大规模视频人脸属性数据集】'[ECCV 2022] CelebV-HQ: A Large-Scale Video Facial Attributes Dataset' GitHub: github.com/CelebV-HQ/CelebV-HQ

【WorldStrat:地表高分辨率卫星图像数据集】’WorldStrat - The WorldStrat Dataset' GitHub: github.com/worldstrat/worldstrat

[CV]《CelebV-HQ: A Large-Scale Video Facial Attributes Dataset》H Zhu, W Wu, W Zhu, L Jiang, S Tang, L Zhang, Z Liu, C C Loy [SenseTime Research & Peking University & Nanyang Technological University] (2022) https://arxiv.org/abs/2207.12393

【FoodLogoDet-1500: 面向多尺度特征解耦网络食品Logo检测的大规模数据集】'FoodLogoDet-1500: A Dataset for Large-Scale Food Logo Detection via Multi-Scale Feature Decoupling Network' by hq03 GitHub: github.com/hq03/FoodLogoDet-1500-Dataset

【CROSSTALK-GENERATION:目前为止最大的中文开源相声数据集】'CROSSTALK-GENERATION - Code and data for crosstalk text generation tasks, exploring whether large models and pre-trained language models can understand humor.' by anon.W GitHub: github.com/anonNo2/crosstalk-generation

【密集材料分割数据集】'The Dense Material Segmentation Dataset' by Apple GitHub: github.com/apple/ml-dms-dataset

【3D数据集和建模相关资源列表】’laion-3d - Collect large 3d dataset and build models' by LAION AI GitHub: github.com/LAION-AI/laion-3d

【COYO-700M: 大规模图像-文本对数据集】'COYO-700M: Large-scale Image-Text Dataset' by Kakao Brain GitHub: github.com/kakaobrain/coyo-dataset

【Dolt:面向数据的版本控制,数据的Git】’Dolt – It's Git for Data' GitHub: https:// github.com/dolthub/dolt

【SFHQ-dataset:合成人脸高质量数据集】’Synthetic Faces High Quality (SFHQ) dataset - Synthetic Faces High Quality (SFHQ) Dataset' by David Beniaguev GitHub: github.com/SelfishGene/SFHQ-dataset

日本九州大学最近在3D模型网站 Sketchfab 上公开了 1400余个 水生生物、昆虫及植物的3D模型,涵盖了700多个物种,所有模型都可以免费下载使用。据学校官网介绍,这些模型是使用 摄影测量 (在多个角度拍摄照片构建模型)技术创建的,保证了它们外观的鲜活程度。 https://sketchfab.com/ffishAsia-and-floraZia

【包含船只的卫星图像数据集列表】’Satellite imagery datasets containing ships. - A list of radar and optical satellite datasets for ship detection, classification, semantic segmentation and instance segmentation tasks.' by Jason Manesis GitHub: github.com/JasonManesis/Satellite-Imagery-Datasets-Containing-Ships

【Datasets server:数据集服务器】’Datasets server - Integrate into your apps over 10,000 datasets via simple HTTP requests, with pre-processed responses and scalability built-in.' by Hugging Face GitHub: github.com/huggingface/datasets-server

【音频-视频学习方法与数据集列表】'A curated list of audio-visual learning methods and datasets.' by GeWu-Lab GitHub: github.com/GeWu-Lab/awesome-audiovisual-learnin

【OpenCC:无人驾驶长尾/角落案例场景数据集】'OpenCC - Automatic driving long tail / corner cases scenarios dataset (Anomaly detection)' by Wei ZHANG GitHub: github.com/Charmve/OpenCC

【Multiview Bootstrapping in the wild (MBW) - Zoo Dataset:动物园实际场景多视数据集】’Multiview Bootstrapping in the wild (MBW) - Zoo Dataset - Cite this repository' by Mosam Dabhi GitHub: github.com/mosamdabhi/MBW-Data

【TJ4DRadSet: 面向无人驾驶的4D雷达数据集】'TJ4DRadSet: A 4D Radar Dataset for Autonomous Driving' by TJRadarLab GitHub: github.com/TJRadarLab/TJ4DRadSet

【Crossmodal-3600:具有地理多样性的图像多语言参考描述数据集】《Crossmodal-3600 — Multilingual Reference Captions for Geographically Diverse Images | Google AI Blog》 https://ai.googleblog.com/2022/10/crossmodal-3600-multilingual-reference.html

【MnTTS: 开源蒙古文到语音合成数据集和配套基准】'MnTTS: An Open-Source Mongolian Text-to-Speech Synthesis Dataset and Accompanied Baseline' by WALKER GitHub: github.com/walker-hyf/MnTTS

'pCLUE: 1000000+基于提示的大规模预训练数据集,用于多任务学习和零样本学习' by CLUE benchmark GitHub: github.com/CLUEbenchmark/pCLUE

【Laion coco:6亿网络图像高质量AI生成描述数据集】《Laion coco: 600M synthetic captions from Laion2B-en | LAION》 https://laion.ai/blog/laion-coco/

【有史以来最大的3D室内空间语义标注数据集】《Habitat-Matterport 3D Semantics Dataset》 https://aihabitat.org/datasets/hm3d-semantics/

【DART:关节式手部模型数据集】'DART: Articulated Hand Model with Diverse Accessories and Rich Textures (NeurIPS 2022 - Datasets and Benchmarks Track)' by DART2022 GitHub: github.com/DART2022/DART

【TVSM Dataset:电视语音和音乐(TVSM)数据集】'TVSM Dataset - The TV Speech and Music (TVSM) dataset' by biboamy GitHub: github.com/biboamy/TVSM-dataset

0个优质#数据科学#数据集来源:

1、data,gov https://data.gov/ 2、kaggle.com https://www.kaggle.com/datasets 3、Datahub https://datahub.io/collections 4、FiveThirtyEight https://data.fivethirtyeight.com/ 5、Tensorflow https://www.tensorflow.org/datasets 6、HuggingFace https://huggingface.co/datasets 7、Data.world https://data.world/datasets/open-data 8、UC Irvine http://archive.ics.uci.edu/ml/datasets.php 9、Google Research https://datasetsearch.research.google.com/ 10、Awesome Public Datasets GitHub: github.com/awesomedata/awesome-public-datasets

【BEANS:面向分类和检测的动物叫声基准】'BEANS: The Benchmark of Animal Sounds - BEANS: The Benchmark of Animal Sounds' by Earth Species Project GitHub: github.com/earthspecies/beans

【40个开源机器学习音频数据集】《40 Open-Source Audio Datasets for ML》by Nir Barazida towardsdatascience.com/40-open-source-audio-datasets-for-ml-59dc39d48f06

【Harry-Potter-Dialogue-Dataset:哈利波特对话数据集】’Harry-Potter-Dialogue-Dataset - This the repository of Harry Potter Dialogue Dataset.' by Jerryn Chen GitHub: github.com/nuochenpku/Harry-Potter-Dialogue-Dataset

【GLAMI-1M: 多语言图-文时尚数据集】'GLAMI-1M: A Multilingual Image-Text Fashion Dataset - The largest multilingual image-text classification dataset. It contains fashion products.' by GLAMI GitHub: github.com/glami/glami-1m

'GenshinVoice - Voice dataset of Genshin Impact 原神语音数据集' by w4123 GitHub: github.com/w4123/GenshinVoice

【cantonese-list:按使用频次排序,带耶鲁粤语拼音及英文定义的4000汉字列表】'cantonese-list - List of 4000 Chinese characters sorted by historical usage frequency, with Cantonese yale romanization and definition' by Hardmaru GitHub: github.com/hardmaru/cantonese-list

【VideoCC:包含(视频 URL,标题)对的数据集,用于训练视频-文本机器学习模型】'VideoCC - a dataset containing (video-URL, caption) pairs for training video-text machine learning models' by Google Research Datasets GitHub: github.com/google-research-datasets/videoCC-data

「ChineseBQB 是一个开放的表情包数据源,共收录 5000 多张表情包,图片和标注数据都是开放的 」 https://github.com/zhaoolee/ChineseBQB

'MovieJSON - 电影JSON数据' Rocket-Factory GitHub: github.com/Rocket-Factory/MovieJSON

'MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集 - 对标chatGPT训练的40T网页数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据' esbatmop GitHub: github.com/esbatmop/MNBVC

【用于卫星和遥感图像深度学习的数据集列表】’satellite-image-deep-learning.com - Datasets for deep learning with satellite & aerial imagery' GitHub: github.com/satellite-image-deep-learning/datasets

【计算机视觉数据集数据优化相关文献资源列表】’DataOptimization-CV - A Survey of Data Optimization for Problems in Computer Vision Datasets' Vivian-wzj GitHub: github.com/Vivian-wzj/DataOptimization-CV

【Text Detection Dataset:文本场景检索任务的数据集,包含了19 230张拉丁、俄罗斯和一些中文文本的图片,其中大部分是文字级别的印刷】’Text Detection Dataset - High-quality, manually marked-up dataset for text detection tasks.' Donkey Small GitHub: github.com/DonkeySmall/TextDetectionDataset

【Foot3D:脚部 3D 扫描数据集】’Foot3D - Dataset of scanned 3D feet' Ollie Boyne GitHub: github.com/OllieBoyne/Foot3D

【D-Fire: 面向火灾和烟雾检测的图像数据集】'D-Fire: an image data set for fire and smoke detection.' Gaia, solutions on demand GitHub: github.com/gaiasd/DFireDataset

【DocLayNet:大型文档布局分析人工标注数据集】'DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis' DS4SD GitHub: github.com/DS4SD/DocLayNet

【OpenEarthMap:由5000张航空和卫星图像组成的数据集,包含了8类土地覆盖标签和220万个分割区域,覆盖了6大洲的44个国家的97个地区】'open_earth_map - Quick start in OpenEarthMap' Bruno Adriano GitHub: github.com/bao18/open_earth_map

新版arXiv论文数据集来了,将arXiv上的论文进行预处理,保留了数学符号等特殊格式和非文本内容,可用于NLP模型训练,论文地址(数据集地址包含在论文中): https://arxiv.org/abs/2303.14957

CelebV-Text:大规模面部文本视频数据集 文字生成视频的时代真的来了!CelebV-Text是由悉尼大学、商汤研究院、南洋理工大学S-Lab和上海人工智能实验室联合发布的大规模面部文本视频数据集。 CelebV-Text 包含 70,000 个野外面部视频剪辑,涵盖各种视觉内容。每个视频片段与所提出的半自动文本生成策略生成的 20 个文本配对,能够精确描述静态和动态属性。 从演示上看,它不仅可以通过文本生成视频,甚至还可以集成到ChatGPT,从ChatGPT的文字生成GIF 🔗 celebv-text.github.io/

【WHU-Urban-3D:面向语义分割和实例分割的人工标注大规模3D数据集】'WHU-Urban-3D - a manually annotated large-scale 3D dataset, named WHU-Urban-3D, for semantic and instance segmentation.' WHU-USI3DV GitHub: github.com/WHU-USI3DV/WHU-Urban-3D

由5.8亿图片、1亿文档、430亿token组成的超大文本图片交织数据集。这是训练开源大模型OpenFlamingo的训练数据集。 https://arxiv.org/abs/2304.06939

【面向NLP应用的多模态数据集列表】’Multimodal datasets for NLP Applications' Muskan Garg GitHub: github.com/drmuskangarg/Multimodal-datasets

【BTS: 双语文本分割数据集,包含14250张图像,覆盖了室内和室外、不同字体、不同方向和曲线形状等各种情况,采用人工标注的方式,并通过两轮质量检查确保高质量标注】'BTS: A Bi-lingual Benchmark for Text Segmentation in the Wild - BTS: A Bi-lingual Benchmark for Text Segmentation in the Wild' ARC Lab, Tencent PCG GitHub: github.com/TencentARC/BTS

【使用DataComp-1B数据集训练的CLIP ViT-L/14模型,可用于零样本、任意图像分类、图像和文本检索等任务,零样本准确率为79.2%,优于 OpenAI 的 CLIP,甚至是在 LAION-2B 上训练的更大的模型(ViT-g/14),该模型的训练数据集为1.4亿样本的DataComp-1B数据集,该数据集为未加筛选的大规模多模态数据集】“laion/CLIP-ViT-L-14-DataComp.XL-s13B-b90K · Hugging Face” https://huggingface.co/laion/CLIP-ViT-L-14-DataComp.XL-s13B-b90K

【RenderMe-360 Dataset:大型数字资产库和高保真头部头像基准】’RenderMe-360 Dataset - RenderMe-360: Large Digital Asset Library and Benchmark Towards High-fidelity Head Avatars' GitHub: github.com/RenderMe-360/RenderMe-360

博物馆免费图库啦,这次是莫瑞泰斯美术馆~~ 相对于其他大博物馆,莫瑞泰斯的藏品并不多,但精品率确实很高,而且同样地,你都可以下载到超清扫描图,以及画框的背面和画框本框……? ▶ 下载地址:www.mauritshuis.nl/en/our-collection

【Youku-mPLUG:包含1000万条高质量视频和语言数据的中文预训练数据集。该数据集从中国知名的视频分享网站Youku采集而来,具备安全性、多样性和质量的严格标准。该数据集提供了三个不同的多模态视频基准任务,用于评估预训练模型的能力,包括视频分类预测、视频文本检索和视频字幕生成】'Youku-mPLUG 10M Chinese Large-Scale Video Text Dataset - Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Pre-training Dataset and Benchmarks' X-PLUG GitHub: github.com/X-PLUG/Youku-mPLUG

【Zenseact Open Dataset:Zenseact团队的研究人员开发的大型多模态自动驾驶数据集。该数据集分为三个类别:Frames、Sequences和Drives】'Zenseact Open Dataset - Software Development Kit for the latest Zenseact Open Dataset (ZOD)' Zenseact GitHub: github.com/zenseact/zod

【COP3D: 包含4,200个不同宠物视频的数据集】'COP3D: Common Pets in 3D - Common Pets in 3D' Meta Research GitHub: github.com/facebookresearch/cop3d

【CAD-Estate:该数据集包含来自YouTube的RGB视频的两种类型的3D标注,第一种类型是视频内物体的全局一致的3D表示,第二种类型适用于室内房间的视频,包含其3D结构,如墙壁、地板和天花板】'CAD-Estate' by Google Research GitHub: github.com/google-research/cad-estate

【PMC-VQA:大规模医学视觉问答数据集,涵盖多种模态/疾病的149k张图像,包含227k个VQA对】'PMC-VQA - a large-scale medical visual question-answering dataset, which contains 227k VQA pairs of 149k images that cover various modalities or diseases.' Xiaoman Zhang GitHub: github.com/xiaoman-zhang/PMC-VQA

【OBELISC:庞大精选开放图像文本网页文档集合,包含141M个文档、115B个文本标记和353M张图像】'OBELISC - Code used for the creation of OBELISC, an open, massive and curated collection of interleaved image-text web documents, containing 141M documents, 115B text tokens and 353M images.' Hugging Face GitHub: github.com/huggingface/OBELISC

【Replay Dataset:包含68个社交互动场景的数据集,涵盖人们玩棋盘游戏、锻炼身体或拆礼物等情境。每个场景大约为5分钟】'Replay Dataset - Download scripts and tools for Replay dataset.' Meta Research GitHub: github.com/facebookresearch/replay_dataset

【commavq:包含10万个压缩驾驶视频的数据集,用于机器学习研究,可用于GPT视频预测模型的实验,还包含编码器/解码器和视频预测模型示例】'commaVQ - a dataset of compressed driving video' comma.ai GitHub: github.com/commaai/commavq

【RGB-D数据集大列表】’Awesome RGB-D Datasets - This repository contains information for the paper "A Survey on RGB-D Datasets" and is a collaborative initiative to update the datasets list faster.' Alexandre Lopes GitHub: github.com/alelopes/awesome-rgbd-datasets

'开源SFT数据集整理,' Huang Chao GitHub: github.com/chaoswork/sft_datasets

【Pohang Canal Dataset:在韩国浦项的受限水域中获取的多模态海事数据集。传感器套件由三个LiDAR、一个海洋雷达、两个用作立体相机的视觉摄像头、一个红外摄像头、一个具有6个方向的全景相机、一个AHRS和一个带有RTK的GPS组成。该数据集包括传感器校准参数和基于SLAM的基准轨迹】'Pohang Canal Dataset - Additional descriptions about the Pohang Canal Dataset' Dongha Chung GitHub: github.com/dhchung/pohang_canal_dataset

【JourneyDB:大规模生成图像理解数据集,包含4,429,295个高分辨率的Midjourney生成图像,带有相应的文本提示、图像标题和视觉问答的标注,支持的任务包括提示反演、风格检索、图像描述和视觉问答】'JourneyDB - a large-scale generated image understanding dataset’ GitHub: github.com/JourneyDB/JourneyDB

【书生·万卷多模态语料库:万卷多模态语料库的首个开源版本,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB】'书生·万卷多模态语料库' OpenDataLab GitHub: github.com/opendatalab/WanJuan1.0

【雷达相机融合相关数据集资源列表】’Awesome Radar-Camera Fusion' GitHub: github.com/Radar-Camera-Fusion/Awesome-Radar-Camera-Fusion

【ArXiv QA数据集:提供了AI论文相关问题的claude 100k回应】《taesiri/arxiv_qa · Datasets at Hugging Face》https://huggingface.co/datasets/taesiri/arxiv_qa

【Fondant-cc-25m: 包含2500万图像-文本对的数据集】《fondant-ai/fondant-cc-25m · Datasets at Hugging Face》 https://huggingface.co/datasets/fondant-ai/fondant-cc-25m

【OpenWebMath:包含互联网上大部分高质量数学文本的数据集,从 Common Crawl 的超过 2000 亿 HTML 文件中过滤并提取出包含 147 亿 Token 的 630 万份文档,OpenWebMath 旨在用于预训练和微调大型语言模型】《open-web-math/open-web-math · Datasets at Hugging Face》 https://huggingface.co/datasets/open-web-math/open-web-math

【Radar Dataset:用于无人驾驶深度学习目标检测和跟踪的双雷达数据集】'Radar Dataset' by adept-thu GitHub: github.com/adept-thu/Dual-Radar

【法律AI相关的资源列表,包括数据集、网站和其他有用链接】'Awesome-LegalAI-Resources - This repository aims to collect all LegalAI data to facilitate the development of intelligent justice systems' Haitao Li GitHub: github.com/CSHaitao/Awesome-LegalAI-Resources

'质衡: 通用基础模型在底层视觉上的基准测试,包含中文版【底层视觉问答】和【底层视觉描述】数据集,以及中文提示下的图片质量评价。 We will release Q-Bench in more languages in the future.' NTU Visual Quality Assessment Group GitHub: github.com/VQAssessment/Chinese-Q-Bench

【The Data Provenance Initiative:旨在提高AI训练数据集的透明性、文档化和负责任使用。倡议通过对44个数据集的大规模审核,跨1800多个文本到文本微调数据集,即所谓的"数据出处收集",详细记录它们的网络和机器源、许可证、创作者和其他元数据】'The Data Provenance Initiative' GitHub: github.com/Data-Provenance-Initiative/Data-Provenance-Collection

【(n)ASAP: the (note-)Aligned Scores And Performances dataset:汇集了丰富的古典乐实录资源和各层次标注信息的古典音乐数据集,汇集了222份西方古典钢琴曲曲谱,以及这些曲谱对应的1068个钢琴表演音频(总计超过92小时)】'(n)ASAP: the (note-)Aligned Scores And Performances dataset - A dataset of 222 digital musical scores aligned with 1068 performances (more than 92 hours) of Western classical piano music.' Institute of Computational Perception GitHub: github.com/CPJKU/asap-dataset

[AS] The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation
https://arxiv.org/abs/2311.10057 提出一份新的数据集——歌曲描述数据集(SDD),旨在评估音乐和自然语言之间的模型。该数据集收集了706首公开许可音乐的人工描述,共计1106条单句描述,覆盖了乐曲的多样特征。与其他同类数据集相比,SDD的数据 音频片段时间更长,许可更便于公开获取,描述质量通过复核获得保障。此外,SDD还提供了描述同一乐曲的多个样本,适用于自动度量评价。为展示SDD的应用,本文评测了一些著名模型在音乐描述生成、文本到音乐生成和音乐检索三项任务上的表现。结果显示,跨数据集评估能更全面检验模型的泛化能力。SDD数据规模相对较小,但已初步促进了音乐与自然语言任务的标准化评估。总体而言,SDD数据集建立了一个公开透明的评价平台。未来可考虑扩充音乐类型和标注参与者,以加强数据集在评估模型泛化能力中的作用。本文从数据采集到示范应用,展示了SDD如何促进音乐与自然语言任务的交叉研究。

【Inspection of Power Line Assets: the Dataset (InsPLAD):电力线路资产检查数据集】'Inspection of Power Line Assets: the Dataset (InsPLAD) - Inspection of Power Line Assets: the Dataset (InsPLAD)' André Luiz Vieira GitHub: github.com/andreluizbvs/InsPLAD

【GVLM Dataset Version 1.0:大规模开源的遥感图像地质灾害点变化检测数据集,包含17对时变超高分辨率遥感图像,分辨率0.59m,采集自谷歌地球服务。总覆盖面积163.77平方公里。图像来自不同地理位置、时间、地表类型的地质灾害点,具有丰富的光谱异质性】’GVLM Dataset Version 1.0' by zxk GitHub: github.com/zxk688/GVLM

‘百度QA100万数据集' CyberCommy GitHub: github.com/CyberCommy/baidu-qa-100w