- 主页 > 生活百科 > >
盘点20多个强大且免费的数据源,任何人都能以此来构建AI( 二 )
Google Open Images——数以百万计的图像以各种方式分类和标记,用于训练许多不同类型的计算机视觉算法 。 Imag.NET Open Dataset——另一个由标记图像组成的数据集,可免费用于非商业机器学习应用 。 COCO Dataset——Common Objects in Context (COCO)数据集中包含了超过200000张图像,这些图像被选择用于训练对象检测和字幕算法 。声音数据
- Mozilla Common Voice——一个开放的录音数据集,可用于训练任何涉及语音的AI应用 。
- AudIOSet——另一个由谷歌策划的数据集,这个数据集专注于声音,包含数十万个10秒样本,这些样本被分解为乐器、车辆和人声等类别 。
- Million Song Dataset——来自一百万个当代流行音乐曲目的样本和元数据 。
文本数据
- Wikidata——多种不同格式的维基百科文章的数据库下载 。
- Common Crawl——一个从万维网上抓取的开放数据存储库,最知名的用途就是对ChatGPT和其他聊天机器人的GPU大型语言模型进行训练 。
其他和杂项数据集
- Amazon Reviews——包含约3500万条亚马逊产品评论的数据库,包括产品信息和评级 。
- Waymo Open Dataset——Alphabet自动驾驶子公司Waymo公开了通过自动驾驶车辆收集的大量数据,包括来自摄像头和LiDAR传感器数据 。
- Apolloscape Dataset——更多的自动驾驶数据,是由百度开源Apollo平台提供的 。
推荐阅读
-
-
要中考了,数学咋从780分提起来,冲刺中考,在线等,挺急的
-
西部数据|西数首款PCIe 5.0硬盘即将到来?黑盘SSD增强版曝光
-
蜀门的门叔|在游戏里做卧底能赚多少钱?网友:我靠这买了一套海景房
-
光明网|拿起3000多元的新手机,男子夺门而逃,钻进玉米地里不见了!店主瞬间懵了,太和警方正在侦办
-
独山|烧光400亿的贫困县:花3亿造天下第一水司楼,3家上市公司踩雷
-
-
打赢职场|为啥越来越多的90后,不愿再去巴结老板了?,在公司里
-
智电汽车|只要情怀用的好,还怕用户来得少?,8代高尔夫告诉你
-
嵩县|嵩县警方通报男子当街打死前女友:持续3分多钟暴打躺地女子
-
-
-
-
回复|诗人偶然得到一片题诗红叶,作诗一首回复,成就一桩奇妙姻缘
-
『荠菜』人称“黑心菜”,种子含油高,嫩茎叶是上等野菜,可做“百岁羹”
-
-
-
NOTFOR|Snkrs 发售!主理人泄露 Supreme x Dunk SB 实物细节!,上架
-
-
宇思轩|露出白皙的肌肤和小蛮腰,很美很精致,小姐姐身穿青色的吊带装