同步操作将从 OpenDocCN/pytorch-doc-zh 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
class torch.utils.data.Dataset
表示数据集的抽象类。
所有其他数据集都应该进行子类化。所有子类应该覆盖__len__
和__getitem__
,__len__
提供了数据集的大小,__getitem__
支持整数索引,范围从 0 到 len(self)。
class torch.utils.data.TensorDataset(data_tensor, target_tensor)
包装数据和目标张量的数据集。
通过沿着第一个维度索引两个张量来恢复每个样本。
参数:
例子:
x = torch.linspace(1, 10, 10) # x data (torch tensor)
y = torch.linspace(10, 1, 10) # y data (torch tensor)
# 先转换成 torch 能识别的 Dataset
torch_dataset = torch.utils.data.TensorDataset(data_tensor=x, target_tensor=y)
class torch.utils.data.ConcatDataset(datasets)
连接多个数据集。
目的:组合不同的现有数据集,可能是大规模数据集,因为连续操作是随意连接的。
class torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, num_workers=0, collate_fn=<function default_collate>, pin_memory=False, drop_last=False)
数据加载器。组合数据集和采样器,并在数据集上提供单进程或多进程迭代器。
参数:
class torch.utils.data.sampler.Sampler(data_source)
所有采样器的基础类。
每个采样器子类必须提供一个__iter__
方法,提供一种迭代数据集元素的索引的方法,以及返回迭代器长度的__len__
方法。
class torch.utils.data.sampler.SequentialSampler(data_source)
始终以相同的顺序将样本元素按顺序排列。
参数:
data_source (Dataset)
– 采样的数据集。class torch.utils.data.sampler.RandomSampler(data_source)
样本元素随机排列,并没有替换。
参数: - data_source (Dataset)
– 采样的数据集。
class torch.utils.data.sampler.SubsetRandomSampler(indices)
样本元素从指定的索引列表中随机抽取,并没有替换。
参数: - indices (list)
– 索引的列表
class torch.utils.data.sampler.WeightedRandomSampler(weights, num_samples, replacement=True)
样本元素来自[0,..,len(weights)-1],给定概率(权重)。
参数:
weights (list)
– 权重列表。不需要加起来为 1num_samples (int)
– 要绘制的样本数class torch.utils.data.distributed.DistributedSampler(dataset, num_replicas=None, rank=None)
将数据加载限制到数据集的子集的采样器。 在torch.nn.parallel.DistributedDataParallel
中是特别有用的。在这种情况下,每个进程都可以作为 DataLoader 采样器传递一个 DistributedSampler 实例,并加载独占的原始数据集的子集。
注意 假设数据集的大小不变。
参数:
用户名 | 头像 | 职能 | 签名 |
---|---|---|---|
Song | 翻译 | 人生总要追求点什么 |
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。