文件名称:数据集:with具有快速,易于使用和高效的数据处理工具的ML模型最大的即用型NLP数据集中心
文件大小:27.78MB
文件格式:ZIP
更新时间:2024-02-24 08:58:17
nlp natural-language-processing computer-vision metrics tensorflow
:hugging_face:Datasets是一个轻量级的库,提供两个主要功能: 一线数据加载器,可用于许多公共数据集:一线可下载和预处理任何 上提供的主要公共数据集(使用467种语言和方言!)。 使用像squad_dataset = load_datasets("squad")这样的简单命令,即可将这些数据集中的任何一个准备好在数据加载器中用于训练/评估ML模型(Numpy / Pandas / PyTorch / TensorFlow / JAX), 高效的数据预处理:对上述公共数据集以及您自己的本地CSV / JSON /文本数据集进行简单,快速和可重复的数据预处理。 使用简单的命令,例如tokenized_dataset = dataset.map(tokenize_exemple) ,可以有效地准备数据集以进行检查以及ML模型评估和训练。 :hugging_face:Datasets还提供对+15个评估指标的访问,旨在让社区轻松添加和共享新的数据集和评估指标。 :hugging_face:Datasets具有许多其他有趣的功能: 在大型数据集上:h