多示例数据集 (Multi-instance)

时间:2024-03-30 15:20:40

1 benchmark数据集

  benchmark数据集目前包含:MUSK1、MUSK2 1、Elephant、Fox以及Tiger 2,其具体属性如下:

数据集名称 MUSK1 MUSK2 Elephant Fox Tiger
维度 166 166 230 230 230
包数量 92 102 200 200 200
正包数 47 39 100 100 100
实例数 476 6598 1391 1320 1220
最大包大小 40 1044 13 13 13
最小包大小 2 1 2 2 1

  数据集已上传至GitHub:
  https://github.com/InkiInki/data/blob/master/multi-instance/benchmark.rar

2 text categorization

  二十个文本分类数据集 3来自于文本分类中广泛使用的20个新闻组语料库。对于每个数据集,包的数量为100,正包的数量与负包的数量相同。
  数据集已上传至GitHub:
  https://github.com/InkiInki/data/blob/master/multi-instance/text-categorization.rar

3 image 数据集

  图像分类是MIL最成功的应用之一。 数据集2000-Image 4和1000-Image 5包含20和10类COREL图像。 每个类别有100张图像,每个图像都视为一个包。
  原始图像数据集示例如下:
多示例数据集 (Multi-instance)
  原始图像和已处理数据已上传至GitHub:
  https://github.com/InkiInki/data/blob/master/multi-instance/2000-image.rar

4 artificial数据集

  最初由Amar 6等制造,用于多示例回归,已上传至GitHub:
  https://github.com/InkiInki/data/blob/master/multi-instance/artificial-dataset.rar

5 数据集格式介绍

  以上的每一个数据集均处理为两个.arff文件,…_1代表数据集中所有的示例,@data的最后一列为实例标签,为窝处理时加上去的,可以忽略;…_2中@data下只有前两列数据可用,第一列代表每个包的大小,第二列代表每个包的标签。


  1. T.G. Dietterich, R.H. Lathrop, and T. Lozano-Pérez. Solving the multiple-instance problem with axis-parallel rectangles. Artificial Intelligence, pages 31–71, 1997. ↩︎

  2. S. Andrews, I. Tsochantaridis, and T. Hofmann. Support vector machines for multiple-instance learning. Proc. of Neural Information Processing Systems, pages 561–568, 2003. ↩︎

  3. Z.H. Zhou, Y.Y. Sun, and Y.F. Li. Multi-instance learning by treating instances as non-i.i.d. samples. Proceedings of International Conference on Machine Learning, pages 1249–1256, 2009. ↩︎

  4. Y.X. Chen, J. Bi, and J.Z. Wang. Miles: multiple-instance learning via embedded instance selection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(12):1931–1947, 2006. ↩︎

  5. Y.X. Chen and J.Z. Wang. Image categorization by learning and reasoning with regions. Journal of machine learning Research, 5(Aug):913–939, 2004. ↩︎

  6. R. A. Amar, D. R. Dooly, S. A. Goldman, and Q. Zhang. Multiple-instance learning of real-valued data. In Proceedings of the 18th International Conference on Machine Learning, pages 3–10, Williamstown, MA, 2001. ↩︎