文件名称:data-sensitive-hashing:DSH替代非均匀数据集上的LSH
文件大小:42.25MB
文件格式:ZIP
更新时间:2024-06-05 22:19:08
C++
DSH 数据敏感散列的实验 概述 哈希家族 我们生成一个哈希家族,其中每个哈希函数都是线性分隔符。 这些线性分隔符存储为D + 1维的家族向量。 串联功能 哈希族很弱,因此我们使用串联来生成更强大的哈希函数。 我们最终使用“ L”级联函数,每个散列族都具有“ M”个随机函数。 串联函数与hashtable同义使用。 恶作剧 这表明每个点的最佳网格大小。 在DSH中,我们要确保良好的召回率。 因此,首先我们从保护网格的大小开始。 如果对于给定的网格大小,存储桶是稀疏的,则我们希望采用更大的存储桶,以便获得更好的召回率,这就是在SHselection :: radius_test中所做的事情,我们找到了最佳网格大小,从而使召回率很好。 计算哈希的新观点 我们在datahashresult中获得预先计算的数据点的hashresults 。 哈希键等于datahashresul
【文件预览】:
data-sensitive-hashing-master
----io.h(413B)
----SHindex.h(2KB)
----main.cpp(1KB)
----.gitignore(387B)
----SHselection.cpp(3KB)
----SHselection.h(632B)
----myrandom.h(290B)
----preprocess.cpp(2KB)
----constants.h(1KB)
----SHgeneral.h(2KB)
----README.md(5KB)
----data.h(407B)
----tests()
--------unif.csv(47.68MB)
--------input.data(71.69MB)
--------covtype.data(71.69MB)
----data.cpp(4B)
----myvector.h(304B)
----statisticsmodule.cpp(4KB)
----myrandom.cpp(1KB)
----knn.cpp(2KB)
----SHindex.cpp(15KB)
----knn.h(455B)
----SHgeneral.cpp(5KB)
----results()
--------lsh_50.csv(2KB)
--------lsh_75.csv(2KB)
--------lsh.csv(2KB)
--------Analysis.ipynb(389KB)
--------dsh-points.csv(2KB)
--------lsh-unif.csv(531B)
--------dsh.csv(2KB)
--------dsh-unif.csv(527B)
--------entropy.csv(2KB)
--------lsh_90.csv(2KB)
--------entropy-points.csv(2KB)
--------multiprobe-points.csv(2KB)
--------multiprobe.csv(2KB)
----io.cpp(2KB)
----statisticsmodule.h(928B)
----Makefile(1KB)
----myvector.cpp(1KB)