文件名称:典型相关分析matlab实现代码-Data_Mining:数据挖掘
文件大小:550KB
文件格式:ZIP
更新时间:2024-06-09 07:18:15
系统开源
典型相关分析matlab实现代码 Data_Mining PS:子文件夹中也包含了各自实验的README文件 实验一《多源数据集成、清洗和统计》 小组信息 组员信息:钟昊柱(有组但单干) 组员分工:钟昊柱 指导老师:彭伟龙 实验题目: 广州大学某班有同学100人,现要从两个数据源汇总学生数据。第一个数据源在数据库中,第二个数据源在txt文件中,两个数据源课程存在缺失、冗余和不一致性,请用C/C++/Java程序实现对两个数据源的一致性合并以及每个学生样本的数值量化。 数据不一致性:两个数据源中的数据单位、种类、数据类型存在不一致。 相异数据/数据源 Txt Csv 性别 male/female boy/girl 身高 m为单位 cm为单位 id 从1开始的纯数字 以202为前缀的纯数字 数据冗余性:同一个数据源可能储存了相同的学生数据,存在冲突 数据缺失:某个数据源中可能存在某个学生的某一项信息缺失的情况 1.题目要求: 1. 学生中家乡在Beijing的所有课程的平均成绩。 2. 学生中家乡在广州,课程1在80分以上,且课程9在9分以上的男同学的数量。(备注:该处做了修正,课程10数
【文件预览】:
Data_Mining-master
----Test2_Data_statistics_and_visualization()
--------ques3.jpg(89KB)
--------ques1.py(1KB)
--------ques2.py(492B)
--------ques4.jpg(75KB)
--------Figure_1-1.png(21KB)
--------main.py(629B)
--------result.txt(1KB)
--------Figure_1.png(41KB)
--------ques4.py(2KB)
--------README.md(5KB)
--------ques5.jpg(16KB)
--------ques3.py(2KB)
--------ques5.py(1KB)
----Test3_K-means clustering algorithm()
--------描聚类后的点.py(542B)
--------K_means.h(5KB)
--------readcsv.h(904B)
--------类中心类半径.py(2KB)
--------画SSE线.py(443B)
--------README.md(11KB)
--------test3.cpp(1KB)
--------about data from teacher to K_means()
--------about test2 Z_score-data to K_means()
----Test4_logistic_regression()
--------训练点集数值表示3.jpg(32KB)
--------训练点集数值表示4.jpg(11KB)
--------α=0.001.jpg(11KB)
--------训练.CSV(257B)
--------logistic.py(5KB)
--------README.md(5KB)
--------测试.csv(5B)
--------训练点集数值表示1.jpg(32KB)
--------训练点集数值表示2.jpg(32KB)
--------α=0.01.jpg(10KB)
----README.md(31KB)
----Test1_Data_integration_cleaning_and_statistics()
--------一.数据源1.xlsx(16KB)
--------一.数据源2-逗号间隔.txt(6KB)
--------合并后的新表.csv(8KB)
--------main.cpp(17KB)
--------README.md(10KB)
--------ANSWER.jpg(55KB)