文件名称:URL-categorization-using-machine-learning
文件大小:4.02MB
文件格式:ZIP
更新时间:2024-06-14 03:14:45
machine-learning url-categorization url-classification Python
使用机器学习进行URL分类 互联网可以用作机器学习算法的重要信息来源。 网页存储有关多个域的各种信息。 一个关键问题是如何对这些信息进行分类。 网站分类是通过使用NLP技术进行的,该技术会为每个类别生成词频,并通过计算类别权重来预测网站的类别。 可以找到该项目的主要数据集: 如何开始一个项目 如果您是第一次运行此项目,则只需运行01_construct_features.py文件,以便为每个类别生成words_frequency模型。 foo@bar:~ $ python 01_construct_features.py 或者 foo@bar:~ $ chmod +x construct_data.sh foo@bar:~ $ ./construct_data.sh 01_construct_features.py执行时间应为〜45分钟左右: 手术 执行时间处理时间 正在获
【文件预览】:
URL-categorization-using-machine-learning-master
----functions.py(3KB)
----urls_to_predict.txt(180B)
----Frequency_models()
--------word_frequency_2020-12-26.picle(4.79MB)
----01_construct_features.py(2KB)
----readme.md(3KB)
----__pycache__()
--------config.cpython-38.pyc(2KB)
--------functions.cpython-38.pyc(3KB)
----Datasets()
--------stopwords_extended.txt(1KB)
----LICENSE(1KB)
----requirements.txt(85B)
----.gitignore(41B)
----config.py(2KB)
----Documentation()
--------mainDocument.tex(2KB)
--------Diagrams()
--------introduction.tex(2KB)
--------preface.tex(0B)
--------Website Classification Using Machine Learning Approaches.pdf(819KB)
--------allPacks.tex(2KB)
--------MeidusDomantasBBD2019.pdf(338KB)
--------Pictures()
--------jb_VU_zenklas.pdf(68KB)
--------VUMIFKK.sty(90B)
--------literatureSources.bib(5KB)
--------abstract.tex(1KB)
--------abstractEN.tex(1KB)
--------macros.tex(6KB)
--------conclusions.tex(5KB)
--------Main()
----construct_data.sh(84B)
----predict_url.py(1KB)
----.gitattributes(42B)