文件名称:SSApp:语义搜索
文件大小:1.16MB
文件格式:ZIP
更新时间:2024-04-16 02:05:29
HTML
安装环境 conda env create -f py38.pml 主分支 非常基本的pipline,它使用googleviewer来显示doc文件。 html分支 蜜蜂 pySBD是支持22种语言的句子边界歧义api。 在原始文件中,他们使用来衡量其SBD的性能。 在/parser_examples/sbd_golden_rule.py中,您可以选择按照英语黄金规则测试SpaCy SBD或pySBD。 对于pySBD,精度为45/51。 SpaCy SBD的准确性是24/51。 在pySBD论文中,按照黄金法则,它们的准确度高于45/51。 我还没有弄清楚为什么我们会得到较低的精度。 猛mm象是解析.docx文件的api。 它还可以用于将.docx文件转换为htmls。 在/parser_examples/parser.py中,我列出了一些示例以提取段落和标题。 解析器接口 像文件/
【文件预览】:
SSApp-master
----ssapp.wsgi(89B)
----parser_examples()
--------parser.py(676B)
--------sent_seg.py(9KB)
--------acm_submission_template.docx(304KB)
--------sbd_golden_rule.py(13KB)
----templates()
--------document.html(62B)
--------index.html(1KB)
--------base.html(2KB)
--------results.html(2KB)
--------searchpage.html(842B)
----parser_engine()
--------database.py(3KB)
--------__init__.py(0B)
--------docx_parser.py(2KB)
--------monitor.py(2KB)
----ssapp.py(5KB)
----static()
--------imgs()
--------htmls()
--------docxs()
--------styles()
----.gitignore(39B)
----py38.yml(4KB)
----vector_engine()
--------utils.py(955B)
--------__init__.py(0B)
----config.py(173B)
----README.md(2KB)