spacy-extreme:如何将spaCy用于超大文件而不遇到内存问题的示例

时间:2024-04-05 15:43:57
【文件属性】:

文件名称:spacy-extreme:如何将spaCy用于超大文件而不遇到内存问题的示例

文件大小:8KB

文件格式:ZIP

更新时间:2024-04-05 15:43:57

Python

Spacy-极端 如何将spaCy用于超大文件而不遇到内存问题的示例 spaCy的内存问题 编辑: 中修复了运行spaCy管道的内存问题。 不过,我将使该存储库保持在线状态,作为有关如何有效地分块数据的教育性代码段。 本节的其余部分可以忽略。 SpaCy是一种流行的,功能强大的NLP工具,可以处理文本并从中获取您可能需要的几乎所有信息。 不幸的是,在对30GB以上的单个文件进行多处理时,我开始遇到问题:内存使用量一直在增长。 即使使用,问题仍然存在。 “错误修复”不可用,因为尚不清楚内存泄漏的位置。 有人希望问题出在spaCy本身,但这意味着重新加载spaCy实例应该释放该内存。 但是事实。 那么,很难找到解决办法-因为不清楚从哪里开始寻找。 因此,我认为必须有另一种方法。 解决方案位于multiprocessing库中,更具体地说,位于的参数之一中。 maxtasksperchild


【文件预览】:
spacy-extreme-master
----.gitattributes(66B)
----Chunker.py(3KB)
----main.py(10KB)
----README.md(5KB)
----Pipfile(112B)
----.gitignore(37B)

网友评论