1 一般的英文文本预处理流程
1 数据收集
2 去除数据中非文本的部分
3 分词
4 词干提取(stemming)和词型还原(lemma)
5 转化为小写
6 去除停止词
7 删除数字与符号
8 特征工程
2 文本有哪些向量表示方法
-
one-hot,离散表示
-
bag of words,词袋模型,将每个单词表现为在词袋中出现的次数
-
n-gram,基于计数统计得到的
-
TF-IDF,基于频率统计得到的
-
共现矩阵 (Cocurrence matrix),维度较高,加上降维,如SVD,PCA
-
基于神经网络的词表示,word2vec,doc2vec,CBOW,skip-gram,霍夫曼树,负采样,GloVe
3 LSTM的结构
上图是LSTM的第一个门,遗忘门。这个门根据输入信息(h_t-1和x_t)决定要忘记细胞状态C_t-1的哪些部分。
接下来是信息更新门,决定了细胞状态C_t,它分为两个部分。
第一步,根据输入信息,用tanh产生该时刻需要更新到细胞状态中的内容;用sigmoid函数产生更新的比例。
第二步,将需要更新的内容更新到细胞状态中去,生成C_t。
最后,是输出门。根据新的细胞状态和输入信息,产生新的输出h_t。
收藏的RNN/LSTM,BPTT详细推导链接:https://zhuanlan.zhihu.com/p/85776566