1,词法分析
待续
2,文本分类
文本表示:
重点是贝叶斯模型:二项表示法和多项表示法。(向量维度为词库大小,一个是01,一个是频次)。模型重点在于化后验为先验。
还有其他模型:机器学习模型,分布式模型等等。
特征选择:重要的是TF-IDF。它的意思是一个词在单个文本中出现的次数越多,在其他文本中出现的次数较少,那么这个词的区分度就越高。
模型检验:accuracy = (TP +TN)/TP+FP+TN+FN precision = TP / (TP+FP) recall = TP/(TP+FN) F=2PR/(P+R)
3,词性标注(句法分析预处理)
给每个词标上它的语法属性。
难点:兼类词的存在。如果没有兼类词,我们查表即可。
形式化:分类问题。
假设:有限视野,时间独立,输出独立。
重点:HMM模型。viterbi算法(动态规划)。复杂度从($N^T$降到$N^2T$)
welch-Baum算法。
4,句法分析
CFG(上下文无关文法): (T,N,S,R)。T:终结符号。N:非终结符号。S:开始符号。R:语法规则。
自顶向下:目标驱动。自底向上:数据驱动。转换消除法。(shift-Reduce parsing)
传统的CFG语法解析问题:语法太紧,则应用广度不够,太松,则解析精度不够。
解决方法:给规则引入概率,结果去概率最大的解析结果。
PCFG:(T,N,S,R,P)P(R),每条规则概率。
P(W1n) = 所有解析树的概率和。P(t1)= 该解析树所有分支概率乘积。 解析结果去概率最大的树。
解析结果往往有指数级别个。常用Inside Probability或Outside Probability计算。
viterbi取最高的inside probability结果。
概率从何而来?有树库:从树库提取。没有:EM估计。
NLP概述的更多相关文章
-
自然语言处理NLP学习笔记一:概念与模型初探
前言 先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. http://xiaosi.trs.cn/demo/rs/demo 知识图 ...
-
人工智能头条(公开课笔记)+AI科技大本营——一拨微信公众号文章
不错的 Tutorial: 从零到一学习计算机视觉:朋友圈爆款背后的计算机视觉技术与应用 | 公开课笔记 分享人 | 叶聪(腾讯云 AI 和大数据中心高级研发工程师) 整 理 | Leo 出 ...
-
NLP&;深度学习:近期趋势概述
NLP&深度学习:近期趋势概述 摘要:当NLP遇上深度学习,到底发生了什么样的变化呢? 在最近发表的论文中,Young及其同事汇总了基于深度学习的自然语言处理(NLP)系统和应用程序的一些最新 ...
-
NLP知识结构概述
NLP知识结构概述 1)自然语言处理:利用计算机为工具,对书面实行或者口头形式进行各种各样的处理和加工的技术,是研究人与人交际中以及人与计算机交际中的演员问题的一门学科,是人工智能的主要内容. 2)自 ...
-
Recurrent Neural Network系列1--RNN(循环神经网络)概述
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明.谢谢! 本文翻译自 RECURRENT NEURAL NETWORKS T ...
-
【NLP】十分钟快览自然语言处理学习总结
十分钟学习自然语言处理概述 作者:白宁超 2016年9月23日00:24:12 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛.笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文 ...
-
【NLP】Tika 文本预处理:抽取各种格式文件内容
Tika常见格式文件抽取内容并做预处理 作者 白宁超 2016年3月30日18:57:08 摘要:本文主要针对自然语言处理(NLP)过程中,重要基础部分抽取文本内容的预处理.首先我们要意识到预处理的重 ...
-
史上最详尽的NLP预处理模型汇总
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | 磐创AI(公众号ID:xunixs) 作者 | AI小昕 编者按:近年来,自然语言处理(NL ...
-
word2vec概述
既然是概述,那么我也只会在文中谈一点关于 Word2Vec 的思想和大概的方法.对于这个算法,如果一开始学习就深入到算法细节中,反而会陷入局部极值点,最后甚至不知道这个算法是干嘛的.在了解算法大概的思 ...
随机推荐
-
Log.properties配置详解
一.Log4j简介 Log4j有三个主要的组件:Loggers(记录器),Appenders (输出源)和Layouts(布局).这里可简单理解为日志类别,日志要输出的地方和日志以何种形式输出.综合使 ...
-
C#程序
using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Net ...
-
解决mysql无法插入中文数据及插入后显示乱码的问题
(1)废话不多说就是使用mysql数据库的时候无法输入中文,可以输入中文后显示的又是乱码!! (2开始解决问题: 第一步:找到安装mysql的目录找到 my.ini 文件: 第二步:使用记事本打开my ...
-
使用Gradle自动发布Java Web到SAE
博客已迁移,请访问:http://www.huangyunkun.com/ 现在像SAE这类的应用引擎已经比较多了,百度和腾讯都出了这样的东西. 我很早的时候就开始用SAE,当时还为了迁就SAE学习了 ...
-
Navi.Soft30.产品.格式化.操作手册
1系统简介 1.1功能简述 在软件开发过程中,我们对字符串操作最多. 尤其是Web开发时,数据交换一般采用JSON或XML.本产品作用是格式化各种常用字符串,目前包括:Json,Xml,Html,Sq ...
-
Android第三方jar包ClassNotFind
转载请注明http://www.cnblogs.com/vanezkw/archive/2012/06/25/2561393.html 相信很多朋友在使用第三方包时都遇到过此类问题.今天就此问题进行一 ...
-
[收藏]Asp.net MVC生命周期
一个HTTP请求从IIS移交到Asp.net运行时,Asp.net MVC是在什么时机获得了控制权并对请求进行处理呢?处理过程又是怎样的? 以IIS7中asp.net应用程序生命周期为例,下图是来自M ...
-
Core Java Volume I — 3.8. Control Flow
3.8. Control FlowJava, like any programming language, supports both conditional statements and loops ...
-
python 读取sqlite3 数据库
import sqlite3 name = "tom" age = 30 con = sqlite3.connect("d:\\test.db") cur = ...
-
Form_Form与OAF页面互相调用(案例)
2014-12-27 Created By BaoXinjian