MMTx(MetaMap Transfer)是美国国家医学图书馆建立的用于文本数据挖掘的一种工具。
下面以Medine格式数据为例介绍使用方法
1、在PubMed数据库检索相关的文献。
2、将数据结果保存为Medine格式数据。(Medine数据格式是医学上用于记录患者的患病机理等的方式)。保存过程如图。
3、将data用MMTx数据处理;(MMTx句段分割软件,比如Beijing is a beautiful city.可以分割成Beijing、beautiful、city等 )。运行MMTx需要预先安装好java,java具体环境配置自己百度。
配置MMTx:
(1)、将MMTx软件解压到E盘根目录
(2)、调价MMTx环境配置。打开如下目录:E:\MMTx\nls\mmtx\bin。将目录添加到path。
配置成功在cmd命令里回输入mmtx。显示如下:
现在可以进行数据处理(输出文件自行设置,一般设置成txt格式文件):
4、用矩阵提取数据结果。
矩阵采用提取“Pathologic Function”关键字和“Gene or Genome”出现的次数。
在编译程序前需要更改Java程序,矩阵的路径:E:\MMTx\medline。
String inputFileName = "path/in.txt";
String outputFileName ="path/out.xls";
输出文件的格式可以修改,建议使用xls格式,方便后面的统计。
以上统计出得结果就是病理、基因、研究热度。接下来就可以做更深入的分析了。