paip.数据挖掘--导出词库 清理太长的iptcode

时间:2021-04-09 05:10:24

paip.数据挖掘--导出词库 清理太长的iptcode



原来eng2atian的时候儿,有些cnchar无对眼的atian,走临时使用nonex代替...



而个,要不个那清理给挂了..



#keyword

python 文件读写rwrite  unicode



#清理规则:长度大的9,  而且含有nonex





作者 老哇的爪子 Attilax 艾龙,  EMAIL:1466519819@qq.com

来源: http://blog.csdn.net/attilax



#主要的算法如下



x=r"c:\导出 - 主码 - 用户码表 o4dfix khjg.txt"

#clrExportImCustmWordlibTolongIptcode.py

tgt=r"c:\clrToLong.txt"

from filex import *

from pkg.strUtil import *

list =file2list(x, "UTF-16");

list_new=[]

from log import *

iniLog(r"c:\clrtolog.log")

fileHandle = open ( tgt, 'w',encoding="UTF-16" )        

for line in list:

    if(line.startswith("--")):continue;

    s=left_ByFirstChar(line,"#")

    a=s.split();#todox splitbyTab

    logging.info(a)

    output=a[0]

    iptcode=a[1]

    if(len(iptcode)>9 and isContain(iptcode,"nonex")):

        continue;

        #endif

    #list_new.append(line)

    fileHandle.write(line+"\r\n")

    #endfor

    

 

#for line in     list_new:



    

fileHandle.close()