一、搜索的业务逻辑
“搜索Query→查询语义理解→召回→排序→搜索结果”
当用户在搜索框输入一个Query时,系统通过对语义的理解,召回相关文档或商品,在通过算法排序,安客户实际的搜索意图进行前后排序,最终解决其搜索需求,实现业务转化。
其中**【查询语义理解】与【排序】**对搜索引导的业务目标最为重要。
二、自然语言处理技术(NLP)在搜索上的应用
1. 概念介绍
想实现搜索引擎效果的优化,就一定要对自然语言处理技术有一定的了解,因为用户输入一个Query里从学术角度解读,自然语言智能研究实现了人与计算机之间用语言进行有效通信,它是融合语言学、心理学、计算机科学、数学、统计学于一体的科学。
自然语言处理被学者誉为”人工智能皇冠上的明珠“,研究覆盖了感知智能、认知智能、创造智能这样的学科,是实现完整人工智能的必要技术。
1)感知智能
是指从无结构化数据中识别出重要的要素。比如给一个query,分析出包含的人民、地名、机构名等。
2)认知智能
是在感知之上,能够理解其中要素的含义以及进行一些推理。比如“谢霆锋是谁的儿子 谁是谢霆锋的儿子”两句话。词和实体都差不多,但语义差别很多。这是认知智能要解决的问题。
3)创造智能
比如计算机指能够理解语义的基础上,创造出符合常识、语义、逻辑的句子。比如自动写出行云流水的小说、创造娓娓动听的音乐 能够无违和跟人自然聊天等。
2. NLP搜索分析路径
三、电商搜索的特点
1. 关键词堆砌
例如:杨幂同款夏季连衣裙包邮。
2. 词序对语义影响不大
例如:杨幂同款女夏季连衣裙包邮;女夏季连衣裙包邮杨幂同款。
3. 类目预测问题
例如:当用户查询“苹果”时,可能查询的是水果,也可能是手机品牌。
4. 搜索引导的业务转化比重较大
据统计,综合类电商搜索引导转化占比40%以上,垂直类电商搜索引导转化占比60%以上。
5. 稳定性要求较高,支持弹性扩容
活动、大促系统QPS可能是平时的百倍千倍,需要平滑的扩缩容,保障系统的稳定。
四、电商搜索优化核心内容
1. 分词(划重点!)
1)分词效果的优化直接影响召回数量,减少无结果率,提高搜索召回质量
例如:
“火锅九块九包邮”
- List item
效果差的分词方式:“火、锅、九、块、九、包、邮”;“火锅、九、块、九、包邮”
- List item
效果好的分词方式:“火锅、九块九、包邮”
“925银耳饰”
- List item
效果差的分词方式:“925、银耳、银、耳饰”
- List item
效果好的分词方式:“925、银、耳饰”
2)不同的分词方式直接影响着参与召回的关键词,从而影响召回的准确性
目前很多开源自建系统难以实现很好的分词效果,主要原因是训练语料的数据量有限,不足以形成可以不断打磨深耕的行业数据。
尤其电商行业商品种类丰富,中文字、词表达的意义多样,多音字、同义词又众多的情况下,靠自身算法工程师和开发团队很难实现快速的解决优化,这是一个不断积累训练的漫长过程。
3)强烈建议选择云产品(电商推荐阿里云开放搜索、内容\日志搜索推荐ES)
现成的百万级训练语料、行业模板直接接入,毕竟专业领域交给更专业的人,我们才有更多资源投身到业务迭代中去。
2. 实体识别
1)电商搜索-实体识别含义
识别Query中的品牌、品类、款式、风格等具有电商行业特色的实体。
2)召回时保留重要性高的实体词,对重要性低的部分不影响召回,只影响算法排序
例如:在电商Query中,在实体重要性如果按高、中、低三档来分。
其中“品牌、品类”是在高档,也就是最重要的;其次“风格、款式、颜色、季节、人群、地点…”处于中档;最后“尺寸、修饰词、影响服务、系列、单位…”处于低档,可以丢弃不参与召回。
3. 类目预测
举例说明:
用户搜索“苹果”可能是想要水果的苹果,也可能是苹果手机;
(用户搜索“华为”,召回结果按销量排序,可能销量最高的“华为手表”、“华为配件”排在前面,实际的搜索意图”华为手机“却排在后面。
类目预测就是根据类目下的文本信息和行为数据,计算query与类目的相关度,从而达到预测query的查询意图的目的,计算哪些类目与query最相关,用类目相关度影响搜索结果的排序。
也就是说,当通过行为数据分析,发现搜索”华为”的用户,大部分的搜索意图都为“手机”,那么召回排序上优先“手机类目”。
4. 排序算法
电商排序常见问题:
**数据缺乏时效性:**难以平衡优质商品和新发布商品之间的权衡关系;
商家刷排名:部分商家找到排序漏洞,通过关键词堆砌,获得靠前位置,用户体验不好;
人力资源紧张:需要专业算法工程师2-3名,很难找到合适的人才。
5. 人工干预bad case
举例说明:
“iPhone11”刚上市时,用户搜索“苹果/iphone”,最新款产品肯定要排在前面,在没有常规排序算法的时候,就需要类目预测人工干预;
“喷泡”是一款篮球鞋的别称,并非主流叫法,全称是“Air Jordan AirFoamposite系列”,这时就需要通过平时运营积累的专业词汇可视化同步到开放搜索做查询语义理解功能的补丁,通过灵活干预得以解决;
跨境电商有时Query涉及“日文、韩文、泰文”等外语,当我们的分词词典不能很好的分词优化时,也可以通过分词干预功能解决;
用户搜索Query“香奈儿气垫”,默认的实体识别,将“香奈儿”归类为“普通词”;“气垫”归类为“材质”,需要人工干预实体识别,把“香奈儿”干预为品牌。
6. 搜索引导功能
1)搜索前引导
搜索框底纹:根据用户近期行为数据,引导用户意图;
搜索热搜榜:实时热度,引导随便逛逛的用户,想知道大家都搜了些什么;
搜索热词:结合兴趣,给用户推荐优质查询词。
2)搜索中引导
下拉提示:智能推荐候选query,提高用户输入效率,帮助用户尽快找到想要的内容。
五、电商搜索未来趋势
- List item
搜索是一个需要持续输出优化的技术,中腰部电商未来一定会选择轻运作模式,借助像阿里云、华为云这样的更专业的技术服务商的搜索技术,把更多资源投入到业务创新及研发上。
- List item
行业模板的突破,据小编所知阿里云的开放搜索技术已经形成电商行业搜索的专属模板,这也是基于淘宝天猫多年的行业经验积累而成,无需开发,数据接入即可,产品经理和运营人员都可以参与搜索效果的优化中来。
- List item
AI与搜索技术深入融合,AI智能语音搜索、图片识别搜索目前主要在头部电商上应用,随时技术的发展我相信,这些都会作为主流服务应用在更多电商企业中,改变更多消费者的消费方式
以上内容就是我今天我和大家分享的,希望对你有所帮助,感兴趣可以关注【搜索与推荐技术】公众号~