机器分类原理解析
自动分类对于采集领域来说,是一个神器。
百度的知道等问答网站,都有对问题进行自动分类,还有今日头条的文章 也是机器分类
本博客下一阶段的目标就是深度的整合机器学习相关技术,把文章进行自动分类,评论进行情感分析等。
接下来我们开始进行机器学习
假设有一篇文章,如下:
实施乡村振兴战略,是以习近平同志为核心的党中央着眼党和国家事业全局、顺应亿万农民对美好生活的向往,对“三农”工作作出的重大决策部署,是决胜全面建成小康社会、全面建设社会主义现代化国家的重大历史任务,是新时代做好“三农”工作的总抓手。党的十九大以来,党中央、国务院采取一系列重大举措加快推进乡村振兴。最近,习近平同志又专门作出重要指示,强调要把实施乡村振兴战略摆在优先位置,坚持五级书记抓乡村振兴,让乡村振兴成为全党全社会的共同行动,为做好乡村振兴各项工作进一步指明了方向、提供了遵循。
在人工的判断下,应该是政治分类。理由是,人物、和事件都是政治类
当然有的人也觉得这是三农、民生、等分类。
这时候大家僵持不下,就把政治、三农、民生分类拿出来,大家一起投个票,
总共有10个人在场,一人只可以投票一次,投票结果如下:
政治=6票
三农=3票
民生=1票
最后“政治”分类胜出。
判别一篇文章属于某个分类,主要是取决于训练的模型,例如我们内置了3个分类,“政治”、“三农”、“民生”
我们先人为选取对应的文章进行学习,找10篇政治领域的文章,找10篇三农、找10篇民生
最后模型所对应的词库为:
政治=习近平,同志,党中央,党和国家,重大,决策,部署,建成,小康社会,建设,社会主义,现代化,国家
三农=村,振兴,农民,乡村,振兴,生活,小康社会,举措,加快,推进
民生=美好生活,工作,向往,住房
最后把文章进行分词,分词结果:
实施,乡村,振兴,战略,,,是,以,习近平,同志,为,核心,的,党中央,着眼,党和国家,事业,全局,、,顺应,亿万,农民,对,美好生活,的,向往,,,对,“,三农,”,工作,作出,的,重大,决策,部署,,,是,决胜,全面,建成,小康社会,、,全面,建设,社会主义,现代化,国家,的,重大,历史,任务,,,是,新,时代,做好,“,三农,”,工作,的,总,抓手,。,党,的,十九,大,以来,,,党中央,、,国务院,采取,一系列,重大,举措,加快,推进,乡村,振兴,。,最近,,,习近平,同志,又,专门,作出,重要,指示,,,强调,要,把,实施,乡村,振兴,战略,摆在,优先,位置,,,坚持,五级,书记,抓,乡村,振兴,,,让,乡村,振兴,成为,全党,全,社会,的,共同行动,,,为,做好,乡村,振兴,各项,工作,进一步,指明,了,方向,、,提供,了,遵循,。
把结果拿去匹配每个分类,最后得出一个命中得分
比如:
政治得分3.8分
三农得分2.1分
民生得分1.1分
最后对分数进行排序,取第一个就是稍微准确的分类
要想结果精确 就多找些文章来训练模型,只要有个强大的模型,分类就会比较精准。
之前写的一个自动选课的算法,原理和这个有点类似。
https://github.com/newpanjing/group
都是按照规则进行打分,最后排序,取最高分者。