敏感词-过滤之DFA算法

2025-02-03

敏感词过滤方案

方案

说明

数据库模糊查询

效率太低

String.indexOf()查找

数据库量大的话也是比较慢

全文检索

分词再匹配

DFA算法

确定有穷自动机(一种数据结构)

DFA算法

DFA全称为:Deterministic Finite Automaton,即确定有穷自动机。

存储:一次性的把所有的敏感词存储到了多个mp中,就是下图表示这种结构

例子

敏感词:冰毒、大麻、大坏蛋

isEnd->1敏感词结尾,isEnd->0不是敏感词结尾

初始化后的敏感词库

image-rzbf.png

文章内容:我是一个好人,并不买卖冰毒

image-zxgv.png

PREV
OCR图片文字识别
NEXT
IP地址之IP基础知识