短文本过滤实例,可用于智能识别各种违法违规内容,如涉黄、涉政、暴恐、辱骂、广告、灌水…
当前监管越发严重,如何避免用户发布的内容给平台造成风险,内容安全审核是避规内容风险的主要方式。
内容安全审核一般分为机审和人审两种方式并行的策略,各云厂商一般已经集成成接口服务,包括文本、图像、语音、视频等,同时也支持私有化部署。
本文只调研关于文本的内容安全审核,文本和图像还是可以自己做的。
功能:提供图片、视频、文本、语音、网页等形式内容违规检测API,覆盖暴恐、涉政、涉黄、广告、辱骂、不良场景等风险检测能力。
技术:鉴黄模型、暴恐分类、文本分类模型、关键词过滤,OCR等。
费用:区间计费:套餐大于0条/日(1.80元/千条); 套餐5000条/日(1.62元/千条); 套餐50000条/日(1.53元/千条); 套餐130000条/日(1.44元/千条); 套餐260000条/日(1.35元/千条); 套餐850000条/日(1.26元/千条)
文本内容安全-阿里云方案,没有试用。看起来比较成熟稳定(或者说老旧?)、似乎更加注重大客户。不过文档似乎不大友好,更偏向于小白的OSS文件检测。
功能:支持图像、文本、语音、短视频等类型,包括智能鉴黄、违禁违规、恶意推广、低俗辱骂、低质灌水等。
技术:基于自然语言理解、深度学习等技术,有效识别违规文本内容,具备拼音、谐音、拆字、形近字、影射等变体识别能力;支持自定义黑白名单;15w+的公众人物库,其中包含政治人物、明星等。
费用:基础15元/万次。 50万次(750元); 300万次(4200元/93折); 500万次(6500元/87折); 1000万次(12000元/8折); 5000万次(55000元/73折); 1亿次(100000元/67折); 5亿次(450000元/6折)
文本内容安全-百度云方案,没有展示技术框架,API试用比较友好,速度相对其他家比较慢(或许是规则识别后还会走模型?)。
功能:支持文本、语音、图像、视频、号码等类型的安全审核,包括涉黄检测、涉毒检测、广告检测、自定义检测等。
技术:社区里两篇技术分享博客,文本匹配+浅层神经网络(TextCNN->FastText)的技术方案。
费用:套餐180万条(22元/万条); 套餐720万条(19元/万条); 套餐3600万条(18元/万条); 套餐18000万条(13元/万条); 套餐36000万条(10元/万条)。
文本内容安全-腾讯云方案,文档真是一个梗了,害,python样例真的跑不通,晕。此外详细违规类型代码的中文说明也没有。
功能:支持文本、语音、图像、视频等类型的安全审核,包括色情、广告、涉政、暴恐等违规内容及各种文字变种,支持20余种语言。
技术:未知。基于海量数据,定制智能策略,高效过滤,包括聚类、词向量等。
费用:需要注册才能查看,害。
敏感词检测一般作为第一道关卡,同时结合反垃圾智能模型对文本二次识别来打到拦截垃圾内容的目的
语言: Python,star为0.056k。
详情: 短视频app文本审核模块:1.二分类,恶意与否; 2.详细分类; 3.后处理(对于不同频率/不同程度/不同影响力的言论)。
技术: DFA + 分类模型(TIDF + BayesianNetwork)
希望对你有所帮助!