情绪分析的工作方式和最佳实践  第1张

基于规则的模型和机器学习模型都可以随着时间的推移而改进。例如,负面和正面词汇的字典可以被更新,作为一个活的参考来源,以更准确地对新数据进行分类。同样,有多个机器学习模型,你可以在你的数据上应用,并相互比较,以便随着时间的推移微调你的模型。

人类语言的表达非常丰富。特别是随着表情符号的普及,在线文本数据中的标点符号带有大量的含义。同样,不同版本的笑脸可以传达不同强度的感受。

建议:利用字典,可以使你以自然语言处理算法能够理解的方式记录标点符号或表情符号。

虚假的产品评论或机器人生成的内容是许多企业越来越关注的问题。当你处理大量的文本数据时,可能很难识别这种编造的内容,以及它是否是你的数据中的重要部分,最终可能偏离你的分析结果。

建议: 使用最新的提示,当场识别并传播虚假评论,使它们既不是你的数据集的一部分,也不被你的客户看到。

所有机器学习算法的一个常见缺陷是过度拟合,这意味着你的模型会很好地适应你的训练数据,以至于它认为该数据集是可能的实例的完整样本,并且在新的数据集上表现不佳。这可能是由于许多原因造成的,例如样本太小或训练数据的高方差。

建议:比较不同的模型。这就是为什么 “分析和评估” 这一步对机器学习模型特别重要,因为这一步可以帮助检测过拟合,并通过使用各种方法对模型进行微调,如使用交叉验证、数据增量或保留部分数据。