任务详情
核心需求对指定的新闻文章的内容进行智能判断,提取出文章描述关键字和态度。新闻文章来源爬虫爬取的各新闻网站、微信公众号的。关键字是某单位主体的名称、简称,高校居多。如北京大学、北大,清华大学、清华。文章的态度即是文本的情感态度,分为以下三种情况:正面:文章对单位主体的认可赞美的。中立:文章对单位主体进行客观真实的介绍,不包含个人立场。负面:文章对单位主体不认可,进行批评指责甚至是恶意抹黑。判断标准要能接近人工识别的标准,至少是让人看上去是相关的。主要问题在关键字提取时,像这些都是正文含有北京大学,情绪偏负面的。但是主体内容和北京大学无关的内容,是不需要的。要想办法过滤掉。这样用户一眼看过去相关度就高了。也就容易接受使用了。解决舆情系统误报问题,最终让舆情系统的检测更准确。举例来说:正文里面含有北京大学,但是整体文章和“北京大学”无关。造成误报。根本需求就是提高相关性,降低误报。 最终输出:合作者最好有过舆情开发经验,能提供以前的项目进行对比查看。如果是全新开发需能提供初步测试的demo进行在线测试。确定可行,提供整体的解决方案,架构设计,程序源码。