每团队3-5人,请使用目前流行的大数据框架与分析挖掘工具,如:Hadoop、Spark、R、Flink、TensorFlow语言等,完成一个实用的软件系统,为行业、企业或个人生活提供有益的支持。选题方向可结合(但不限于)以下方面:
(1)互联网数据或者传统信息管理系统数据的获取与分析:对传统的网站或者信息管理系统进行大数据改造,将系统日志或者其他重要信息进行获取,同时进行有效的数据埋点获取关键数据,并将日志与数据存入大数据平台,然后再此之上进行数据管理与分析,并构建一定的功能。如日志异常提醒,数据统计与可视化等等。
(2)网页文本信息的获取与处理:通过对真实网页数据的爬取与搜集,为政府、企业或个人提供有价值的信息,基于社交媒体建立舆论监控系统,基于电影评论建立电影分析系统或者电影票房预测系统。
(3)互联网销售数据的数据分析与挖掘:网络爬虫对某一类专门的产品(IT网课,考研课,机票)或者阿里,淘宝京东拼多多等电商平台全部或某一大类商品进行爬取,并进行对比分析可视化,能够进行价格对比帮助购买者。
(4)生活服务信息的个性化推荐:针对某一真实的应用场景,如:景点、商场、学校等,建立使用的推荐系统,用户通过文字方式输入问题,系统自动分析问题并根据用户特征给出合理答案。
(5)基于大数据的城市管理:基于大数据构建城市管理或者城市发展所需要的系统,如城市日常生活中比较需要的生活服务(餐饮,娱乐,健身,住房等等)建立信息收集系统,制作可以向居民提供可视化信息与推荐的大数据系统。或者建立能够收集居民反馈的系统,并进行数据处理与分析。
(6)基于自身专业领域的大数据应用:将大数据应用于自身(或团队成员)的专业领域上解决某一问题并形成系统,如环境专业的地质灾害数据管理与预警系统;交通专业的实时路况信息与优化路线系统等等。用大数据的方法,对专业数据进行收集管理,针对某一问题或应用,形成系统展示。
下述举例几个细分的选题,可用于参考。要注意的是所有选题都需要合理的大数据存储与分析框架来构建系统,同时对数据存储,数据分析,数据可视化进行有效处理。
A、博客网站信息分析:对传统的博客网站进行大数据改造,通过flume等工具将日志存入大数据系统,通过建立点击率,停留时间,跳转率等数据的数据埋点建立数据管理与分析系统,通过数据建模分析和数据收集博客受欢迎的主要原因,并进行数据的可视化在网页进行动态展示等功能。要求功能必须完整选择合适的大数据技术框架,合理使用能够适用于大数据网站组件,同时要根据收集到的信息建立一定的功能而非单纯的数据收集与可视化。
B、社交媒体舆论监督系统:通过网络爬虫获取微博上部分账号的文本内容如微博及评论,以及有关账号的信息。然后建立社交账号关系网络或知识图谱进行社交网络分析,同时对有关文本进行数据处理,情感分析与话题,热点,关键字追踪等等。同时能够根据一定内容生成可视化效果。要求,采用合理的大数据存储与处理框架,数据获取量在一百万以上,能够利用大数据技术与自然语言处理技术对数据进行有效的处理,带有部分的可视化能力。
C、城市居民生活助手:将某一城市居民生活所需要的模块按需要进行分类如基础设施建设,生态环境,治安环境,收入水平,治安教育等,然后收集有关问题,将不同信息发送到有关部门。同时对问题进行存储和处理,根据反映问题进行问卷调查,根据调查结果建立人才吸引力评价模型,生活幸福度评价模型等数据模型以指导城市发展与城市政策的制定。
D、饮食业创业指南或城市美食指南:从各大美食网站抓取餐厅的店铺评分、店铺评价、地理位置、菜品销量、菜品口味、菜品价格、餐饮类型等数据,给出餐饮创业或者美食选择建议,要求参考城市不少于10个,数据量不小于五十万。
E、基于大数据信息管理系统:传统的信息管理系统偏向于传统业务的线上无纸化办公,但是并没有有效发掘信息的潜力,因此对传统的信息管理系统进行大数据改造,将数据进行大数据存储的同时,建立全套的大数据存储,分析与可视化系统如ELK等,部分内容需要建立搜索引擎。同时利用这些工具对数据进行分析得到一定的结果。要求真实或仿真数据,数据量不小于一百万。
F、股票数据获取与分析系统:通过网络爬虫或其他工具获取股票信息,并使用大数据中合适的方式进行有效的存储,同时建立有关系统进行数据可视化与统计分析,有能力者建立股票自动交易系统并制定一定的的自动交易策略,或按照有关论文预测建立预测模型,使用有关论文者需要提供论文电子版或者论文电子下载地址,股票预测是学术难题,请谨慎思考,选择合适的方法。