提供行业典型项目案例及行业数据,项目涉及农业、运营商(shāng)、電(diàn)商(shāng)、舆情、體(tǐ)育、交通、航空、银行、互联网、环境等10多(duō)个领域,每个教學(xué)项目案例包数据量均达到GB-TB以上,均為(wèi)真实数据,每个案例有(yǒu)详细的分(fēn)析步骤。通过完整的端到端到业務(wù)流程演示与上机操作(zuò)训练,让學(xué)生真正了解大数据行业背景以及企业实施技(jì )术需求。通过极具(jù)针对性的训练,动手操作(zuò),使學(xué)生在最短时间内得到应用(yòng)技(jì )术技(jì )能(néng)的提升,理(lǐ)进一步满足职业岗位对工(gōng)作(zuò)技(jì )能(néng)的需求。
提供行业典型项目案例及行业数据,项目涉及农业、运营商(shāng)、電(diàn)商(shāng)、舆情、體(tǐ)育、交通、航空、银行、互联网、环境等10多(duō)个领域,每个项目案例都配备项目方案及指导手册、项目源代码及代码注释、案例数据、系统安(ān)装(zhuāng)部署文(wén)档。
(图:项目案例)
每个教學(xué)项目案例包数据量均达到GB-TB以上,均為(wèi)真实数据,每个案例有(yǒu)详细的分(fēn)析步骤。通过完整的端到端到业務(wù)流程演示与上机操作(zuò)训练,让學(xué)生真正了解大数据行业背景以及企业实施技(jì )术需求。通过极具(jù)针对性的训练,动手操作(zuò),使學(xué)生在最短时间内得到应用(yòng)技(jì )术技(jì )能(néng)的提升,理(lǐ)进一步满足职业岗位对工(gōng)作(zuò)技(jì )能(néng)的需求。
行业 |
项目名(míng)称 |
项目方案及指导手册 |
项目源代码及代码注释 |
案例数据 |
系统安(ān)装(zhuāng)部署文(wén)档 |
农业 |
大数据行业应用(yòng)-农业市场大数据分(fēn)析 |
√ |
√ |
√ |
√ |
运营商(shāng) |
大数据行业应用(yòng)-运营商(shāng)在線(xiàn)服務(wù) |
√ |
√ |
√ |
√ |
電(diàn)商(shāng) |
大数据行业应用(yòng)-線(xiàn)上竞拍 |
√ |
√ |
√ |
√ |
舆情 |
大数据行业应用(yòng)-情感分(fēn)析 |
√ |
√ |
√ |
√ |
體(tǐ)育 |
大数据行业应用(yòng)-NBA赛事预测 |
√ |
√ |
√ |
√ |
交通 |
大数据行业应用(yòng)-交通轨迹 |
√ |
√ |
√ |
√ |
航空 |
大数据行业应用(yòng)-航班線(xiàn)路 |
√ |
√ |
√ |
√ |
银行 |
大数据行业应用(yòng)-银行贷款风险评估 |
√ |
√ |
√ |
√ |
互联网 |
大数据行业应用(yòng)-搜索引擎构建 |
√ |
√ |
√ |
√ |
环境 |
大数据行业应用(yòng)-生态环境数据分(fēn)析 |
√ |
√ |
√ |
√ |
农业大数据是融合了农业地域性、季节性、多(duō)样性、周期性等自身特征后产(chǎn)生的来源广泛、类型多(duō)样、结构复杂、具(jù)有(yǒu)潜在价值,并难以应用(yòng)通常方法处理(lǐ)和分(fēn)析的数据集合。它保留了大数据自身具(jù)有(yǒu)的规模巨大(volume)、类型多(duō)样(variety)、价值密度低(value)、处理(lǐ)速度快(velocity)、精(jīng)确度高(veracity)和复杂度(complexity)等基本特征,并使农业内部的信息流得到了延展和深化。
為(wèi)了不断推进农业经济的优化,实现可(kě)持续的产(chǎn)业发展和區(qū)域产(chǎn)业结构优化,进一步推动智慧农业的建设进程,需要全面及时掌握农业的发展动态,这需要依托农业大数据及相关大数据分(fēn)析处理(lǐ)技(jì )术,建设一个农业大数据分(fēn)析应用(yòng)平台—农业大数据平台来支撑。
(图-项目结果展示)
本系统架构采用(yòng)模块化设计,分(fēn)為(wèi)数据爬取模块、数据存储模块、数据预处理(lǐ)模块、数据计算模块、数据可(kě)视化展现模块。可(kě)实现區(qū)域行情、品种对比、价格预测、价格走势等功能(néng)。
①、區(qū)域行情:分(fēn)析当天品类,品种,价格,省份的分(fēn)布情况。
②、品种对比:分(fēn)析各个省份各个市场各个品种各个品类最近5天的价格并且统计所选省份市场品种品类的当天的品种,均价,市场,时间信息。
③、价格走势:分(fēn)析各个年份各个月份下各个品种(土豆,番茄,豌豆)的价格。
④、价格预测:对昆明市斗南花(huā)卉鲜花(huā)批发交易市场下卡罗拉(新(xīn)市场), 冷美人, 蜜桃雪(xuě)山(shān)(香槟), 戴安(ān)娜, 大桃红的价格进行预测。
随着通信行业的普及,以及人们对网络的需求越来越大,因此运营商(shāng)的一些在線(xiàn)服務(wù)需求也来越大。对于客户體(tǐ)验来说,電(diàn)子渠道提供了一个足不出户办(bàn)理(lǐ)业務(wù)的便捷方式,对于运营商(shāng)来说,電(diàn)子渠道低成本分(fēn)流了实體(tǐ)渠道的业務(wù)压力,将線(xiàn)下渠道的人力资源从低价值的业務(wù)办(bàn)理(lǐ)中(zhōng)释放出来。
本系统架构采用(yòng)模块化设计,分(fēn)為(wèi)数据预处理(lǐ)、数据存储模块、数据处理(lǐ)模块、数据ETL模块、结果展现模块。可(kě)多(duō)维度统计数据、投诉风险预测、區(qū)域服務(wù)效能(néng)监控、实时展现故障區(qū)域位置及故障信息等。
①、全區(qū)服務(wù)统计:分(fēn)别计算各服務(wù)區(qū)域内的申告量、处理(lǐ)量、回单量、回单率、重障量、重障率、及时量、及时率、成功率。
②、投诉风险:通过申告次数、呼叫次数和用(yòng)户情绪这三个维度评定用(yòng)户等级,预防高危用(yòng)户流失,降低投诉次数,提高用(yòng)户體(tǐ)验。
③、區(qū)域服務(wù)效能(néng):通过申告量、专席人数来对各區(qū)域服務(wù)团队进行监控。
④、热点故障區(qū)域分(fēn)布:在地图上展现多(duō)发故障的位置以及故障信息。
因為(wèi)某宝,某东,已经满足大部分(fēn)中(zhōng)國(guó)消费者的需求,所以大部分(fēn)中(zhōng)國(guó)人都不太关注Ebay网站,但是Ebay在國(guó)外很(hěn)受欢迎,它是一个管理(lǐ)可(kě)让全球民(mín)众上网买卖物(wù)品的線(xiàn)上拍卖及購(gòu)物(wù)网站,人们可(kě)以拍卖的形式出售和竞价商(shāng)品,但是并不是所有(yǒu)拍卖都可(kě)以成功,因此我们利用(yòng)ebay的历史数据使用(yòng)机器學(xué)习方法训练模型并预测一项拍卖是否会成功,并预测成功交易的最终价格。
本系统架构采用(yòng)模块化设计,分(fēn)為(wèi)数据准备、数据存储模块、数据分(fēn)析模块、模型训练模块、模型预测模块。通过历史数据利用(yòng)机器學(xué)习算法训练模型,找出商(shāng)品所有(yǒu)特征项与拍卖成功与否的正负相关性,预测拍卖能(néng)否成功,并预测价格的准确度。
互联网时代舆论观点都散布在各种社交网络平台或新(xīn)闻提要中(zhōng)。对于这种网上海量分(fēn)布的数据,可(kě)以挖掘各种重要信息,可(kě)以了解当前的舆论导向以及支持自身做出一些重要性的决定等等,所以针对网络社交平台中(zhōng)海量数据的挖掘分(fēn)析显得尤為(wèi)重要。
本系统架构分(fēn)為(wèi)数据准备模块、文(wén)本转换向量模块、数据分(fēn)词模块、可(kě)视化模块、模型训练模块、模型预测模块、程序运行模块。通过从twitter数据中(zhōng)抽取有(yǒu)用(yòng)信息,结合文(wén)本分(fēn)析算法处理(lǐ)文(wén)本内容,使用(yòng)机器學(xué)习相关算法从训练数据集中(zhōng)训练出随机森林模型,再使用(yòng)模型针对测试数据集进行预测分(fēn)析,结合可(kě)视化组件直观展示民(mín)意分(fēn)布,即时了解舆情导向。
目前可(kě)以通过球队的排名(míng)对比赛的结果进行赛前估计,但是这种猜测一般觉有(yǒu)不确定性。所以利用(yòng)机器學(xué)习算法对球队的以往表现,以及对手的表现综合各方面的因素做一个统计,从中(zhōng)學(xué)习出某种规律,这样我们就可(kě)以得到可(kě)靠性比较高的预测结果。
本系统架构采用(yòng)模块化设计,分(fēn)為(wèi)数据获取模块、特征选择模块、数据分(fēn)析模块、模型训练模块、模型预测模块,程序运行模块等。通过从已有(yǒu)数据中(zhōng)抽取有(yǒu)用(yòng)的信息并通过相应算法,将球队重新(xīn)划分(fēn)等级,利用(yòng)机器學(xué)习算法,从中(zhōng)學(xué)习出特有(yǒu)的规律预测比赛结果。
随着各种打車(chē)软件的发展,人们足不出户就可(kě)以约車(chē),本案例主要是来探究生活中(zhōng)存在的打車(chē)难的问题,这个问题限制了我们有(yǒu)些时间的出行,浪费了我们的时间。在哪些地方容易打車(chē),什么时候的車(chē)更容易搭乘,这是我们要着手解决的问题。
本系统采用(yòng)模块化设计,分(fēn)為(wèi)数据准备, 解析csv数据, 构建特征向量,聚类模型训练,聚类模型测试, 分(fēn)析预测结果,数据可(kě)视化。通过spark和机器學(xué)习算法等相关技(jì )能(néng),对打車(chē)的现状进行分(fēn)析,并最终用(yòng)可(kě)视化的手段直观的展示分(fēn)析结果。為(wèi)用(yòng)户提供决策支持。
飞机航班常因為(wèi)天气或机场原因,导致航班的延误甚至取消,该项目基于一批航班的历史数据对航班的各种重要指标做统计分(fēn)析,如最繁忙航線(xiàn)、某机场起降最频繁时段等;最后利用(yòng)机器學(xué)习,对航班延误做预测,旅客可(kě)参考这些统计及预测结果调整行程安(ān)排。
本案例使用(yòng)Hadoop作(zuò)為(wèi)底层支持,其中(zhōng)HDFS提供底层存储支持,Yarn提供集群中(zhōng)应用(yòng)的资源调度支持;Hive提供spark sql中(zhōng)的元数据访问支持;spark core作(zuò)為(wèi)spark sql的核心支持。使用(yòng)spark sql分(fēn)析航空数据的一些指标。
银行贷款专员需要分(fēn)析贷款者一系列数据,以便搞清楚那些贷款申请者是“安(ān)全的”,低风险的。银行的“风险”是什么,通常通过模型法来评估:即在長(cháng)期大量的数据积累的基础上,搜集各类可(kě)能(néng)影响客户风险的要素并建立数學(xué)模型,其预测结果可(kě)以為(wèi)贷款员放贷提供相关依据。通过模型计算出客户的违约概率。这是目前绝大多(duō)数商(shāng)业银行通行的做法。
亲自动手搭建项目所需的实验环境:hadoop集群、spark on yarn模式安(ān)装(zhuāng)、IDEA及scala插件的安(ān)装(zhuāng)。使用(yòng)MLlib分(fēn)析用(yòng)户数据对用(yòng)户做风险分(fēn)类。
互联网时代舆论观点都散布在各种社交网络平台或新(xīn)闻提要中(zhōng)。对于这种网上海量分(fēn)布的数据,可(kě)以挖掘各种重要信息,可(kě)以了解当前的舆论导向以及支持自身做出一些重要性的决定等等,所以针对网络社交平台中(zhōng)海量数据的挖掘分(fēn)析显得尤為(wèi)重要。
本系统架构分(fēn)為(wèi)数据准备模块、文(wén)本转换向量模块、数据分(fēn)词模块、可(kě)视化模块、模型训练模块、模型预测模块、程序运行模块。通过从twitter数据中(zhōng)抽取有(yǒu)用(yòng)信息,结合文(wén)本分(fēn)析算法处理(lǐ)文(wén)本内容,使用(yòng)机器學(xué)习相关算法从训练数据集中(zhōng)训练出随机森林模型,再使用(yòng)模型针对测试数据集进行预测分(fēn)析,结合可(kě)视化组件直观展示民(mín)意分(fēn)布,即时了解舆情导向。