1.課程簡介
本課程詳細講解了大數據生態體系的各個模塊的功能和開發技術。包括Hadoop體系中的HDFS,Hbase、ZooKeeper進行數據操作,MapReduce進行數據開發,YARN進行資源配置,Hive完成數據倉庫,Pig進行數據分析,理解其基本原理, Storm實時流式處理,Spark大數據處理框架等。并通過實驗掌握其操作和編程開發。
2.教學目標
掌握大數據主流技術體系各個模塊的功能和基本原理,掌握各個技術模塊的安裝,基本操作與開發,能夠根據需求,完成對應模塊上的應用開發,理解大數據解決方案中的技術框架,能夠基于已有的框架完成一般項目的大數據應用開發。
3.適合人群
Java高級開發人員,數據分析、數據統計相關在職人群,想從事大數據開發工作的在職人士 有職業技能、崗位晉升需求的在職人員 對大數據開發感興趣的業界人士。
4.課程內容
章節1:Linux基礎
章節2:Java負基礎掃盲課程
章節3:JAVA語言基礎入門
章節4:JAVA核心編程
章節5:JavaWeb開發技術
章節6:傳統核心框架之SSH
章節7:MySQL基礎
章節8:Storm實時流式處理
章節9:Hadoop介紹
章節10:數據倉庫HIVE
章節11:分布式數據庫Hbase
章節12:計算模型MapReduce
章節13:分布式協作系統ZooKeeper
章節14:分布式文件系統HDFS體系結構
章節15:Spark項目入門與提高
章節16:Spark項目編譯
章節17:Spark平臺下的機器學習
章節18:Scala編程語言
章節19:ElasticSearch搜索引擎
章節20:Flink精講
章節21:機器學習
章節22:超大集群調優
5.項目實戰
項目一:通過PAI基于機器學習的精細化營銷方法、案例和算法。
項目二:互聯網電商數據爬蟲項目,分析抓取、解析、存儲和監控。
項目三:Web應用云高頻實時處理項目,包含Web服務、Web日志及其他實時數據。
項目四:某大型網站日志分析項目,使用hadoop、mapreduce、hive清理進行分析。
項目五:移動業務感知項目,使用MR對多類數據分析,使用hive完成用戶維度關聯匯總。
項目六:用戶畫像分析系統項目,通過sqoop導入hdfs或spark的jdbc連接傳統數據庫。
項目七:非法網站監測系統項目,對日志數據進行實時采集、轉換與分發。
項目八:搭建個性化推薦系統。了解算法原理及引擎RecEng操作,搭建電商推薦系統上線。
學員點評