第九周 深圳市模具廠應(yīng)用 大數(shù)據(jù) hadoop spark
帶著很對疑問,到了書城18樓,
1、centos 如何開啟 8888|888|88|8080|80|22|21等等端口
2、建立一個能使用的大數(shù)據(jù)集群最好需要多少臺服務(wù)器, 而且都是 centos 7.5 的嗎?
3、區(qū)塊鏈 和 我們學(xué)習(xí)的大數(shù)據(jù)中的 BlocK 有無聯(lián)系, 64MB 一個 塊, 還是128M一個塊。
復(fù)習(xí)上周
發(fā)送心跳, 告訴 ZooKeeper , 這個是有問題才動手的軟件, 再由ZooKeePer 分配KafKA
producr 生產(chǎn)者產(chǎn)生數(shù)據(jù), 記錄放入 Kafka . Topic 的創(chuàng)建, 寫入多少條, 都由 ZooKeeper 管理。
消費者, 也是有
KAFKA作為一個集群, 宕機后, 主節(jié)點宕機后無法消費, 由ZooKeeper負責(zé)重新選舉。
zookeeper 安裝 三種模式
/bin 目錄下有很多腳本 ,
Myid 是不一樣的, 每臺機都要安裝 ZooKEEPER , 不同的 ID
2888 仲裁通訊
3888 群首選舉
每臺服務(wù)器上都要啟動一下, 每臺機都需要啟動
再看看 偽集群模式, 如果只有一臺機器, 也可以配置 zoo1.cfg ........ 僅僅是端口改為不一樣了 2181 3181 4181
啟動, 一臺機器, 也要啟動三次
不同端口模擬不同集群
一個領(lǐng)導(dǎo)者和多個跟隨者的。
fluke 和 spark 都差不多, 原理還是結(jié)構(gòu)spark , rdd dij
復(fù)習(xí)完成, 繼續(xù)SPARK 的學(xué)習(xí)。
SPARK核心編程模型
Spark 數(shù)據(jù)運算核心機制:
RDD概述:
RDD: 彈性分布式數(shù)據(jù)集
RDD是 SPARK中重要的數(shù)據(jù)結(jié)構(gòu)。
什么是 RDD ,
顧名思義,從字面理解RDD就是 Resillient Distributed Dataset,即彈性分布式數(shù)據(jù)集。
它是Spark提供的核心抽象。
RDD在抽象上來講是一種抽象的分布式的數(shù)據(jù)集。它是被分區(qū)的,每個分區(qū)分布在集群中的不同的節(jié)點上。從而可以讓數(shù)據(jù)進行并行的計算
它主要特點就是彈性和容錯性。
彈性:RDD的數(shù)據(jù)默認(rèn)情況下存放在內(nèi)存中的,但是在內(nèi)存資源不足時,Spark會自動將RDD數(shù)據(jù)寫入磁盤
容錯性:RDD可以自動從節(jié)點失敗中恢復(fù)過來。即如果某個節(jié)點上的RDD partition,因為節(jié)點故障,導(dǎo)致數(shù)據(jù)丟了,那么RDD會自動通過自己的數(shù)據(jù)來源重新計算該partition。
RDD來源:通常是Hadoop的HDFS,Hive 表等等;也可以通過Linux的本地文件;應(yīng)用程序中的數(shù)組;jdbc(mysql 等);也可以是kafka、flume數(shù)據(jù)采集工具、中間件等轉(zhuǎn)化而來的RDD。
總體都在RAM中運行的, 現(xiàn)在看看 CACHE ,
不斷的轉(zhuǎn)化, 就是得到 DMG圖, TSK 何在一起就是 TSK site , 最終得到 TSK scuhle
下節(jié)課, 講解 spark 讀取 kafka 數(shù)據(jù)進行講解