Scala語言可以在Windows、Linux、Mac OS等系統上編譯運行。由于Scala是運JVM平臺上的,所以安裝Scala之前必須配置好JDK環境(JDK版本要求不低于1.5)。 查看全文>>
大數據技術文章2020-12-22 |黑馬程序員 |win10下載安裝Scala,Scala環境變量配置
在Spark中,RDD是采用惰性求值,即每次調用行動算子操作,都會從頭開始計算。然而,每次調用行動算子操作,都會觸發一次從頭開始的計算,這對于迭代計算來說,代價是很大的,因為迭代計算經常需要多次重復的使用同一組數據集,所以,為了避免重復計算的開銷,可以讓Spark對數據集進行持久化。 查看全文>>
大數據技術文章2020-12-22 |傳智教育 |RDD數據持久化操作,持久化機制,RDD,Spark
完成虛擬機的安裝和網絡配置,雖然可以正常使用,但是工作中還需要遠程操縱服務器進行各項操作,所以就需要對虛擬機實行配置遠程登錄和SSH免密登錄,進行相關操作。接下來,就分別對這兩種服務配置進行說明和詳細講解。 查看全文>>
大數據技術文章2020-12-22 |傳智教育 |Hadoop虛擬機,SSH服務,遠程登錄虛擬機
HBase是由Java語言開發的,它對外提供了Java API的接口。接下來,通過Java API來操作HBase分布式數據庫,包括增、刪、改以及查等對數據表的操作,具體操作步驟如下: 查看全文>>
大數據技術文章2020-12-22 |傳智教育 |HBase的Java API操作步驟,常見的Java API
RDD處理過程中的“轉換”操作主要用于根據已有RDD創建新的RDD,每一次通過Transformation算子計算后都會返回一個新RDD,供給下一個轉換算子使用。面,我們通過結合具體的示例對這些轉換算子API進行詳細講解。 查看全文>>
大數據技術文章2020-12-21 |傳智教育 |RDD,轉換算子,RDD數據處理
使用Scala語言開發單詞計數Spark程序,現有文本文件words.txt(讀者需要在本地創建文件并上傳至指定目錄)在HDFS中的/spark/test路徑下如果使用Spark Shell來讀取HDFS中的/spark/test/ words.txt文件,具體步驟如下: 查看全文>>
大數據技術文章2020-12-21 |傳智教育 |Shell讀取文件,運行Spark
在Scala中,控制結構語句包括條件分支語句和循環語句。其中,條件分支語句有if語句、if...else語句、if...else if...else語句以及if...else嵌套語句;循環語句有for循環,while循環和do...while循環。條件分支語句和循環語句的語法格式具體如下。 查看全文>>
大數據技術文章2020-12-17 |傳智教育 |控制結構語句的語法格式
Spark作業與MapReduce作業同樣可以先在本地開發測試,本地執行模式與集群提交模式,代碼的業務功能相同,因此本書大多數采用本地開發模式。下面講解使用IDEA工具開發WordCount單詞計數程序的相關步驟。 查看全文>>
大數據技術文章2020-12-17 |傳智教育 |開發WordCount單詞計數程序的相關步驟,Spark