大數(shù)據(jù)基準(zhǔn)測試工具 HiBench
瘋瘋小敗
發(fā)布于 云南 2021-08-12 · 2.6w瀏覽 2回復(fù) 5贊

前言

 對于做大數(shù)據(jù)平臺的工程師,如果等到使用者來抱怨自己維護的大數(shù)據(jù)平臺不穩(wěn)定、性能差的時候,可能就有點晚了,因為這些消息可能已經(jīng)傳到老板那里了。所以必須自己不停地跑一些測試,了解大數(shù)據(jù)平臺的狀況。有了 HiBench,這些問題都很容易就可以解決,HiBench 內(nèi)置了主要的大數(shù)據(jù)程序,支持多種大數(shù)據(jù)產(chǎn)品。最重要的是使用特別簡單,初學(xué)者可以把 HiBench 當(dāng)作學(xué)習(xí)工具,可以很快運行起各種數(shù)據(jù)分析和機器學(xué)習(xí)大數(shù)據(jù)應(yīng)用。大數(shù)據(jù)工程師也可以用 HiBench 測試自己的大數(shù)據(jù)平臺,驗證各種大數(shù)據(jù)產(chǎn)品的性能。

使用

 HiBench 使用非常簡單,只需要三步:

1. 配置,配置要測試的數(shù)據(jù)量、大數(shù)據(jù)運行環(huán)境和路徑信息等基本參數(shù)。

2. 初始化數(shù)據(jù),生成準(zhǔn)備要計算的數(shù)據(jù),比如要測試 1TB 數(shù)據(jù)的排序,那么就生成 1TB 數(shù)據(jù)。

3. 執(zhí)行測試,運行對應(yīng)的大數(shù)據(jù)計算程序。

具體初始化和執(zhí)行命令也非常簡單,比如要生成數(shù)據(jù),只需要運行 bin 目錄下對應(yīng) workload 的 prepare.sh 就可以自動生成配置大小的數(shù)據(jù)。

bin/workloads/micro/terasort/prepare/prepare.sh

要執(zhí)行大數(shù)據(jù)計算,運行 run.sh 就可以了。

bin/workloads/micro/terasort/hadoop/run.sh

bin/workloads/micro/terasort/spark/run.sh

價值

HiBench 內(nèi)置了若干主要的大數(shù)據(jù)計算程序作為基準(zhǔn)測試的負載(workload)。

Sort,對數(shù)據(jù)進行排序大數(shù)據(jù)程序。

WordCount,前面多次提到過,詞頻統(tǒng)計大數(shù)據(jù)計算程序。

TeraSort,對 1TB 數(shù)據(jù)進行排序,最早是一項關(guān)于軟件和硬件的計算力的競賽,所以很多大數(shù)據(jù)平臺和硬件廠商進行產(chǎn)品宣傳的時候會用 TeraSort 成績作為賣點。

Bayes 分類,機器學(xué)習(xí)分類算法,用于數(shù)據(jù)分類和預(yù)測。

k-means 聚類,對數(shù)據(jù)集合規(guī)律進行挖掘的算法。

邏輯回歸,數(shù)據(jù)進行預(yù)測和回歸的算法。

SQL,包括全表掃描、聚合操作(group by)、連接操作(join)幾種典型查詢 SQL。PageRank,Web 排序算法。

此外還有十幾種常用大數(shù)據(jù)計算程序,支持的大數(shù)據(jù)框架包括 MapReduce、Spark、Storm 等。

對于很多非大數(shù)據(jù)專業(yè)人士而言,HiBench 的價值不在于對各種大數(shù)據(jù)系統(tǒng)進行基準(zhǔn)測試,而是學(xué)習(xí)大數(shù)據(jù)、驗證自己大數(shù)據(jù)平臺性能的工具。

瘋瘋小敗
讓自己快樂才叫有意義
瀏覽 2.6w
5
相關(guān)推薦
最新評論 2
贊過的人 5
評論加載中...

暫無評論,快來評論吧!