1. 如何在windows下安裝hadoop
1、安裝Cygwin
下載cygwin的setup.exe,雙擊運行:
選擇從Internet安裝:
設置安裝目錄:
設置安裝包目錄:
設置「Internet Connection」的方式,選擇「Direct Connection」:
選擇一個下載站點:
「下一步」之後,可能會彈出下圖的「Setup Alert」對話框,直接「確定」即可
在「Select Packages」對話框中,必須保證「Net Category」下的「OpenSSL」被安裝:
如果還打算在eclipse 上編譯Hadoop,則還必須安裝「Base Category」下的「sed」:
「Devel Category」下的subversion 建議安裝:
下載並安裝:
當下載完後,會自動進入到「setup」的對話框:
在上圖所示的對話框中,選中「Create icon on Desktop」,以方便直接從桌面上啟動
Cygwin,然後點擊「完成」按鈕。至此,Cgywin 已經安裝完成。
2、配置環境變數
需要配置的環境變數包括PATH 和JAVA_HOME:將JDK 的bin 目錄、Cygwin 的bin 目錄
以及Cygwin 的usr\bin(sbin)目錄都添加到PATH 環境變數中;JAVA_HOME 指向JRE 安裝目錄。
3、windows系統上運行hadoop集群,偽分布式模式安裝步驟:
①啟動cygwin,解壓hadoop安裝包。通過cygdrive(位於Cygwin根目錄中)可以直接映射到windows下的各個邏輯磁碟分區。例如hadoop安裝包放在分區D:\下,則解壓的命令為$ tar -zxvf /cygdrive/d/hadoop-0.20.2.tar.gz,解壓後可使用ls命令查看,如下圖:
默認的解壓目錄為用戶根目錄,即D:\cygwin\home\lsq(用戶帳戶)。
②編輯conf/hadoop-env.sh文件,將JAVA_HOME變數設置為java的安裝目錄。例如java安裝在目錄C:\Program Files\java\jdk1.6.0_13,如果路徑沒空格,直接配置即可。存在空格,需將Program Files縮寫成Progra_1,如下圖:
③依次編輯conf目錄下的core-site.xml、mapred-site.xml和hdfs-site.xml文件,如下圖:
④安裝配置SSH
點擊桌面上的Cygwin圖標,啟動Cygwin,執行ssh-host-config命令,然後按下圖上的選擇輸入:
當提示Do you want to use a different name?輸入yes,這步是配置安裝的sshd服務,以哪個用戶登錄,默認是cyg_server這個用戶,這里就不事先新建cyg_server這個用戶,用當前本機的超管本地用戶:chenx,後續根據提示,2次輸入這個賬戶的密碼
出現Host configuration finished. Have fun! 一般安裝順利完成。如下圖:
輸入命令$ net start sshd,啟動SSH,如下圖:
註:sshd服務安裝完之後,不會默認啟動,如果啟動報登錄失敗,不能啟動,可在服務屬性-Log On窗口手工修改,在前述的過程之中,cygwin不會校驗密碼是否正確,應該只是校驗了2次的輸入是否一致,然後再手工啟動。不知道為什麼,sshd服務如果選擇local system的登錄方式,後續會有問題,所以sshd服務最好設置成當前的登錄用戶。
⑤配置ssh登錄
執行ssh-keygen命令生成密鑰文件
輸入如下命令:
cd ~/.ssh
ls -l
cat id_rsa.pub >> authorized_keys
完成上述操作後,執行exit命令先退出Cygwin窗口,如果不執行這一步操作,下面的操作可能會遇到錯誤。接下來,重新運行Cygwin,執行ssh localhost命令,在第一次執行ssh localhost時,會有「are you sure you want to continue connection<yes/no>?」提示,輸入yes,然後回車即可。當出現下圖提示,即順利完成該步:
⑥hadoop運行
格式化namenode
打開cygwin窗口,輸入如下命令:
cd hadoop-0.20.2
mkdir logs
bin/hadoop namenode –format
啟動Hadoop
在Cygwin 中,進入hadoop 的bin 目錄,
運行./start-all.sh 啟動hadoop;
可以執行./hadoop fs -ls /命令,查看hadoop 的根目錄;
可以執行jps 查看相關進程;
如下圖:(如果顯示和下圖類似,一般hadoop安裝/啟動成功)
2. 學習hadoop 搭建哪個模式好
單點模式比較好,一台機器上同時裝name node和data node
3. Hadoop可以運行的模式
咨詢記錄 · 回答於2021-12-24
4. 在自己電腦上學習hadoop應該安裝那種模式
偽集群方式、單機模式都可以。或者你安裝兩個VMware的LINUX虛擬機,也可以實現真正的集群模式。
5. hadoop可不可以在同一台電腦上分別安裝成單機和純分布模式
一台Linux上建100個用戶也是共享一套存儲和計算資源是無法構成分布式的。namenode=127.0.0.1,datanode=localhost肯定是不行的。可以先通過虛擬化技術把存儲和計算資源虛擬成多個,還有可能。
6. hadoop單機模式和偽分布式模式的異同
1、運行模式不同:
單機模式是Hadoop的默認模式。這種模式在一台單機上運行,沒有分布式文件系統,而是直接讀寫本地操作系統的文件系統。
偽分布模式這種模式也是在一台單機上運行,但用不同的Java進程模仿分布式運行中的各類結點。
2、配置不同:
單機模式(standalone)首次解壓Hadoop的源碼包時,Hadoop無法了解硬體安裝環境,便保守地選擇了最小配置。在這種默認模式下所有3個XML文件均為空。當配置文件為空時,Hadoop會完全運行在本地。
偽分布模式在「單節點集群」上運行Hadoop,其中所有的守護進程都運行在同一台機器上。
3、節點交互不同:
單機模式因為不需要與其他節點交互,單機模式就不使用HDFS,也不載入任何Hadoop的守護進程。該模式主要用於開發調試MapRece程序的應用邏輯。
偽分布模式在單機模式之上增加了代碼調試功能,允許你檢查內存使用情況,HDFS輸入輸出,以及其他的守護進程交互。
(6)hadoop電腦安裝哪個模式擴展閱讀:
核心架構:
1、HDFS:
HDFS對外部客戶機而言,HDFS就像一個傳統的分級文件系統。可以創建、刪除、移動或重命名文件,等等。存儲在 HDFS 中的文件被分成塊,然後將這些塊復制到多個計算機中(DataNode)。這與傳統的 RAID 架構大不相同。塊的大小和復制的塊數量在創建文件時由客戶機決定。
2、NameNode
NameNode 是一個通常在 HDFS 實例中的單獨機器上運行的軟體。它負責管理文件系統名稱空間和控制外部客戶機的訪問。NameNode 決定是否將文件映射到 DataNode 上的復制塊上。
3、DataNode
DataNode 也是在 HDFS實例中的單獨機器上運行的軟體。Hadoop 集群包含一個 NameNode 和大量 DataNode。DataNode 通常以機架的形式組織,機架通過一個交換機將所有系統連接起來。Hadoop 的一個假設是:機架內部節點之間的傳輸速度快於機架間節點的傳輸速度。
7. win10上可以安裝Hadoop嗎哪個版本Hadoop可以安裝在win10上,做測試
前言 Windows下運行Hadoop,通常有兩種方式:一種是用VM方式安裝一個Linux操作系統,這樣基本可以實現全Linux環境的Hadoop運行;另一種是通過Cygwin模擬Linux環境。後者的好處是使用比較方便,安裝過程也簡單,本篇文章是介紹第二種方式Cygwin