เช่นเดียวกับเครื่องที่ทำหน้าที่เป็น qmaster การเริ่มคอนฟิกเครื่อง execd host ก็ต้อง ติดตั้ง Sun Grid Engine บน CentOS 5.5 ก่อนแล้วค่อยคอนฟิกให้ทำหน้าที่เป็น execd host
หมายเหตุ ตัวอย่างในบทความนี้คอนฟิกบน node1 เครื่องเดียว ส่วนเครื่องอื่นๆ ที่จะทำหน้าที่เป็น execd host ด้วย ก็คอนฟิกแบบเดียวกัน
หลังจากติดตั้ง Sun Grid Engine แล้ว cd ไปยังไดเรคทอรีที่ติดตั้ง sge
[root@cent55-node1 sge6_2u5]# cd /gridware/sge/
[root@cent55-node1 sge]# ls -l total 136 drwxr-xr-x 2 root root 4096 Jan 8 22:25 3rd_party drwxr-xr-x 3 root root 4096 Jan 8 22:25 bin drwxr-xr-x 3 root root 4096 Jan 8 22:25 catman drwxr-xr-x 2 root root 4096 Jan 8 22:25 ckpt drwxr-xr-x 5 root root 4096 Jan 8 22:25 doc drwxr-xr-x 2 root root 4096 Jan 8 22:25 dtrace drwxr-xr-x 5 root root 4096 Jan 8 22:25 examples drwxr-xr-x 2 root root 4096 Jan 8 22:25 hadoop drwxr-xr-x 2 root root 4096 Jan 8 22:25 include -rwxr-xr-x 1 root root 125 Dec 11 2009 install_execd -rwxr-xr-x 1 root root 125 Dec 11 2009 install_qmaster -rwxr-xr-x 1 root root 59960 Dec 11 2009 inst_sge drwxr-xr-x 3 root root 4096 Jan 8 22:25 lib drwxr-xr-x 6 root root 4096 Jan 8 22:25 man drwxr-xr-x 4 root root 4096 Jan 8 22:25 mpi drwxr-xr-x 3 root root 4096 Jan 8 22:25 pvm drwxr-xr-x 3 root root 4096 Jan 8 22:25 qmon -rwxr-xr-x 1 root root 1289 Dec 11 2009 start_gui_installer drwxr-xr-x 10 root root 4096 Jan 8 22:25 util drwxr-xr-x 3 root root 4096 Jan 8 22:25 utilbin
ต้อง copy ไดเรคทอรี ของ cell ที่คอนฟิกไว้บนเครื่อง qmaster host
ล็อกอินเข้าเครื่อง sge แล้วรันคำสั่ง tar ใน /gridware/sge/ เพื่อรวมไฟล์ทั้งหมดที่อยู่ในไดเรคทอรีของ cell ในที่นี้เราตั้งชื่อเป็น MyCell
[root@cent55-sge ~]# cd /gridware/sge/
[root@cent55-sge sge]# tar jcvpf MyCell.tar.bz2 MyCell/ MyCell/ MyCell/spool/ MyCell/spool/qmaster/ MyCell/spool/qmaster/heartbeat MyCell/spool/qmaster/arseqnum MyCell/spool/qmaster/qmaster.pid MyCell/spool/qmaster/messages MyCell/spool/qmaster/job_scripts/ MyCell/spool/qmaster/jobseqnum MyCell/spool/qmaster/lock MyCell/spool/spooldb/ MyCell/spool/spooldb/__db.005 MyCell/spool/spooldb/__db.001 MyCell/spool/spooldb/sge_job MyCell/spool/spooldb/__db.003 MyCell/spool/spooldb/log.0000000001 MyCell/spool/spooldb/__db.004 MyCell/spool/spooldb/__db.002 MyCell/spool/spooldb/sge MyCell/spool/spooldb/__db.006 MyCell/common/ MyCell/common/settings.csh MyCell/common/sgeexecd MyCell/common/act_qmaster MyCell/common/bootstrap MyCell/common/sgemaster MyCell/common/sge_aliases MyCell/common/sge_request MyCell/common/cluster_name MyCell/common/qtask MyCell/common/settings.sh
copy ไฟล์ ไปยังเครื่อง node1 โดยอาจใช้คำสั่ง scp หรืออื่นๆ ก็ได้
[root@cent55-sge sge]# scp MyCell.tar.bz2 cent55-node1:
กลับมายังเครื่อง node1 รันคำสั่ง tar เพื่อแตกไฟล์ ไว้ใน /gridware/sge/
[root@cent55-node1 sge]# tar jxvf /root/MyCell.tar.bz2 MyCell/ MyCell/spool/ MyCell/spool/qmaster/ MyCell/spool/qmaster/heartbeat MyCell/spool/qmaster/arseqnum MyCell/spool/qmaster/qmaster.pid MyCell/spool/qmaster/messages MyCell/spool/qmaster/job_scripts/ MyCell/spool/qmaster/jobseqnum MyCell/spool/qmaster/lock MyCell/spool/spooldb/ MyCell/spool/spooldb/__db.005 MyCell/spool/spooldb/__db.001 MyCell/spool/spooldb/sge_job MyCell/spool/spooldb/__db.003 MyCell/spool/spooldb/log.0000000001 MyCell/spool/spooldb/__db.004 MyCell/spool/spooldb/__db.002 MyCell/spool/spooldb/sge MyCell/spool/spooldb/__db.006 MyCell/common/ MyCell/common/settings.csh MyCell/common/sgeexecd MyCell/common/act_qmaster MyCell/common/bootstrap MyCell/common/sgemaster MyCell/common/sge_aliases MyCell/common/sge_request MyCell/common/cluster_name MyCell/common/qtask MyCell/common/settings.sh
รันคำสั่ง ./install_execd หรือ ./inst_sge -x เพื่อติดตั้ง sge บนเครื่องนี้ให้ทำหน้าที่เป็น qmaster host
หน้าจอแสดงเริ่มต้นการติดตั้งเป็น sge execution host
[root@cent55-node1 sge]# ./inst_sge -x
Welcome to the Grid Engine execution host installation ------------------------------------------------------
If you haven't installed the Grid Engine qmaster host yet, you must execute this step (with >install_qmaster<) prior the execution host installation.
For a sucessfull installation you need a running Grid Engine qmaster. It is also neccesary that this host is an administrative host.
You can verify your current list of administrative hosts with the command:
# qconf -sh
You can add an administrative host with the command:
# qconf -ah <hostname>
The execution host installation will take approximately 5 minutes.
Hit <RETURN> to continue >>
ตรวจสอบไดเรคทอรีหลัก
Checking $SGE_ROOT directory ----------------------------
The Grid Engine root directory is:
$SGE_ROOT = /gridware/sge
If this directory is not correct (e.g. it may contain an automounter prefix) enter the correct path to this directory or hit <RETURN> to use default [/gridware/sge] >>
Your $SGE_ROOT directory: /gridware/sge
Hit <RETURN> to continue >>
ระบุชื่อ cell ที่คอนฟิกไว้บน qmaster ในที่นี้คือ MyCell
Grid Engine cells -----------------
Please enter cell name which you used for the qmaster installation or press <RETURN> to use [default] >> MyCell
Using cell: >MyCell<
Hit <RETURN> to continue >>
พอร์ตสำหรับรัน sge_execd
Grid Engine TCP/IP communication service ----------------------------------------
The port for sge_execd is currently set as service.
sge_execd service set to port 10501
Hit <RETURN> to continue >>
หาก node นี้อยู่ใน administrative host บน sge qmaster แล้ว
Checking hostname resolving ---------------------------
This hostname is known at qmaster as an administrative host.
Hit <RETURN> to continue >>
คอนฟิกไดเรคทอรี spool
Execd spool directory configuration -----------------------------------
You defined a global spool directory when you installed the master host. You can use that directory for spooling jobs from this execution host or you can define a different spool directory for this execution host.
ATTENTION: For most operating systems, the spool directory does not have to be located on a local disk. The spool directory can be located on a network-accessible drive. However, using a local spool directory provides better performance.
FOR WINDOWS USERS: On Windows systems, the spool directory MUST be located on a local disk. If you install an execution daemon on a Windows system without a local spool directory, the execution host is unusable.
The spool directory is currently set to:
<</gridware/sge/MyCell/spool/cent55-node1>>
Do you want to configure a different spool directory for this host (y/n) [n] >>
Creating local configuration ---------------------------- sgeadmin@cent55-node1.spalinux.com added "cent55-node1.spalinux.com" to configuration list Local configuration for host >cent55-node1.spalinux.com< created.
Hit <RETURN> to continue >>
สร้างไฟล์สำหรับรัน sge execd ตอนบู๊ตเครื่อง
execd startup script --------------------
We can install the startup script that will start execd at machine boot (y/n) [y] >>
cp /gridware/sge/MyCell/common/sgeexecd /etc/init.d/sgeexecd.MyCluster /usr/lib/lsb/install_initd /etc/init.d/sgeexecd.MyCluster
Hit <RETURN> to continue >>
Grid Engine execution daemon startup ------------------------------------
Starting execution daemon. Please wait ... starting sge_execd
Hit <RETURN> to continue >>
เพิ่ม queue
Adding a queue for this host ----------------------------
We can now add a queue instance for this host:
- it is added to the >allhosts< hostgroup - the queue provides 1 slot(s) for jobs in all queues referencing the >allhosts< hostgroup
You do not need to add this host now, but before running jobs on this host it must be added to at least one queue.
Do you want to add a default queue instance for this host (y/n) [y] >>
root@cent55-node1.spalinux.com modified "@allhosts" in host group list root@cent55-node1.spalinux.com modified "all.q" in cluster queue list
Hit <RETURN> to continue >>
หน้าจอแสดงวิธีการใช้ sge
Using Grid Engine -----------------
You should now enter the command:
source /gridware/sge/MyCell/common/settings.csh
if you are a csh/tcsh user or
# . /gridware/sge/MyCell/common/settings.sh
if you are a sh/ksh user.
This will set or expand the following environment variables:
- $SGE_ROOT (always necessary) - $SGE_CELL (if you are using a cell other than >default<) - $SGE_CLUSTER_NAME (always necessary) - $SGE_QMASTER_PORT (if you haven't added the service >sge_qmaster<) - $SGE_EXECD_PORT (if you haven't added the service >sge_execd<) - $PATH/$path (to find the Grid Engine binaries) - $MANPATH (to access the manual pages)
Hit <RETURN> to see where Grid Engine logs messages >>
Grid Engine messages --------------------
Grid Engine messages can be found at:
/tmp/qmaster_messages (during qmaster startup) /tmp/execd_messages (during execution daemon startup)
After startup the daemons log their messages in their spool directories.
Qmaster: /gridware/sge/MyCell/spool/qmaster/messages Exec daemon: <execd_spool_dir>/<hostname>/messages
Grid Engine startup scripts ---------------------------
Grid Engine startup scripts can be found at:
/gridware/sge/MyCell/common/sgemaster (qmaster) /gridware/sge/MyCell/common/sgeexecd (execd)
Do you want to see previous screen about using Grid Engine again (y/n) [n] >>
Your execution daemon installation is now completed.
ใช้คำสั่ง ps ตรวจสอบโปรเซส sge_execd
[root@cent55-node1 sge]# ps -ef | grep sge sgeadmin 2346 1 0 22:37 ? 00:00:00 /gridware/sge/bin/lx24-amd64/sge_execd root 2414 1668 0 22:39 pts/0 00:00:00 grep sge
การเปิด/ปิด เซอร์วิส sge_execd
การปิดเซอร์วิส sgeexecd
[root@cent55-node1 sge]# /etc/init.d/sgeexecd.MyCluster stop Shutting down Grid Engine execution daemon
การเปิดหรือรันเซอร์วิส sgeexecd
[root@cent55-node1 sge]# /etc/init.d/sgeexecd.MyCluster start starting sge_execd