คอนฟิก Sun Grid Engine execution (execd) host

เช่นเดียวกับเครื่องที่ทำหน้าที่เป็น qmaster  การเริ่มคอนฟิกเครื่อง execd host ก็ต้อง ติดตั้ง Sun Grid Engine บน CentOS 5.5 ก่อนแล้วค่อยคอนฟิกให้ทำหน้าที่เป็น execd host

หมายเหตุ ตัวอย่างในบทความนี้คอนฟิกบน node1 เครื่องเดียว ส่วนเครื่องอื่นๆ ที่จะทำหน้าที่เป็น execd host ด้วย ก็คอนฟิกแบบเดียวกัน

หลังจากติดตั้ง Sun Grid Engine แล้ว cd ไปยังไดเรคทอรีที่ติดตั้ง sge

[root@cent55-node1 sge6_2u5]# cd /gridware/sge/
[root@cent55-node1 sge]# ls -l
total 136
drwxr-xr-x  2 root root  4096 Jan  8 22:25 3rd_party
drwxr-xr-x  3 root root  4096 Jan  8 22:25 bin
drwxr-xr-x  3 root root  4096 Jan  8 22:25 catman
drwxr-xr-x  2 root root  4096 Jan  8 22:25 ckpt
drwxr-xr-x  5 root root  4096 Jan  8 22:25 doc
drwxr-xr-x  2 root root  4096 Jan  8 22:25 dtrace
drwxr-xr-x  5 root root  4096 Jan  8 22:25 examples
drwxr-xr-x  2 root root  4096 Jan  8 22:25 hadoop
drwxr-xr-x  2 root root  4096 Jan  8 22:25 include
-rwxr-xr-x  1 root root   125 Dec 11  2009 install_execd
-rwxr-xr-x  1 root root   125 Dec 11  2009 install_qmaster
-rwxr-xr-x  1 root root 59960 Dec 11  2009 inst_sge
drwxr-xr-x  3 root root  4096 Jan  8 22:25 lib
drwxr-xr-x  6 root root  4096 Jan  8 22:25 man
drwxr-xr-x  4 root root  4096 Jan  8 22:25 mpi
drwxr-xr-x  3 root root  4096 Jan  8 22:25 pvm
drwxr-xr-x  3 root root  4096 Jan  8 22:25 qmon
-rwxr-xr-x  1 root root  1289 Dec 11  2009 start_gui_installer
drwxr-xr-x 10 root root  4096 Jan  8 22:25 util
drwxr-xr-x  3 root root  4096 Jan  8 22:25 utilbin

ต้อง copy ไดเรคทอรี ของ cell ที่คอนฟิกไว้บนเครื่อง qmaster host

ล็อกอินเข้าเครื่อง sge แล้วรันคำสั่ง tar ใน /gridware/sge/ เพื่อรวมไฟล์ทั้งหมดที่อยู่ในไดเรคทอรีของ cell ในที่นี้เราตั้งชื่อเป็น MyCell

[root@cent55-sge ~]# cd /gridware/sge/
[root@cent55-sge sge]# tar jcvpf MyCell.tar.bz2 MyCell/
MyCell/
MyCell/spool/
MyCell/spool/qmaster/
MyCell/spool/qmaster/heartbeat
MyCell/spool/qmaster/arseqnum
MyCell/spool/qmaster/qmaster.pid
MyCell/spool/qmaster/messages
MyCell/spool/qmaster/job_scripts/
MyCell/spool/qmaster/jobseqnum
MyCell/spool/qmaster/lock
MyCell/spool/spooldb/
MyCell/spool/spooldb/__db.005
MyCell/spool/spooldb/__db.001
MyCell/spool/spooldb/sge_job
MyCell/spool/spooldb/__db.003
MyCell/spool/spooldb/log.0000000001
MyCell/spool/spooldb/__db.004
MyCell/spool/spooldb/__db.002
MyCell/spool/spooldb/sge
MyCell/spool/spooldb/__db.006
MyCell/common/
MyCell/common/settings.csh
MyCell/common/sgeexecd
MyCell/common/act_qmaster
MyCell/common/bootstrap
MyCell/common/sgemaster
MyCell/common/sge_aliases
MyCell/common/sge_request
MyCell/common/cluster_name
MyCell/common/qtask
MyCell/common/settings.sh

copy ไฟล์ ไปยังเครื่อง node1 โดยอาจใช้คำสั่ง scp หรืออื่นๆ ก็ได้

[root@cent55-sge sge]# scp MyCell.tar.bz2 cent55-node1:

กลับมายังเครื่อง node1 รันคำสั่ง tar เพื่อแตกไฟล์ ไว้ใน /gridware/sge/

[root@cent55-node1 sge]# tar jxvf /root/MyCell.tar.bz2
MyCell/
MyCell/spool/
MyCell/spool/qmaster/
MyCell/spool/qmaster/heartbeat
MyCell/spool/qmaster/arseqnum
MyCell/spool/qmaster/qmaster.pid
MyCell/spool/qmaster/messages
MyCell/spool/qmaster/job_scripts/
MyCell/spool/qmaster/jobseqnum
MyCell/spool/qmaster/lock
MyCell/spool/spooldb/
MyCell/spool/spooldb/__db.005
MyCell/spool/spooldb/__db.001
MyCell/spool/spooldb/sge_job
MyCell/spool/spooldb/__db.003
MyCell/spool/spooldb/log.0000000001
MyCell/spool/spooldb/__db.004
MyCell/spool/spooldb/__db.002
MyCell/spool/spooldb/sge
MyCell/spool/spooldb/__db.006
MyCell/common/
MyCell/common/settings.csh
MyCell/common/sgeexecd
MyCell/common/act_qmaster
MyCell/common/bootstrap
MyCell/common/sgemaster
MyCell/common/sge_aliases
MyCell/common/sge_request
MyCell/common/cluster_name
MyCell/common/qtask
MyCell/common/settings.sh

รันคำสั่ง ./install_execd หรือ ./inst_sge -x เพื่อติดตั้ง sge บนเครื่องนี้ให้ทำหน้าที่เป็น qmaster host

หน้าจอแสดงเริ่มต้นการติดตั้งเป็น sge execution host

[root@cent55-node1 sge]# ./inst_sge -x
Welcome to the Grid Engine execution host installation
------------------------------------------------------
If you haven't installed the Grid Engine qmaster host yet, you must execute
this step (with >install_qmaster<) prior the execution host installation.
For a sucessfull installation you need a running Grid Engine qmaster. It is
also neccesary that this host is an administrative host.
You can verify your current list of administrative hosts with
the command:
   # qconf -sh
You can add an administrative host with the command:
   # qconf -ah <hostname>
The execution host installation will take approximately 5 minutes.
Hit <RETURN> to continue >>

ตรวจสอบไดเรคทอรีหลัก

Checking $SGE_ROOT directory
----------------------------
The Grid Engine root directory is:
   $SGE_ROOT = /gridware/sge
If this directory is not correct (e.g. it may contain an automounter
prefix) enter the correct path to this directory or hit <RETURN>
to use default [/gridware/sge] >>
Your $SGE_ROOT directory: /gridware/sge
Hit <RETURN> to continue >>

ระบุชื่อ cell ที่คอนฟิกไว้บน qmaster ในที่นี้คือ MyCell

Grid Engine cells
-----------------
Please enter cell name which you used for the qmaster
installation or press <RETURN> to use [default] >> MyCell
Using cell: >MyCell<
Hit <RETURN> to continue >>

พอร์ตสำหรับรัน sge_execd

Grid Engine TCP/IP communication service
----------------------------------------
The port for sge_execd is currently set as service.
   sge_execd service set to port 10501
Hit <RETURN> to continue >>

หาก node นี้อยู่ใน administrative host บน sge qmaster แล้ว

Checking hostname resolving
---------------------------
This hostname is known at qmaster as an administrative host.
Hit <RETURN> to continue >>

คอนฟิกไดเรคทอรี spool

Execd spool directory configuration
-----------------------------------
You defined a global spool directory when you installed the master host.
You can use that directory for spooling jobs from this execution host
or you can define a different spool directory for this execution host.
ATTENTION: For most operating systems, the spool directory does not have to
be located on a local disk. The spool directory can be located on a
network-accessible drive. However, using a local spool directory provides
better performance.
FOR WINDOWS USERS: On Windows systems, the spool directory MUST be located
on a local disk. If you install an execution daemon on a Windows system
without a local spool directory, the execution host is unusable.
The spool directory is currently set to:
<</gridware/sge/MyCell/spool/cent55-node1>>
Do you want to configure a different spool directory
for this host (y/n) [n] >>
Creating local configuration
----------------------------
sgeadmin@cent55-node1.spalinux.com added "cent55-node1.spalinux.com" to configuration list
Local configuration for host >cent55-node1.spalinux.com< created.
Hit <RETURN> to continue >> 

สร้างไฟล์สำหรับรัน sge execd ตอนบู๊ตเครื่อง

execd startup script
--------------------
We can install the startup script that will
start execd at machine boot (y/n) [y] >>
cp /gridware/sge/MyCell/common/sgeexecd /etc/init.d/sgeexecd.MyCluster
/usr/lib/lsb/install_initd /etc/init.d/sgeexecd.MyCluster
Hit <RETURN> to continue >>
Grid Engine execution daemon startup
------------------------------------
Starting execution daemon. Please wait ...
   starting sge_execd
Hit <RETURN> to continue >>

เพิ่ม queue

 Adding a queue for this host
----------------------------
We can now add a queue instance for this host:
   - it is added to the >allhosts< hostgroup
   - the queue provides 1 slot(s) for jobs in all queues
     referencing the >allhosts< hostgroup
You do not need to add this host now, but before running jobs on this host
it must be added to at least one queue.
Do you want to add a default queue instance for this host (y/n) [y] >>
root@cent55-node1.spalinux.com modified "@allhosts" in host group list
root@cent55-node1.spalinux.com modified "all.q" in cluster queue list
Hit <RETURN> to continue >>

หน้าจอแสดงวิธีการใช้ sge

Using Grid Engine
-----------------
You should now enter the command:
   source /gridware/sge/MyCell/common/settings.csh
if you are a csh/tcsh user or
   # . /gridware/sge/MyCell/common/settings.sh
if you are a sh/ksh user.
This will set or expand the following environment variables:
   - $SGE_ROOT         (always necessary)
   - $SGE_CELL         (if you are using a cell other than >default<)
   - $SGE_CLUSTER_NAME (always necessary)
   - $SGE_QMASTER_PORT (if you haven't added the service >sge_qmaster<)
   - $SGE_EXECD_PORT   (if you haven't added the service >sge_execd<)
   - $PATH/$path       (to find the Grid Engine binaries)
   - $MANPATH          (to access the manual pages)
Hit <RETURN> to see where Grid Engine logs messages >>
Grid Engine messages
--------------------
Grid Engine messages can be found at:
   /tmp/qmaster_messages (during qmaster startup)
   /tmp/execd_messages   (during execution daemon startup)
After startup the daemons log their messages in their spool directories.
   Qmaster:     /gridware/sge/MyCell/spool/qmaster/messages
   Exec daemon: <execd_spool_dir>/<hostname>/messages
Grid Engine startup scripts
---------------------------
Grid Engine startup scripts can be found at:
   /gridware/sge/MyCell/common/sgemaster (qmaster)
   /gridware/sge/MyCell/common/sgeexecd (execd)
Do you want to see previous screen about using Grid Engine again (y/n) [n] >>
Your execution daemon installation is now completed.

ใช้คำสั่ง ps ตรวจสอบโปรเซส sge_execd

[root@cent55-node1 sge]# ps -ef | grep sge
sgeadmin  2346     1  0 22:37 ?        00:00:00 /gridware/sge/bin/lx24-amd64/sge_execd
root      2414  1668  0 22:39 pts/0    00:00:00 grep sge

 
การเปิด/ปิด เซอร์วิส sge_execd

การปิดเซอร์วิส sgeexecd

[root@cent55-node1 sge]# /etc/init.d/sgeexecd.MyCluster stop
   Shutting down Grid Engine execution daemon

การเปิดหรือรันเซอร์วิส sgeexecd

[root@cent55-node1 sge]# /etc/init.d/sgeexecd.MyCluster start
   starting sge_execd

 
ข้อมูลอ้างอิง

Leave a Reply

Your email address will not be published.