Skip to content

Commit

Permalink
Merge pull request #33 from ABCI-FJSE/fj20190409-00
Browse files Browse the repository at this point in the history
mod file name:known-issu.md, -l resource_type and USE_BEEOND, known-issue and fix typos
  • Loading branch information
ABCI-FJSE authored Apr 10, 2019
2 parents 3e8d915 + 86c7cc4 commit d25536d
Show file tree
Hide file tree
Showing 14 changed files with 37 additions and 42 deletions.
10 changes: 5 additions & 5 deletions en/docs/03.md
Original file line number Diff line number Diff line change
Expand Up @@ -113,8 +113,8 @@ The major options of the `qsub` and the `qrsh` command are follows.
| Option | Description |
|:--|:--|
| -g *group* | Specify ABCI user group |
| -l *resource_type*[=*number*] | Specify resource type (mandatory) |
| -l h_rt=[[*HH:*]*MM:*]*SS*] | Specify elapsed time by [[*HH:*]*MM:*]*SS*. When execution time of job exceed specified time, job is rejected. |
| -l *resource_type*=*number* | Specify resource type (mandatory) |
| -l h_rt=[*HH:MM:*]*SS* | Specify elapsed time by [*HH:MM:*]*SS*. When execution time of job exceed specified time, job is rejected. |
| -N *name* | Specify job name. default is name of job script. |
| -o *stdout_name* | Specify standard output stream of job |
| -p *priority* | Specify POSIX priority for Spot service |
Expand All @@ -133,7 +133,7 @@ To execute an interactive job, use the `qrsh` command.
If ABCI point is insufficient when executing interactive job, execution is failed.

```
$ qrsh -g ABCI_UserGroup -l Resource_type[=number] [option]
$ qrsh -g ABCI_UserGroup -l Resource_type=number [option]
```

Expand Down Expand Up @@ -349,7 +349,7 @@ jc_name NONE
```

The major fields of accounting information are follows.
For more detail, use `man accounting` command.
For more detail, use `man sge_accounting` command.

| Field | Description |
|:--|:--|
Expand All @@ -360,7 +360,7 @@ For more detail, use `man accounting` command.
| end_time | Job end time |
| failed | Job end code managed by job scheduler |
| exit_status | Job end status |
| ru_wallclock | Job running time(include pre/post process) |
| wallclock | Job running time(include pre/post process) |

### 3.5.6. Environment Variable

Expand Down
4 changes: 2 additions & 2 deletions en/docs/04.md
Original file line number Diff line number Diff line change
Expand Up @@ -89,7 +89,7 @@ Note that the amount of the local storage you can use is determined by "Resource

The set of NVMe storages of job assigned compute nodes can be used as a
distributed shared file system (BeeGFS) on demand.
When using on demand BeeGFS (BeeOND), you need to submit job with `-l USE_BEEOND` option.
When using on demand BeeGFS (BeeOND), you need to submit job with `-l USE_BEEOND=1` option.
And you need to specify `-l rt_F` option in this case, because node must be exclusively allocated to job.

The created distributed shared file system area can be accessed from /beeond.
Expand All @@ -100,7 +100,7 @@ Example) sample of job script(use_beeond.sh)
#!/bin/bash

#$-l rt_F=2
#$-l USE_BEEOND
#$-l USE_BEEOND=1
#$-cwd

echo test1 > /beeond/foo.txt
Expand Down
8 changes: 2 additions & 6 deletions en/docs/09.md
Original file line number Diff line number Diff line change
Expand Up @@ -69,13 +69,9 @@ When you use Docker, you need to set up user environment by the `module` command
The available Docker image can be referred by `show_docker_images` command.

```
[username@es1 ~]$ show_docker_imags
[username@es1 ~]$ show_docker_images
REPOSITORY TAG IMAGE ID CREATED SIZE
jcm:5000/dhub/ubuntu latest 113a43faa138 3 weeks ago 81.2MB
jcm:5000/ngc/digits 18.05 6a1f6f779ee7 6 weeks ago 6.3GB
jcm:5000/ngc/cntk 18.05-py3 fc80364bb960 8 weeks ago 6.35GB
jcm:5000/ngc/theano 18.05 152676dfc545 8 weeks ago 3.86GB
jcm:5000/ngc/caffe2 18.05-py3 c60b8604c4bb 8 weeks ago 3.18GB
```

!!! warning
Expand All @@ -92,7 +88,7 @@ The following job script executes `python3 ./test.py` on Docker container.
#$-j y
#$-l rt_F=1
#$-l docker=1
#$-l docker_images="*jcm:5000/ngc/caffe2:18.05-py3*"
#$-l docker_images="*jcm:5000/dhub/ubuntu*"
python3 ./sample.py
```
Expand Down
2 changes: 1 addition & 1 deletion en/docs/index.md
Original file line number Diff line number Diff line change
Expand Up @@ -5,4 +5,4 @@ All users who use this system are strongly recommended to read this document, as


!!! notte
Please check restrictions before using.
Please check "Known issues" before using.
8 changes: 8 additions & 0 deletions en/docs/known-issues.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,8 @@
# Known Issues

|date|content|status|
|:--|:--|:--|
|2019/04/10| The following qsub option requires to specify argument due to job scheduler update (8.5.4 -> 8.6.3).<BR>resource type ( -l rt_F etc)<BR>$ qsub -g GROUP -l rt_F=1<BR>$ qsub -g GROUP -l rt_G.small=1|close|
|2019/04/10| The following qsub option requires to specify argument due to job scheduler update (8.5.4 -> 8.6.3).<BR>use BEEOND ( -l USE_BEEOND)<BR>$ qsub -g GROUP -l rt_F=2 -l USE_BEEOND=1|close|
|2019/04/05| Due to job scheduler update (8.5.4 -> 8.6.3), a comupte node can execute only up to 2 jobs each resource type "rt_G.small" and "rt_C.small" (normally up to 4 jobs ).This situation also occures with Reservation service, so to be careful when you submit job with "rt_G.small" or "rt_C.small".<BR>$ qsub -ar ARID -l rt_G.small=1 -g GROUP run.sh (x 3 times)<BR>$ qstat <BR>job-ID prior name user state<BR> --------<BR> 478583 0.25586 sample.sh username r<BR> 478584 0.25586 sample.sh username r<BR> 478586 0.25586 sample.sh username qw|open|

7 changes: 0 additions & 7 deletions en/docs/restriction.md

This file was deleted.

2 changes: 1 addition & 1 deletion en/mkdocs.yml
Original file line number Diff line number Diff line change
Expand Up @@ -24,7 +24,7 @@ nav:
- '13. AWS': '13.md'
- 'Appendix 1. Configuration of Installed Software': 'appendix1.md'
- 'Appendix 2. Use of ABCI System for HPCI ': 'appendix2.md'
- 'Restriction': 'restriction.md'
- 'Known Issues': 'known-issues.md'
- 'System Updates': 'system-updates.md'
- 'Privacy Policy': 'https://portal.abci.ai/docs/privacy-policy/'
theme:
Expand Down
10 changes: 5 additions & 5 deletions ja/docs/03.md
Original file line number Diff line number Diff line change
Expand Up @@ -112,8 +112,8 @@ Reservedサービス毎の使用ABCIポイントの計算式は以下の通り
| オプション | 説明 |
|:--|:--|
| -g *group* | ABCI利用グループを*group*で指定します。 |
| -l *resource_type*[=*num*] | 資源タイプ*resource_type*と、その個数*num*を指定します。本オプションは指定必須です。 |
| -l h_rt=[[*HH:*]*MM:*]*SS* | 経過時間制限値を指定します。[[*HH:*]*MM:*]*SS*で指定することができます。ジョブの実行時間が指定した時間を超過した場合、ジョブは強制終了されます。 |
| -l *resource_type*=*num* | 資源タイプ*resource_type*と、その個数*num*を指定します。本オプションは指定必須です。 |
| -l h_rt=[*HH:MM:*]*SS* | 経過時間制限値を指定します。[*HH:*MM:*]*SS*で指定することができます。ジョブの実行時間が指定した時間を超過した場合、ジョブは強制終了されます。 |
| -N *name* | ジョブ名を*name*で指定します。デフォルトは、ジョブスクリプト名です。 |
| -o *stdout_name* | 標準出力名を*stdout_name*で指定します。 |
| -p *priority* | SpotサービスでPOSIX優先度を*priority*で指定します。 |
Expand All @@ -132,7 +132,7 @@ Reservedサービス毎の使用ABCIポイントの計算式は以下の通り
インタラクティブジョブ実行時にABCIポイントが不足している場合、インタラクティブジョブの実行に失敗します。

```
$ qrsh -g group -l resource_type[=num] [options]
$ qrsh -g group -l resource_type=num [options]
```

Expand Down Expand Up @@ -357,7 +357,7 @@ jc_name NONE
```

主な表示項目は以下の通りです。
その他項目の詳細は`man accounting`を参照ください。
その他項目の詳細は`man sge_accounting`を参照ください。

| 項目 | 説明 |
|:--|:--|
Expand All @@ -368,7 +368,7 @@ jc_name NONE
| end_time | ジョブの実行終了時刻 |
| failed | ジョブスケジューラのジョブ終了コード |
| exit_status | ジョブの終了ステータス |
| ru_wallclock | ジョブの実行時間(前後処理を含む) |
| wallclock | ジョブの実行時間(前後処理を含む) |

### 3.5.6. 環境変数

Expand Down
4 changes: 2 additions & 2 deletions ja/docs/04.md
Original file line number Diff line number Diff line change
Expand Up @@ -93,7 +93,7 @@ ABCIシステムでは各計算ノードに 1.6TB の NVMe ストレージが搭
ジョブに割り当てられたすべての計算ノードの NVMe ストレージを、
分散共有ファイルシステム(BeeGFS)としてオンデマンドで利用できます。
オンデマンドの BeeGFS(BeeOND)を利用するジョブを投入するときは、
`-l USE_BEEOND`オプションを指定する必要があります。
`-l USE_BEEOND=1`オプションを指定する必要があります。
また、BeeONDを利用する場合はノードを占有する必要があるため、
`-l rt_F`オプションを指定する必要もあります。

Expand All @@ -105,7 +105,7 @@ ABCIシステムでは各計算ノードに 1.6TB の NVMe ストレージが搭
#!/bin/bash

#$-l rt_F=2
#$-l USE_BEEOND
#$-l USE_BEEOND=1
#$-cwd

echo test1 > /beeond/foo.txt
Expand Down
8 changes: 2 additions & 6 deletions ja/docs/09.md
Original file line number Diff line number Diff line change
Expand Up @@ -68,13 +68,9 @@ Dockerを利用する場合、ジョブ投入時に`-l docker`オプションと
利用可能なDockerイメージは`show_docker_images`コマンドで参照可能です。

```
[username@es1 ~]$ show_docker_imags
[username@es1 ~]$ show_docker_images
REPOSITORY TAG IMAGE ID CREATED SIZE
jcm:5000/dhub/ubuntu latest 113a43faa138 3 weeks ago 81.2MB
jcm:5000/ngc/digits 18.05 6a1f6f779ee7 6 weeks ago 6.3GB
jcm:5000/ngc/cntk 18.05-py3 fc80364bb960 8 weeks ago 6.35GB
jcm:5000/ngc/theano 18.05 152676dfc545 8 weeks ago 3.86GB
jcm:5000/ngc/caffe2 18.05-py3 c60b8604c4bb 8 weeks ago 3.18GB
```

!!! warning
Expand All @@ -91,7 +87,7 @@ Dockerジョブのジョブスクリプト例)
#$-j y
#$-l rt_F=1
#$-l docker=1
#$-l docker_images="*jcm:5000/ngc/caffe2:18.05-py3*"
#$-l docker_images="*jcm:5000/dhub/ubuntu*"
python3 ./sample.py
```
Expand Down
2 changes: 1 addition & 1 deletion ja/docs/index.md
Original file line number Diff line number Diff line change
Expand Up @@ -6,4 +6,4 @@


!!! note
ご利用の際には、制限事項の項目も併せてご確認ください
ご利用の際には、"既知の問題" も併せてご確認ください
7 changes: 7 additions & 0 deletions ja/docs/known-issues.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,7 @@
# 既知の問題

|日時|内容|状況|
|:--|:--|:--|
|2019/04/10|ジョブスケジューラのアップデート(8.5.4 -> 8.6.3)に伴い、以下のジョブ投入オプションは引数が必須になりました。<BR>リソースタイプ(-l rt_F等)<BR>$ qsub -g GROUP -l rt_F=1<BR> $ qsub -g GROUP -l rt_G.small=1|対応完了|
|2019/04/10|ジョブスケジューラのアップデート(8.5.4 -> 8.6.3)に伴い、以下のジョブ投入オプションは引数が必須になりました。BEEOND使用する場合は、-l USE_BEEONDオプションに"1"を省略せず指定してください。<BR>BEEOND 実行 (-l USE_BEEOND)<BR>$ qsub -g GROUP -l rt_F=2 -l USE_BEEOND=1|対応完了|
|2019/04/05|通常計算ノードで rt_C.small/rt_G.small はそれぞれ最大で4ジョブまで実行されますが、ジョブスケジューラの不具合により、それぞれ最大2ジョブまでしか実行できない事象が発生しています。<br>Reservedサービスでも同様の事象が発生しており、rt_C.small/rt_G.small を使用の場合はご注意ください。<BR>$ qsub -ar ARID -l rt_G.small=1 -g GROUP run.sh (x 3回) <BR>$ qstat<BR>job-ID prior name user state<BR>--------<BR> 478583 0.25586 sample.sh username r<BR> 478584 0.25586 sample.sh username r<BR> 478586 0.25586 sample.sh username qw|対応中|
5 changes: 0 additions & 5 deletions ja/docs/restriction.md

This file was deleted.

2 changes: 1 addition & 1 deletion ja/mkdocs.yml
Original file line number Diff line number Diff line change
Expand Up @@ -24,7 +24,7 @@ nav:
- '13. AWS の利用': '13.md'
- '付録1. インストール済みソフトウェアの構成': 'appendix1.md'
- '付録2. HPCIによるABCIシステム利用': 'appendix2.md'
- '制限事項': 'restriction.md'
- '既知の問題': 'known-issues.md'
- 'システム更新履歴': 'system-updates.md'
- 'プライバシーポリシー': 'https://portal.abci.ai/docs/privacy-policy/'
theme:
Expand Down

0 comments on commit d25536d

Please sign in to comment.