我正在SGE集群上工作,并且qsub电子邮件通知系统存在一些问题。我所有的工作都能正常工作,但是我似乎无法修改默认行为以仅在中止的工作时进行通知。-M标志正常工作,并且在中止作业时我确实会收到一封电子邮件,但是我想在作业开始,结束,中止或暂停时收到一封电子邮件。我在脚本中使用了以下标志(以及更多),是否缺少一些愚蠢的东西?
#!/bin/bash
#$ -S /bin/bash
#$ -M email@server
#$ -m beas
program
当我尝试以下操作时,它也不起作用:
qsub -M email@server -m baes script.sh
这是我应该与集群系统管理员一起解决的问题,还是我做错了什么?
谢谢你的帮助。
解决此问题时要了解的重要一点是,作业状态电子邮件将由作业运行的节点发送。例如,我有一个具有以下输出的测试作业:
#!/bin/bash
#
#$ -N MAIL
#$ -j y
#$ -m easb
#$ -M pkenyon
hostname
现在,运行该作业,并查看其运行位置。
[pkenyon@head ~]$ qsub mail.sh
Your job 346 ("MAIL") has been submitted
[pkenyon@head ~]$ cat MAIL.o346
node03.cluster
如果您查看系统上的邮件日志,则会看到进行的传递尝试。您必须从那里进行诊断。以下是一些失败的示例(甚至失败的成功方式也并非您想要的那样):
发送到计算节点地址,使用 -M pkenyon
...
Jun 5 13:56:00 node04 postfix/local[13141]: 14A3E143320: to=<[email protected]>, orig_to=<pkenyon>, relay=local, delay=0.05, delays=0.03/0/0/0.01, dsn=2.0.0, status=sent (delivered to mailbox)
...
头节点MX设置不正确,使用 -M [email protected]
...
Jun 5 14:00:30 node04 postfix/smtp[13283]: 35CC4143320: to=<[email protected]>, relay=none, delay=0.36, delays=0.17/0/0.19/0, dsn=5.4.4, status=bounced (Host or domain name not found. Name service error for name=head.cluster type=AAAA: Host not found)
...
您需要将系统设置为使用本地邮件中继 -M [email protected]
...
Jun 5 12:20:47 node04 postfix/smtp[12798]: 1EEA5143320: to=<[email protected]>, relay=ASPMX.L.GOOGLE.com[64.233.168.27]:25, delay=0.64, delays=0.04/0/0.59/0.02, dsn=5.0.0, status=bounced (host ASPMX.L.GOOGLE.com[64.233.168.27] said: 550 Relay not permitted (in reply to RCPT TO command))
...
因此,是的,您需要与集群系统管理员联系,但这是弄清楚您的SGE电子邮件挂在哪里的第一步。有了更多的信息,您的管理员将能够解决配置问题,并帮助您充分利用群集环境。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句