ITPUB论坛-中国最专业的IT技术社区

 找回密码
 注册
查看: 687|回复: 14

故障再现: linux 服务器无法创建新的进程,

[复制链接]
论坛徽章:
304
奥迪
日期:2013-07-29 13:45:59红旗
日期:2014-02-07 10:47:20路虎
日期:2014-02-13 10:34:03保时捷
日期:2014-02-14 09:46:462014年新春福章
日期:2014-02-18 16:41:11马上有车
日期:2014-02-18 16:41:11马上有车
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14
发表于 2017-5-17 13:40 | 显示全部楼层 |阅读模式
本帖最后由 ZALBB 于 2017-5-17 13:48 编辑

linux 7.3, oracle 11204, 物理内存: 128g,   memory_target=100G, sga_target=70g, pga=0

后台警告日志不断产生这些信息,

kkjcre1p: unable to spawn jobq slave process Errors
in file /home/app/11.2.4/diag/rdbms/k3db/k3db2/trace/k3db2_cjq0_22665.trc:
Wed May 17 13:36:26 2017
Process W000 died, see its trace file
Wed May 17 13:36:27 2017
Process J000 died, see its trace file
kkjcre1p: unable to spawn jobq slave process Errors
in file /home/app/11.2.4/diag/rdbms/k3db/k3db2/trace/k3db2_cjq0_22665.trc:
Process J000 died, see its trace file
kkjcre1p: unable to spawn jobq slave process
Errors in file /home/app/11.2.4/diag/rdbms/k3db/k3db2/trace/k3db2_cjq0_22665.trc:
Process W000 died, see its trace fileProcess J000 died, see its trace file
kkjcre1p: unable to spawn jobq slave
process Errors in file /home/app/11.2.4/diag/rdbms/k3db/k3db2/trace/k3db2_cjq0_22665.trc:
Process J000 died, see its trace file
kkjcre1p: unable to spawn jobq slave process Errors in file /home/app/11.2.4/diag/rdbms/k3db/k3db2/trace/k3db2_cjq0_22665.trc:
Process W000 died, see its trace file

系统的内存参数信息

[cloudrac2@root /etc]
#free -m
              total        used        free      shared  buff/cache   available
Mem:         128648        5529       71802       49002       51316       64890
Swap:          4095          0        4095
[cloudrac2@root /etc]
#more /proc/meminfo
MemTotal:       131735996 kB
MemFree:        73528064 kB
MemAvailable:   66449504 kB
Buffers:            1248 kB
Cached:         52096940 kB
SwapCached:            0 kB
Active:         32241040 kB
Inactive:       23159500 kB
Active(anon):   31013236 kB
Inactive(anon): 22538076 kB
Active(file):    1227804 kB
Inactive(file):   621424 kB
Unevictable:      326160 kB
Mlocked:          326456 kB
SwapTotal:       4194300 kB
SwapFree:        4194300 kB
Dirty:               128 kB
Writeback:             0 kB
AnonPages:       3628656 kB
Mapped:         39562840 kB
Shmem:          50178320 kB
Slab:             449296 kB
SReclaimable:     251836 kB
SUnreclaim:       197460 kB
KernelStack:       28880 kB
PageTables:      1041928 kB
NFS_Unstable:          0 kB
Bounce:                0 kB
WritebackTmp:          0 kB
CommitLimit:    70062296 kB
Committed_AS:   61777052 kB
VmallocTotal:   34359738367 kB
VmallocUsed:      494684 kB
VmallocChunk:   34291843068 kB
HardwareCorrupted:     0 kB
AnonHugePages:     67584 kB
HugePages_Total:       0
HugePages_Free:        0
HugePages_Rsvd:        0
HugePages_Surp:        0
Hugepagesize:       2048 kB
DirectMap4k:      204048 kB
DirectMap2M:     4913152 kB
DirectMap1G:    131072000 kB
[cloudrac2@root /etc]
#

问:为何报此错误?



论坛徽章:
304
奥迪
日期:2013-07-29 13:45:59红旗
日期:2014-02-07 10:47:20路虎
日期:2014-02-13 10:34:03保时捷
日期:2014-02-14 09:46:462014年新春福章
日期:2014-02-18 16:41:11马上有车
日期:2014-02-18 16:41:11马上有车
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14
 楼主| 发表于 2017-5-17 14:13 | 显示全部楼层
再次登录, 反馈,登录上空实例,但实际上,实例还是活的,

[cloudrac2@root /etc]
#su - oracle
Last login: Wed May 17 12:32:16 CST 2017
[cloudrac2@oracle ~]
$sqlplus / as sysdba

SQL*Plus: Release 11.2.0.4.0 Production on Wed May 17 13:49:47 2017

Copyright (c) 1982, 2013, Oracle.  All rights reserved.

Connected to an idle instance.

SYS@k3db2>exit
Disconnected
[cloudrac2@oracle ~]
$srvctl status instance -d k3db -n cloudrac2
Instance k3db2 is running on node cloudrac2
[cloudrac2@oracle ~]
$ps -ef|grep ora
oracle   12897     1  0 10:59 ?        00:00:00 oraclek3db2 (LOCAL=NO)
oracle   12922     1  0 10:59 ?        00:00:00 oraclek3db2 (LOCAL=NO)
oracle   12928     1  0 10:59 ?        00:00:17 oraclek3db2 (LOCAL=NO)
oracle   14443     1  0 10:29 ?        00:00:02 oraclek3db2 (LOCAL=NO)
oracle   17697     1  0 09:40 ?        00:00:00 ora_q000_k3db2
oracle   21577     1  0 May16 ?        00:04:44 /home/app/11.2.4/grid/bin/oraagent.bin
grid     21773     1  0 May16 ?        00:05:32 /home/app/11.2.4/grid/bin/oraagent.bin
root     21814     1  0 May16 ?        00:07:16 /home/app/11.2.4/grid/bin/orarootagent.bin
oracle   21967     1  0 May16 ?        00:00:20 ora_pmon_k3db2
oracle   21969     1  0 May16 ?        00:00:18 ora_psp0_k3db2
oracle   21972     1  1 May16 ?        00:16:33 ora_vktm_k3db2
oracle   21976     1  0 May16 ?        00:00:02 ora_gen0_k3db2
oracle   21978     1  0 May16 ?        00:00:42 ora_diag_k

使用道具 举报

回复
论坛徽章:
304
奥迪
日期:2013-07-29 13:45:59红旗
日期:2014-02-07 10:47:20路虎
日期:2014-02-13 10:34:03保时捷
日期:2014-02-14 09:46:462014年新春福章
日期:2014-02-18 16:41:11马上有车
日期:2014-02-18 16:41:11马上有车
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14
 楼主| 发表于 2017-5-17 14:43 | 显示全部楼层
ps -ef|grep ora 查看实例进程,可以看到,实例进程是活着的,但用 srvctl 来停调实例,也是失败,,,

[cloudrac2@oracle ~]
$srvctl stop instance -d k3db -n cloudrac2
PRCR-1133 : Failed to stop database k3db and its running services
PRCR-1132 : Failed to stop resources using a filter
CRS-5022: Stop of resource "ora.k3db.db" failed: current state is "UNKNOWN"
CRS-2675: Stop of 'ora.k3db.db' on 'cloudrac2' failed
CRS-5022: Stop of resource "ora.k3db.db" failed: current state is "UNKNOWN"
CRS-2675: Stop of 'ora.k3db.db' on 'cloudrac2' failed
[cloudrac2@oracle ~]
$srvctl status instance -d k3db -n cloudrac2
Instance k3db2 is running on node cloudrac2
[cloudrac2@oracle ~]
$srvctl stop instance -d k3db -n cloudrac2
PRCC-1017 : k3db was already stopped on cloudrac2
[cloudrac2@oracle ~]
$srvctl status instance -d k3db -n cloudrac2
Instance k3db2 is running on node cloudrac2
[cloudrac2@oracle ~]
$srvctl stop instance -d k3db -n cloudrac2
PRCC-1017 : k3db was already stopped on cloudrac2
[cloudrac2@oracle ~]
$srvctl stop instance -d k3db -n cloudrac2
PRCC-1017 : k3db was already stopped on cloudrac2
[cloudrac2@oracle ~]
$srvctl status instance -d k3db -n cloudrac2
Instance k3db2 is running on node cloudrac2
[cloudrac2@oracle ~]
$

使用道具 举报

回复
论坛徽章:
304
奥迪
日期:2013-07-29 13:45:59红旗
日期:2014-02-07 10:47:20路虎
日期:2014-02-13 10:34:03保时捷
日期:2014-02-14 09:46:462014年新春福章
日期:2014-02-18 16:41:11马上有车
日期:2014-02-18 16:41:11马上有车
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14
 楼主| 发表于 2017-5-17 14:50 | 显示全部楼层
参数文件,MEMORY_TARGET=100G, SGA=70G, PGA=0

$more initk3db.ora.bak.20170517*
k3db1.__db_cache_size=60129542144
k3db2.__db_cache_size=60129542144
k3db1.__java_pool_size=1879048192
k3db2.__java_pool_size=1879048192
k3db1.__large_pool_size=805306368
k3db2.__large_pool_size=805306368
k3db1.__oracle_base='/home/app/11.2.4'#ORACLE_BASE set from environment
k3db2.__oracle_base='/home/app/11.2.4'#ORACLE_BASE set from environment
k3db1.__pga_aggregate_target=32212254720
k3db2.__pga_aggregate_target=32212254720
k3db1.__sga_target=75161927680
k3db2.__sga_target=75161927680
k3db1.__shared_io_pool_size=536870912
k3db2.__shared_io_pool_size=536870912
k3db1.__shared_pool_size=11274289152
k3db2.__shared_pool_size=11274289152
k3db1.__streams_pool_size=0
k3db2.__streams_pool_size=0
*._optim_peek_user_binds=FALSE
*._optimizer_adaptive_cursor_sharing=FALSE
*._optimizer_extended_cursor_sharing_rel='none'
*._optimizer_invalidation_period=60
*._serial_direct_read='NEVER'
*._use_adaptive_log_file_sync='FALSE'
*.audit_file_dest='/home/app/11.2.4/admin/k3db/adump'
*.audit_trail='NONE'
*.cluster_database=true
*.compatible='11.2.0.4.0'
*.control_files='+DATA/k3db/controlfile/current.260.938888077'
*.db_block_size=8192
*.db_create_file_dest='+DATA'
*.db_domain=''
*.db_name='k3db'
*.db_recovery_file_dest_size=53687091200
*.db_recovery_file_dest='+FLASH'
*.deferred_segment_creation=FALSE
*.diagnostic_dest='/home/app/11.2.4'
*.disk_asynch_io=FALSE
*.dispatchers='(PROTOCOL=TCP) (SERVICE=k3dbXDB)'
*.filesystemio_options='ASYNCH'
k3db1.instance_number=1
k3db2.instance_number=2
k3db2.java_pool_size=0
*.job_queue_processes=500
*.log_archive_dest_1='location=use_db_recovery_file_dest'
*.memory_target=107374182400
*.open_cursors=900
*.parallel_adaptive_multi_user=FALSE
*.parallel_force_local=TRUE
*.processes=900
*.recyclebin='OFF'
*.remote_listener='cloud-scan:1521'
*.remote_login_passwordfile='exclusive'
*.sec_case_sensitive_logon=FALSE
*.sga_max_size=70g
*.sga_target=75161927680
k3db1.thread=1
k3db2.thread=2
k3db1.undo_tablespace='UNDOTBS2'
k3db2.undo_tablespace='UNDOTBS1'
[cloudrac2@oracle /tmp]
$

使用道具 举报

回复
论坛徽章:
177
秀才
日期:2016-02-18 09:39:10摩羯座
日期:2016-01-20 16:48:10火眼金睛
日期:2016-01-31 22:00:00巨蟹座
日期:2016-01-30 22:10:33目光如炬
日期:2016-01-03 22:00:00秀才
日期:2015-12-21 09:53:46目光如炬
日期:2015-12-20 22:00:00秀才
日期:2015-12-25 15:31:10秀才
日期:2015-12-14 15:02:13秀才
日期:2016-01-21 13:37:04
发表于 2017-5-17 15:02 | 显示全部楼层
1.不建议用这个MEMORY_TARGET参数
直接设置sga_target和pga_target更靠谱。
2.连接数设置的porcesses多大?

使用道具 举报

回复
论坛徽章:
304
奥迪
日期:2013-07-29 13:45:59红旗
日期:2014-02-07 10:47:20路虎
日期:2014-02-13 10:34:03保时捷
日期:2014-02-14 09:46:462014年新春福章
日期:2014-02-18 16:41:11马上有车
日期:2014-02-18 16:41:11马上有车
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14
 楼主| 发表于 2017-5-17 15:16 | 显示全部楼层
jieyancai 发表于 2017-5-17 15:02
1.不建议用这个MEMORY_TARGET参数
直接设置sga_target和pga_target更靠谱。
2.连接数设置的porcesses多大 ...

1  这是作测试用的,目的就是想找出这个故障的根源,寻找最佳配置。

2  processes=900。

使用道具 举报

回复
论坛徽章:
180
红宝石
日期:2014-05-09 08:24:37萤石
日期:2014-01-03 10:25:39马上有车
日期:2014-02-18 16:41:11马上有钱
日期:2014-11-24 15:17:08马上有钱
日期:2014-11-12 09:33:24马上有房
日期:2014-11-07 08:46:05马上有钱
日期:2014-10-27 09:26:57马上有对象
日期:2014-10-28 10:28:08itpub13周年纪念徽章
日期:2014-10-10 10:38:25马上有对象
日期:2015-01-14 17:33:15
发表于 2017-5-17 15:30 | 显示全部楼层
物理内存: 128g,   memory_target=100G, sga_target=70g, pga=0

sga_target设置小一些 .收回20G看看.感觉是pga不足.
memory_target=100G, sga_target=50g,

--我不建议在生产系统这样设置

使用道具 举报

回复
论坛徽章:
304
奥迪
日期:2013-07-29 13:45:59红旗
日期:2014-02-07 10:47:20路虎
日期:2014-02-13 10:34:03保时捷
日期:2014-02-14 09:46:462014年新春福章
日期:2014-02-18 16:41:11马上有车
日期:2014-02-18 16:41:11马上有车
日期:2014-02-19 11:55:14马上有房
日期:2014-02-19 11:55:14马上有钱
日期:2014-02-19 11:55:14马上有对象
日期:2014-02-19 11:55:14
 楼主| 发表于 2017-5-17 16:12 | 显示全部楼层
lfree 发表于 2017-5-17 15:30
物理内存: 128g,   memory_target=100G, sga_target=70g, pga=0

sga_target设置小一些 .收回20G看看. ...

不用memory参数,改成 sga=70g, pga=30g,没问题, 为何启用 memory 参数就出问题?

而且 free -m 查看, shared = 48g, free=70g,这也说不通?

使用道具 举报

回复
论坛徽章:
1
雪佛兰
日期:2013-12-11 10:58:39
发表于 2017-5-17 16:31 | 显示全部楼层
我的问题跟你的有点类似没找到问题原因呢

使用道具 举报

回复
论坛徽章:
16
懒羊羊
日期:2015-03-18 14:28:00娜美
日期:2017-05-24 17:34:14弗兰奇
日期:2016-10-08 11:07:27喜羊羊
日期:2015-05-28 20:12:182015年新春福章
日期:2015-04-03 16:54:25喜羊羊
日期:2015-03-17 14:05:08水瓶座
日期:2015-08-07 11:20:35马上有钱
日期:2015-01-15 10:27:33马上有车
日期:2014-11-19 15:16:11马上有钱
日期:2014-11-12 11:45:16
发表于 2017-5-17 16:43 | 显示全部楼层
jieyancai 发表于 2017-5-17 15:02
1.不建议用这个MEMORY_TARGET参数
直接设置sga_target和pga_target更靠谱。
2.连接数设置的porcesses多大 ...

不建议MEMORY_TARGE参数的原因是什么啊?

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

TOP技术积分榜 社区积分榜 徽章 电子杂志 团队 统计 虎吧 老博客 知识索引树 读书频道 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档 | IT博客
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛 | SAP ERP系统
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 网站律师 隐私政策 知识产权声明
京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表