标签导航:

阿里云服务器ssh连接异常,已登录终端却能正常工作是什么原因?

阿里云服务器SSH连接异常,但已登录终端可正常工作?

本文分析阿里云服务器出现的一种特殊故障:SSH连接间歇性中断,网站也无法访问,但已登录的终端却能正常运行。

故障现象

  • SSH登录失败
  • 80端口网站无法访问
  • 已登录终端功能正常
  • ping服务器IP正常
  • 服务器资源(CPU、内存、带宽)无异常
  • 线程打开文件数量正常
  • 修改SSH连接数量无效

问题核心

关键问题在于:新SSH连接无法建立,但现有连接不受影响。

可能原因及排查

最可能的解释是服务器连接数达到上限。当服务器同时处理的连接过多时,新的连接请求会被拒绝。

建议检查步骤:

  1. 监控连接状态: 使用以下命令检查time_wait和close_wait状态的连接数量:

    netstat -antlp | grep time_wait | wc -l
    netstat -antlp | grep close_wait | wc -l

    对于配置为4核CPU、8GB内存的服务器,当close_wait连接数接近2000时,可能就会出现连接失败问题。

  2. 网络抓包分析: 使用抓包工具(如tcpdump)捕获网络数据包,观察新连接建立失败时的错误信息,例如:

    ss: connect failed (error -111: Connection refused)

解决方案

如果确认是连接数超限导致的问题,可以通过调整服务器内核参数来解决,例如增加文件句柄数和网络连接数。 具体操作方法需要根据服务器操作系统进行调整。