automation-suite
2023.4
false
- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 如何在安装过程中对服务进行故障排除
- 如何卸载集群
- 如何清理离线工件以改善磁盘空间
- 如何清除 Redis 数据
- 如何启用 Istio 日志记录
- 如何手动清理日志
- 如何清理存储在 sf-logs 存储桶中的旧日志
- 如何禁用 AI Center 的流日志
- 如何对失败的 Automation Suite 安装进行调试
- 如何在升级后从旧安装程序中删除映像
- 如何自动清理 Longhorn 快照
- 如何禁用 TX 校验和卸载
- 如何手动将 ArgoCD 日志级别设置为 Info
- 如何为外部注册表生成已编码的 pull_secret_value
- 如何解决 TLS 1.2 中的弱密码问题
- 如何使用证书
- 如何使用集群内对象存储 (Ceph) 收集 DU 使用情况数据
- 如何在离线环境中安装 RKE2 SELinux
- 停止的节点不会发生节点排空
- rke2-coredns-rke2-coredns-autoscaler Pod 处于 CrashLoopBackOff 状态
- Cron 作业触发数百个作业,导致节点负载过高
- 无法获取沙盒映像
- Pod 未显示在 ArgoCD 用户界面中
- Redis 探测器失败
- RKE2 服务器无法启动
- 在 UiPath 命名空间中找不到密码
- ArgoCD 在首次安装后进入“进行中”状态
- 访问 ArgoCD 只读帐户时出现问题
- MongoDB Pod 处于 CrashLoopBackOff 状态或在删除后处于“等待 PVC 配置”状态
- 集群还原或回滚后服务运行状况不佳
- Pod 在 Init:0/X 中卡住
- Prometheus 处于 CrashLoopBackoff 状态,并出现内存不足 (OOM) 错误
- 监控仪表板中缺少 Ceph-rook 指标
- Pod 无法在代理环境中与 FQDN 通信
- 无法配置升级后的电子邮件警示
- 无正常的上游问题
- 使用 Automation Suite 诊断工具
- 使用 Automation Suite 支持捆绑包
- 探索日志
重要 :
请注意,此内容已使用机器翻译进行了部分本地化。
新发布内容的本地化可能需要 1-2 周的时间才能完成。

Linux 版 Automation Suite 安装指南
上次更新日期 2025年9月5日
在 2023.10.6、2023.4.9 和 2022.10.14 版本之前,某些 Automation Suite CRON 作业未将并发策略设置为“禁止”。 在节点维护事件期间,此问题可能会同时触发数百个 CRON 作业,从而导致节点负载过高。 要了解如何解决此问题,请参阅解决方案 1。
此问题还会由于 Cilium 错误而导致 Pod 计划失败:
Key allocation attempt failed attempt=0 error="no more available IDs in configured space"
。 要了解如何解决此问题,请参阅解决方案 2。
确定是哪些 cron 作业触发了大量实例,并删除这些 cron 作业。
CRONJOB_NAME="<cronjob-name>"
NAMESPACE="<namespace>"
# Delete all jobs associated with the CronJob
kubectl get jobs -n "$NAMESPACE" | grep "$CRONJOB_NAME" | awk '{print $1}' | xargs -I{} kubectl delete job -n "$NAMESPACE" {}
CRONJOB_NAME="<cronjob-name>"
NAMESPACE="<namespace>"
# Delete all jobs associated with the CronJob
kubectl get jobs -n "$NAMESPACE" | grep "$CRONJOB_NAME" | awk '{print $1}' | xargs -I{} kubectl delete job -n "$NAMESPACE" {}
您可以通过运行以下命令来验证 Pod 计划中的失败:
kubectl get ciliumid | wc -l
。
如果该命令返回超过 10000 个 ID,则需要清理未使用的 Cilium ID 并重新启动 Cilium 部署。
# Step 1: Get all CiliumIDs
ALL_CILIUMIDS=$(kubectl get ciliumid --no-headers -o custom-columns=":metadata.name")
# Step 2: Get active pod UIDs
ACTIVE_POD_UIDS=$(kubectl get pods -A -o jsonpath='{.items[*].metadata.uid}')
# Step 3: Compare and delete stale CiliumIDs
for CID in $ALL_CILIUMIDS; do
if [[ ! "$ACTIVE_POD_UIDS" =~ "$CID" ]]; then
echo "Deleting stale CiliumID: $CID"
kubectl delete ciliumid "$CID"
fi
done
# Step 4: Restart cilium operator and daemonset
kubectl rollout restart deployment/cilium-operator -n kube-system
kubectl rollout restart daemonset/cilium -n kube-system
# Step 1: Get all CiliumIDs
ALL_CILIUMIDS=$(kubectl get ciliumid --no-headers -o custom-columns=":metadata.name")
# Step 2: Get active pod UIDs
ACTIVE_POD_UIDS=$(kubectl get pods -A -o jsonpath='{.items[*].metadata.uid}')
# Step 3: Compare and delete stale CiliumIDs
for CID in $ALL_CILIUMIDS; do
if [[ ! "$ACTIVE_POD_UIDS" =~ "$CID" ]]; then
echo "Deleting stale CiliumID: $CID"
kubectl delete ciliumid "$CID"
fi
done
# Step 4: Restart cilium operator and daemonset
kubectl rollout restart deployment/cilium-operator -n kube-system
kubectl rollout restart daemonset/cilium -n kube-system