- 概述
- 要求
- 安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 如何在安装过程中对服务进行故障排除
- 如何卸载集群
- 如何清理离线工件以改善磁盘空间
- 如何清除 Redis 数据
- 如何启用 Istio 日志记录
- 如何手动清理日志
- 如何清理存储在 sf-logs 存储桶中的旧日志
- 如何禁用 AI Center 的流日志
- 如何对失败的 Automation Suite 安装进行调试
- 如何在升级后从旧安装程序中删除映像
- 如何自动清理 Longhorn 快照
- 如何禁用 TX 校验和卸载
- 如何手动将 ArgoCD 日志级别设置为 Info
- 如何为外部注册表生成已编码的 pull_secret_value
- 如何解决 TLS 1.2 中的弱密码问题
- 如何使用证书
- 如何使用集群内对象存储 (Ceph) 收集 DU 使用情况数据
- 如何在离线环境中安装 RKE2 SELinux
- 无法获取沙盒映像
- Pod 未显示在 ArgoCD 用户界面中
- Redis 探测器失败
- RKE2 服务器无法启动
- 在 UiPath 命名空间中找不到密码
- ArgoCD 在首次安装后进入“进行中”状态
- 访问 ArgoCD 只读帐户时出现问题
- MongoDB Pod 处于 CrashLoopBackOff 状态或在删除后处于“等待 PVC 配置”状态
- 集群还原或回滚后服务运行状况不佳
- Pod 在 Init:0/X 中卡住
- Prometheus 处于 CrashLoopBackoff 状态,并出现内存不足 (OOM) 错误
- 监控仪表板中缺少 Ceph-rook 指标
- Pod 无法在代理环境中与 FQDN 通信
- 无法配置升级后的电子邮件警示
- 无正常的上游问题
- 使用 Automation Suite 诊断工具
- 使用 Automation Suite 支持捆绑包
- 探索日志

Linux 版 Automation Suite 安装指南
与任何多站点部署一样,Automation Suite 的主要架构注意事项涉及基础架构、延迟、数据源、管理、恢复时间目标、恢复点目标等。
两个 Automation Suite 集群相互独立,不共享任何配置。因此,必须在这些集群上单独完成任何管理或维护活动。例如,您必须更新两个集群上的 SQL 连接字符串,并且单独配置证书等。此外,您必须独立监控两个集群,并且单独升级它们等。
对象存储与 SQL 数据库一起构成 Automation Suite 上已安装产品的状态。
SQL Server 配置在多站点部署中起着至关重要的作用。尽管 SQL Server 是 Automation Suite 的外部组件,但在使用 Automation Suite 时,还需要一些其他步骤以确保真正的 HA。
MultiSubnetFailover=True
属性。
有关更多详细信息,请参阅“始终开启”可用性组和“始终开启”可用性组的先决条件、限制和建议。
外部对象存储不会因节点故障而可能发生损坏。数据复制和 Disaster Recovery 可以独立于 Automation Suite 执行。与 SQL Server 一样,必须在高可用性 Disaster Recovery 设置中配置外部对象存储。主对象存储实例在实际位于主数据中心,并且至少一个辅助实例位于辅助数据中心且已启用数据同步。您可以在对象存储上配置负载均衡器,以确保两个 Automation Suite 集群引用相同的端点。这使得部署独立于对象存储的内部配置方式。
对于 AWS S3,多区域访问点不支持 Automation Suite 中运行的所有产品所需的所有 s3 API。有关支持 API 列表的详细信息,请参阅将多区域接入点与受支持的 API 操作一起使用。
您可以在这两个区域中为每个产品/套件创建两个存储桶并启用同步。在同一区域中运行的 Automation Suite 集群将引用同一区域中的存储桶。
在设计多站点 Automation Suite 集群时,您组织的 RTO 策略至关重要。要实现所需的 RTO,请考虑以下方面:
- 流量管理器的设计;
- 辅助/被动集群中节点的可用性;
- 辅助集群上的动态工作负载可用性,例如,ML 技能;
- 配置管理。
流量管理器
您可以通过将流量管理器配置为始终在可用时将流量路由到主集群来减少恢复时间。仅当主集群关闭时,才必须重定向到辅助集群。这可确保自动切换流量,并减少手动切换的时间。您可以使用两个集群的运行状况端点来实现此操作。
节点可用性
如果辅助集群中的所有节点都在运行,则可以通过开启节点并等待集群处于活动状态来节省时间。但是,这可能会使基础架构的成本增加近两倍。
动态工作负载可用性
一些产品(例如 AI Center)会在运行时动态部署 ML 技能。另一个集群中的技能部署始终为异步。这不能保证它们的可用性。为确保您的自动化解决方案在所需时间内恢复在线,您可以定期同步另一个集群中的技能。
配置管理
由于多站点 Automation Suite 部署由两个不同的集群组成,因此在任何集群上执行的任何操作都必须及时在另一个集群上执行,以减少偏差。这可确保两个集群具有相似的配置,并且在恢复阶段不需要额外的工作。
在设计多站点 Automation Suite 集群时,您组织的恢复点目标 (RTO) 策略至关重要。要实现所需的 RPO,必须考虑以下方面:
- 数据同步;
- 计划的备份。
数据同步
写入主数据源时,必须也将数据同步到辅助集群。但是,当数据中心关闭且数据未同步时,就有可能丢失数据。示例网络配置(例如两个数据中心之间的高带宽和低延迟)可以加快同步速度。
计划的备份
Not all disaster recovery provides complete immunity to data loss. However, you can deploy a regular and periodic backup strategy to minimize the impact of the disaster on data recovery. For details, see Backing up and restoring the cluster.