- 概述
- 要求
- 部署模板
- 手动:准备安装
- 手动:准备安装
- 步骤 2:为离线安装配置符合 OCI 的注册表
- 步骤 3:配置外部对象存储
- Step 4: Configuring High Availability Add-on
- Step 5: Configuring SQL databases
- Step 6: Configuring the load balancer
- Step 7: Configuring the DNS
- 步骤 8:配置磁盘
- Step 9: Configuring kernel and OS level settings
- Step 10: Configuring the node ports
- Step 11: Applying miscellaneous settings
- 步骤 12:验证并安装所需的 RPM 包
- Cluster_config.json 示例
- 常规配置
- 配置文件配置
- 证书配置
- 数据库配置
- 外部对象存储配置
- 预签名 URL 配置
- ArgoCD 配置
- Kerberos 身份验证配置
- 符合 OCI 的外部注册表配置
- Disaster Recovery:主动/被动和主动/主动配置
- High Availability Add-on 配置
- 特定于 Orchestrator 的配置
- Insights 特定配置
- Process Mining 特定配置
- Document Understanding 特定配置
- Automation Suite Robot 特定配置
- AI Center 特定配置
- 监控配置
- 可选:配置代理服务器
- 可选:在多节点 HA 就绪生产集群中启用区域故障恢复
- 可选:传递自定义 resolv.conf
- 可选:提高容错能力
- 添加具有 GPU 支持的专用代理节点
- 为 Task Mining 添加专用代理节点
- 连接 Task Mining 应用程序
- 为 Automation Suite Robot 添加专用代理节点
- 步骤 15:为离线安装配置临时 Docker 注册表
- 步骤 16:验证安装的先决条件
- 手动:执行安装
- 安装后
- 集群管理
- 监控和警示
- 迁移和升级
- 特定于产品的配置
- 最佳实践和维护
- 故障排除
- 如何在安装过程中对服务进行故障排除
- 如何卸载集群
- 如何清理离线工件以改善磁盘空间
- 如何清除 Redis 数据
- 如何启用 Istio 日志记录
- 如何手动清理日志
- 如何清理存储在 sf-logs 存储桶中的旧日志
- 如何禁用 AI Center 的流日志
- 如何对失败的 Automation Suite 安装进行调试
- 如何在升级后从旧安装程序中删除映像
- 如何禁用 TX 校验和卸载
- 如何手动将 ArgoCD 日志级别设置为 Info
- 如何扩展 AI Center 存储
- 如何为外部注册表生成已编码的 pull_secret_value
- 如何解决 TLS 1.2 中的弱密码问题
- 如何查看 TLS 版本
- 如何使用证书
- 如何计划 Ceph 备份和还原数据
- 如何从注册表 Pod 中清理未使用的 Docker 映像
- 如何使用集群内对象存储 (Ceph) 收集 DU 使用情况数据
- 如何在离线环境中安装 RKE2 SELinux
- 无法在 RHEL 8.4 操作系统上运行离线安装
- 下载捆绑包时出错
- 由于缺少二进制文件,离线安装失败
- 离线安装中的证书问题
- SQL 连接字符串验证错误
- 对于selinux iscsid 模块的先决条件检查失败
- Azure 磁盘未标记为 SSD
- 证书更新后失败
- 杀毒软件导致安装问题
- 操作系统升级后,Automation Suite 无法正常工作
- Automation Suite 要求将积压_等待_时间设置为 0
- 由于尚未为工作负载做好准备,因此无法装载卷
- 支持捆绑包日志收集失败
- 在 RHEL 8.9 上的临时注册表安装失败
- 离线安装期间 UiPath 命名空间部署中的频繁重新启动问题
- CoreDNS 不遵循 DNS 设置
- 无法安装临时注册表
- 升级 Automation Suite 后重新安装或升级 Insights 时丢失数据
- 升级到 Automation Suite 2024.10.0 后无法访问 Automation Hub
- 单节点升级在结构阶段失败
- 由于 Ceph 运行状况不佳,升级失败
- 由于空间问题,RKE2 未启动
- 卷无法装载,且仍处于附加/分离循环状态
- 由于 Orchestrator 数据库中的传统对象,升级失败
- 并行升级后,发现 Ceph 集群处于降级状态
- Insights 组件运行状况不佳导致迁移失败
- Apps 服务升级失败
- 就地升级超时
- Docker 注册表迁移卡在 PVC 删除阶段
- 升级到 2023.10 或更高版本后 AI Center 配置失败
- 在离线环境中升级失败
- 升级期间 SQL 验证失败
- 快照-控制器-crds Pod 在升级后处于 CrashLoopBackOff 状态
- 由于 Insights PVC 大小被覆盖,升级失败
- 无法升级到 Automation Suite 2024.10.1
- 由于 Velero 迁移问题,升级失败
- 升级卡在 r-ceph 应用程序删除上
- 无法在 Automation Suite 2024.10.0 中还原部分备份
- 无法获取沙盒映像
- Pod 未显示在 ArgoCD 用户界面中
- Redis 探测器失败
- RKE2 服务器无法启动
- 在 UiPath 命名空间中找不到密码
- ArgoCD 在首次安装后进入“进行中”状态
- MongoDB Pod 处于 CrashLoopBackOff 状态或在删除后处于“等待 PVC 配置”状态
- Pod 在 Init:0/X 中卡住
- 监控仪表板中缺少 Ceph-rook 指标
- 诊断性运行状况检查期间报告的错误不匹配
- 无正常的上游问题
- 日志流式传输在代理设置中不起作用
- 无法在离线环境中添加代理节点
- 在上传大型 Document Understanding 捆绑包期间,节点无响应 (OOM)
- 使用 Process Mining 运行高可用性
- 使用 Kerberos 登录时 Process Mining 挖掘失败
- 在 Disaster Recovery 后,DAPR 无法正常用于 Process Mining
- 无法使用 pyodbc 格式连接字符串连接到 AutomationSuite_ProcessMining_Warehouse 数据库
- Airflow 安装失败,并显示 sqlalchemy.exc.ArgumentError:无法从字符串“”中解析 rfc1738 URL
- 如何添加 IP 表格规则以使用 SQL Server 端口 1433
- 运行 CData Sync 的服务器不信任 Automation Suite 证书
- 运行诊断工具
- 使用 Automation Suite 支持捆绑包
- 探索日志
- 探索汇总遥测

Linux 版 Automation Suite 安装指南
我们提供预构建的特定于组件的仪表板,您可以在 Grafana 中访问这些仪表板。有关可以监控的组件的详细信息,请参阅 Automation Suite 架构。
已针对重要指标预先配置了某些警示。您可以在 Prometheus 用户界面的“警示”部分找到这些配置。您负责配置警示接收人。
要访问 Grafana 仪表板,您必须检索凭据并使用它们进行登录:
-
用户名:
kubectl -n monitoring get secrets/grafana-creds -o "jsonpath={.data.admin-user}" | base64 -d; echo
kubectl -n monitoring get secrets/grafana-creds -o "jsonpath={.data.admin-user}" | base64 -d; echo -
密码:
kubectl -n monitoring get secrets/grafana-creds -o "jsonpath={.data.admin-password}" | base64 -d; echo
kubectl -n monitoring get secrets/grafana-creds -o "jsonpath={.data.admin-password}" | base64 -d; echo
监控网络
您可以通过以下 Grafana 仪表板监控 Automation Suite 网络: Istio 网格和Istio 。 有关如何访问 Grafana 的详细信息,请参阅访问监控工具。
与 Istio 相关的仪表板默认禁用。 要启用仪表板,请执行以下步骤:
-
登录到 ArgoCD 用户界面并转到 “监控应用程序”。 有关如何访问 ArgoCD 用户界面的详细信息,请参阅访问 ArgoCD 。
-
选择“详细信息”,然后选择“参数” 。
-
将
global.monitoringConfigure.enableEnhancedMonitoring.istio.enabled
参数设置为true
。
如果重新安装或执行升级,用于启用 Istio 仪表板的配置集将被删除。 因此,您必须重新启用配置才能访问 Istio 仪表板。
Istio 网格仪表板
此仪表板显示所选时间段内整个服务网格的整体请求量以及 400 和 500 错误率。数据显示在窗口的右上角。
它还显示每项服务在过去一分钟内的即时成功率。请注意,成功率为 NaN 表示该服务当前未提供流量。
Istio 工作负载仪表板
此仪表板显示窗口右上角所选时间范围内的流量指标。
使用仪表板顶部的选取器深入了解特定的工作负载。特别值得一提的是 UiPath 命名空间。
顶部显示整体指标,“入站工作负载”部分根据来源分离流量,“出站服务”部分根据目标分离流量。
监控存储
监控持久卷
您可以通过 Kubernetes/持久卷仪表板监控持久卷。您可以跟踪每个卷的可用空间和已用空间。
您还可以通过选择 Cluster Explorer 的“存储”菜单中的“持久卷” 项目来检查每个卷的状态。
Ceph 集群仪表板
Ceph 是一个开源存储提供程序,可在 Longhorn 创建的持久卷之上公开符合 Amazon S3 的对象/Blob 存储。
监控硬件利用率
要检查每个节点的硬件利用率,您可以使用节点仪表板。可以使用 CPU、内存、磁盘和网络上的数据。
您可以使用 Kubernetes/计算资源/命名空间(工作负载)仪表板监控特定工作负载的硬件利用率。选择 UiPath 命名空间以获取所需的数据。
监控 Kubernetes 资源状态
要查看 Pod、部署、状态副本集等的状态,可以使用 Cluster Explorer 用户界面。这与登录到 Rancher-Server 端点后访问的登录页面相同。主页将显示摘要,并在左侧向下钻取每种资源类型的特定详细信息。请注意页面顶部的命名空间选取器。此仪表板也可以替换为 Lens 工具。
- 选择图表标题旁边的“菜单”按钮,然后选择“共享” 。
- 选择快照选项卡,然后设置快照名称、过期和超时。
- 选择“发布到快照.raintank.io”。
有关更多详细信息,请参阅有关共享仪表板的 Grafana 文档。
有关如何创建自定义持久性 Grafana 仪表板的详细信息,请参阅 Grafana 文档。
在 Automation Suite 集群中,通常不需要对 Grafana 的管理员访问权限,因为在默认情况下,匿名用户可以读取访问仪表板,而创建自定义持久性仪表板必须使用本文档前面链接的 Kubernetes 原生说明。
不过,使用以下说明可以对 Grafana 进行管理员访问。
可以按如下方式检索 Grafana 管理员访问权限的默认用户名和密码:
kubectl -n monitoring get secrets/grafana-creds -o "jsonpath={.data.admin-user}" | base64 -d; echo
kubectl -n monitoring get secrets/grafana-creds -o "jsonpath={.data.admin-password}" | base64 -d; echo
kubectl -n monitoring get secrets/grafana-creds -o "jsonpath={.data.admin-user}" | base64 -d; echo
kubectl -n monitoring get secrets/grafana-creds -o "jsonpath={.data.admin-password}" | base64 -d; echo
请注意,在高可用性 Automation Suite 集群中存在多个 Grafana Pod,以便在节点出现故障以及进行大量读取查询时实现不间断的读取访问。 这与管理员访问权限不兼容,因为 Pod 不共享会话状态,并且登录需要它。 为了解决此问题,需要管理员访问权限时,必须将 Grafana 副本的数量临时增加到 1。 接下来提供有关如何扩展 Grafana 副本数量的说明:
# scale down
kubectl scale -n monitoring deployment/monitoring-grafana --replicas=1
# scale up
kubectl scale -n monitoring deployment/monitoring-grafana --replicas=2
# scale down
kubectl scale -n monitoring deployment/monitoring-grafana --replicas=1
# scale up
kubectl scale -n monitoring deployment/monitoring-grafana --replicas=2
您可以在 Prometheus 用户界面中搜索可用指标。
有关可用指标的文档如下: