Amazon EKS

Amazon EKS 入门

选择您自己的路径

Amazon EKS 是一种全托管 Kubernetes 服务，可让您轻松在 AWS 上大规模运行容器。无论您正在通过微服务进行现代化改造、运行大规模的机器学习工作负载，还是借助生成式人工智能等新兴技术进行构建，Amazon EKS 都能帮助客户运行其关键任务的容器化应用，同时降低运营开销并加速创新。选择您的学习路径，了解 EKS 如何帮助您高效运维生产级 Kubernetes 环境，并按照针对特定使用案例定制的步骤开始上手操作。

路径 1-0：代理式人工智能
1
路径 1-1：部署代理
4
路径 1-2：Amazon EKS 的代理运营
4
路径 2-0：生成式人工智能
1
路径 2-1：模型部署与推理
4
路径 3-0：没有想到使用案例？
4

路径 1-0：代理式人工智能

全部打开

Amazon EKS 支持两种不同的代理式人工智能方法。首先，您可以将自主代理作为容器化应用程序进行部署和扩展，从而控制您的代理基础设施。其次，您可以简化 Kubernetes 操作和应用程序开发，使代理和人工智能助手能够通过使用代理间协议（A2A）和模型上下文协议（MCP）的自然语言交互来简化运维和排查问题。本路径将指导您完成这两种方法：在 Amazon EKS 上部署代理，以及使用代理式人工智能来增强 Amazon EKS 的开发者和运维人员体验。

路径 1-1：部署代理

全部打开

使用开源的 Strands Agents SDK 或您偏好的代理框架，在 Amazon EKS 上部署和扩展自主人工智能代理。这种方法让您能够完全控制代理基础设施，允许您使用任何模型并根据需要自定义实现。EKS 为运行容器化的人工智能代理提供生产级能力，具备高可用性和可扩展性。

探索在 EKS 上构建和部署人工智能代理的基础知识。了解 Strands Agents SDK 及其如何简化代理开发，或者将这些概念应用到您偏好的框架中。研究一个关于天气预报的真实示例，了解一个简单的代理如何与外部 API 集成、处理流式响应以及处理自然语言查询。该示例演示了在 EKS 上部署代理时所需的关键概念，如系统提示、工具集成和 API 工作流。

按照我们的分步指南，将 Strands Agents SDK 代理部署到 Amazon EKS。首先学习如何将代理容器化、设置 FastAPI 端点、实现流式响应以及使用 Docker 打包应用程序。使用我们的示例项目来理解 EKS 自动模式配置、Helm 部署和基本测试等基本概念。虽然本指南使用 Strands SDK，但其原理适用于在 EKS 上部署任何容器化代理。

学习在生产环境中可靠地扩展和操作您的代理部署。实施自动扩缩以处理变化的工作负载，通过备份和失效转移配置实现高可用性，并使用 CloudWatch Container Insights 设置全面的监控。遵循我们的运行人工智能/机器学习工作负载的 EKS 最佳实践指南，确保您的代理基础设施安全且可观测。参加我们的自定进度 EKS 上的代理式人工智能讲习会，获取大规模部署人工智能代理的分步指导。

路径 1-2：Amazon EKS 的代理运营

全部打开

通过 Amazon EKS MCP 服务器为人工智能编码助手提供实时工具和资源，从而改变您的 Kubernetes 运维方式。这使得人工智能代理能够通过自然语言交互，在上下文指导和自动化支持下，直接与您的 EKS 集群进行交互。从集群创建到故障排除，这些人工智能代理有助于简化您的 Kubernetes 操作，同时保持 AWS 最佳实践。

了解不同的 AWS MCP 服务器如何促进人工智能模型与 AWS 服务和资源之间的交互。探索 EKS MCP 服务器指南，了解人工智能代理如何帮助自动化从集群管理到故障排除的常见操作任务。设置您的开发环境，配置诸如 Amazon Q 开发者版 CLI 或集成了 EKS MCP 服务器的 Cline 等人工智能助手。

按照我们的分步指南，使用 Amazon EKS MCP 服务器简化 Kubernetes 操作。学习使用自然语言命令在 EKS 上容器化和部署应用程序。查看此演示，进一步了解人工智能代理如何使用 EKS MCP 服务器的工具帮助生成 Kubernetes 清单、管理集群资源以及自动化部署工作流。

按照我们的人工智能辅助故障排除演练（结合 Amazon EKS MCP 服务器），了解人工智能代理如何帮助监控应用程序健康状况并解决常见问题。通过调试容器组（pod）失败和基础设施问题的实际示例，学习使用自然语言查询来检查 CloudWatch 指标、分析日志和诊断问题。此实践指南展示了人工智能辅助如何帮助您利用 Amazon CloudWatch 和其他 AWS 服务，在 EKS 上维护健康的应用程序。

路径 2-0：生成式人工智能

全部打开

生成式人工智能领域正在迅速发展，各组织正在为分布式模型训练、微调和大规模推理部署等使用案例构建、部署和扩展各种人工智能/机器学习工作负载。包括 Anthropic 和 Adobe 在内的客户正在选择 Amazon EKS，以便在对计算资源进行精细控制的同时保持操作效率。查看此指南，概述客户为何在模型训练与部署、检索增强生成（RAG）和推理等常见使用案例中选择 EKS 用于人工智能/机器学习。

路径 2-1：模型部署与推理

全部打开

Amazon EKS 支持生产级推理部署，具备 GPU 优化、多模型服务和自动扩缩能力。组织可以利用其现有的 EKS 专业知识和操作实践，快速部署和管理推理工作负载以及其他应用程序。通过与开源工具以及 AWS 上广泛的加速器集成，Vannevar Labs 和 Omi 等公司在保持基础设施运维一致性的同时，实现了显著的成本降低和性能提升。

在这份解决方案指南中，了解在 EKS 上部署推理工作负载的基础设施和架构基础知识，涵盖 GPU 支持、模型服务模式和资源优化等关键主题。探索开源的 EKS 人工智能项目，它提供了可立即部署的蓝图，例如使用基础设施即代码模板设置可扩展的大语言模型推理服务以用于生产部署。

从我们的实时推理最佳实践集群设置指南开始，创建一个针对生产推理工作负载优化的 EKS 集群。使用我们生产就绪的 EKS 人工智能推理图表部署模型，该图表为 vLLM 和 NVIDIA Triton 等流行框架提供了 Helm 图表和基础设施即代码模板。对于传统的机器学习工作负载，请参阅 AWS 深度学习容器开发人员指南中关于 CPU 和基于 GPU 的推理的部署模式。

参加我们的实践讲习会，使用您选择的加速器在 EKS 上部署推理工作负载：基于 NVIDIA 的讲习会（用于基于 GPU 的推理）和基于 AWS Neuron 的讲习会（使用 Inferentia 和 Trainium 加速器）。两个讲习会都涵盖了设备插件设置、资源管理和监控等基本任务。参考全面的 EKS 人工智能/机器学习工作负载最佳实践指南，确保您的推理部署遵循计算、网络、存储和可观测性方面的成熟模式。随着您在 EKS 上操作和发展推理架构，这些指南可作为持续的参考。