返回列表

AWS自动发货 AWS 亚马逊云账号日志分析系统

亚马逊aws / 2026-04-21 18:29:26

别再把日志当摆设：你的AWS账号其实每天都在写‘犯罪日记’

你有没有过这种经历？某天早上打开控制台，发现EC2实例莫名其妙被删了，S3桶里多了几百个陌生前缀的文件夹，IAM用户列表里冒出个叫devops-automation-2024-q3的账号——而你根本没建过它。你第一反应是点开CloudTrail查操作记录，结果页面刷出5万条日志，时间跨度三天，筛选框里填了Delete*、PutBucketPolicy、CreateUser，一通猛点后，眼睛发酸，线索断在第17页。

这不是你技术不行，是日志没被当成“活证据”来用。AWS日志不是待查档案，而是实时流动的系统脉搏。CloudTrail记下谁、何时、在哪、干了啥；VPC Flow Logs默默录下每比特进出流量；CloudWatch Logs则盯着应用层吐出的每一行错误。三者合起来，就是一套自带时间戳、IP指纹和权限上下文的立体监控网。关键不在“有没有”，而在“会不会读”。

三大日志源，不是三块拼图，而是一张网的经纬线

CloudTrail：你的AWS操作‘行车记录仪’

别被官方文档里“事件历史保留90天”唬住——真正要命的往往不是那条删除指令，而是它前面的三步铺垫：先创建一个拥有AdministratorAccess策略的IAM角色，再用该角色临时切换会话，最后才执行删除。单看StopInstances事件，你只会以为是运维误操作；但把AssumeRole、CreatePolicyVersion、StopInstances串成时间线，立刻嗅出傀儡账号的味道。CloudTrail的精髓在于userIdentity字段里的type（是Root、IAMUser还是AssumedRole）和sessionContext里藏着的sessionIssuer——这才是识别“谁真正在操控”的DNA。

VPC Flow Logs：流量不说谎，但得听懂它的方言

某次故障排查，应用日志显示“数据库连接超时”，RDS监控图表风平浪静。直到翻出VPC Flow Logs，发现大量REJECT状态码，目标端口5432，源IP全是10.0.1.0/24网段——而这个网段本该被安全组拦死。再查安全组规则，果然有条“允许全部内网流量”的宽松策略，是上周新上线的CI/CD流水线自动添加的。Flow Logs不告诉你“为什么连不上”，但它用bytes、packets、start/end时间戳和action四个字段，把网络世界的因果链钉死在日志里。记住：ACCEPT不等于通畅，REJECT才是真相的句号。

CloudWatch Logs：应用层的‘咳嗽声’，比警报更早预警

我们曾遇到一个诡异问题：Lambda函数冷启动耗时从200ms突然跳到3.2秒，但CloudWatch Metrics里Duration平均值纹丝不动。直到扒开对应的Log Group，发现日志里高频出现Unable to resolve host dynamodb.us-east-1.amazonaws.com: Temporary failure in name resolution。原来DNS解析失败触发了重试逻辑，而重试过程被计入总耗时，但成功请求拉低了均值。Metrics是体检报告，Logs才是病历本——尤其当你看到WARN级别日志里反复出现Connection reset by peer，而ERROR寥寥无几时，大概率是下游服务在悄悄限流，只是还没崩给你看。

日志分析不是搜索比赛，是侦探推理现场

第一步：给日志‘打时间戳锚点’

所有分析必须始于一个确定的时间坐标。比如收到告警说“S3对象数激增”，别急着搜PutObject，先确认告警触发时刻（精确到秒），然后以该时间为圆心，前后各拉15分钟窗口。你会发现，真正的源头可能是一条ReplicateObject事件——它本身不新增对象，却触发跨区域复制，导致目标桶对象数暴涨。时间锚点错了，整个分析方向就偏航。

第二步：用‘身份-资源-动作’三角验证法

看到一条可疑DeleteBucket事件，立刻检查三要素：
① userIdentity.arn是否属于已知运维人员？
② requestParameters.bucketName是否在CMDB备案列表内？
③ sourceIPAddress是否来自公司办公网出口或堡垒机IP？
三者任一存疑，立即冻结该IAM用户密钥，并在CloudTrail中反向追踪该ARN近72小时的所有操作——往往能挖出批量创建AccessKey的痕迹。

第三步：警惕‘合法动作’背后的非法意图

最危险的日志不是Delete*，而是看似无害的GetCallerIdentity。攻击者常借此探测账号权限边界；ListBuckets用于踩点；Describe*（如DescribeInstances、DescribeSecurityGroups）则是绘制攻击地图。这些API默认允许匿名调用或低权限调用，日志里不会标红，但若在非工作时段、非运维IP段高频出现，就是入侵前的静默侦察。建议在CloudTrail中为这类“信息搜集类API”单独建告警规则，阈值设为“5分钟内超10次”。



落地不靠工具堆砌，靠三招‘轻量级闭环’

用EventBridge规则做日志‘守夜人’
与其等人工翻日志，不如让EventBridge自动盯梢。例如：监听CloudTrail事件中eventName为ConsoleLogin且errorCode为FailedAuthentication，连续3次即触发SNS通知。规则配置只需两分钟，却能在暴力破解初期掐灭火苗。重点在于：规则要具体到detail-type和detail.userIdentity.type，避免把MFA失败也当成攻击。

用Athena跑‘日志快照’，代替实时查询
AWS自动发货 每天凌晨用Athena对昨日CloudTrail日志执行一次聚合查询：SELECT userIdentity.arn, COUNT(*) as cnt FROM cloudtrail_logs WHERE eventTime >= 'yesterday' GROUP BY userIdentity.arn ORDER BY cnt DESC LIMIT 10。结果存入DynamoDB。这样白天排查时，直接查这张表就能知道“谁昨天最活跃”，省去每次都要扫描TB级日志的等待。

把日志结论变成‘可执行清单’
分析报告最后一行不能是“建议加强监控”，而要是：“请于24小时内完成三项操作：
① 撤销IAM用户jenkins-prod的iam:CreateAccessKey权限；
② 将VPC Flow Logs中dstPort=22且action=ACCEPT的记录导出，交网络组核查SSH白名单；
③ 在Lambda函数payment-validator的Log Group中启用metricFilter，捕获含'card declined'的日志并报警。”
日志分析的价值，永远体现在下一个被执行的动作里。
最后说句实在话：没有完美的日志系统，只有不断校准的判断习惯。当你开始质疑“为什么这条日志在这里出现”，而不是“怎么查到这条日志”，你就已经从日志消费者，升级成了系统语义的解读者。毕竟，云不会说谎，它只是把真相，一行行写进了日志里——等你来认领。