百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

基于 Linux 快速搭建企业级 Prometheus 监控系统(实战指南)

ahcoder 2025-05-11 13:40 9 浏览


一、前言

随着系统规模的扩大,运维人员需要及时掌握服务器、应用程序、网络等多方面的运行状态,传统监控工具已难以满足现代化需求。Prometheus 作为云原生时代最流行的开源监控系统,具备强大的数据采集、存储、告警和可视化能力。


本文将手把手教你在 Linux 环境下,快速搭建一个完整的 Prometheus 监控系统,并实现基本的监控告警功能。



二、架构设计

本次搭建包含以下组件:


  • Prometheus Server:负责数据采集与存储
  • Node Exporter:用于收集主机指标
  • Alertmanager:负责接收并处理告警
  • Grafana:用于数据可视化展示



整体架构如下:

[Node Exporter] → [Prometheus Server] → [Alertmanager] → [Grafana]



三、实战部署步骤

1. 环境准备

  • 系统版本:CentOS 7/8 或 Ubuntu 20.04+
  • 关闭防火墙(开发环境):


sudo systemctl stop firewalld

sudo systemctl disable firewalld

安装基础工具:

sudo yum install -y wget tar



2. 安装 Prometheus

下载 Prometheus:

wget https://github.com/prometheus/prometheus/releases/download/v2.50.1/prometheus-2.50.1.linux-amd64.tar.gz

tar -xvf prometheus-2.50.1.linux-amd64.tar.gz

cd prometheus-2.50.1.linux-amd64

运行 Prometheus:

./prometheus --config.file=prometheus.yml

默认监听端口为 9090,可以访问 http://服务器IP:9090 查看 Prometheus 界面。



3. 安装 Node Exporter

Node Exporter 用于收集主机的 CPU、内存、磁盘、网络等基础指标。


下载并运行 Node Exporter:

wget https://github.com/prometheus/node_exporter/releases/download/v1.8.1/node_exporter-1.8.1.linux-amd64.tar.gz

tar -xvf node_exporter-1.8.1.linux-amd64.tar.gz

cd node_exporter-1.8.1.linux-amd64

./node_exporter

默认监听端口为 9100。



4. 配置 Prometheus 采集 Node Exporter

编辑 prometheus.yml 文件,增加 Node Exporter 的 target:

scrape_configs:

- job_name: 'node_exporter'

static_configs:

- targets: ['localhost:9100']

保存后,重启 Prometheus:

pkill prometheus

./prometheus --config.file=prometheus.yml

Prometheus 将开始采集主机指标。



5. 安装并配置 Alertmanager

下载并启动 Alertmanager:

wget https://github.com/prometheus/alertmanager/releases/download/v0.27.0/alertmanager-0.27.0.linux-amd64.tar.gz

tar -xvf alertmanager-0.27.0.linux-amd64.tar.gz

cd alertmanager-0.27.0.linux-amd64

./alertmanager --config.file=alertmanager.yml

配置 Prometheus 连接 Alertmanager:


在 prometheus.yml 增加:

alerting:

alertmanagers:

- static_configs:

- targets:

- 'localhost:9093'

可以定义告警规则,比如 CPU 使用率超过 80% 报警。




6. 安装 Grafana 可视化

下载并安装 Grafana:

wget https://dl.grafana.com/oss/release/grafana-10.4.2.linux-amd64.tar.gz

tar -zxvf grafana-10.4.2.linux-amd64.tar.gz

cd grafana-10.4.2

./bin/grafana-server web

访问 http://服务器IP:3000,默认账号密码是 admin/admin。


添加数据源,选择 Prometheus,地址填写 http://localhost:9090,即可开始制作精美的监控大盘。



四、常用优化建议

  • 将 Prometheus、Node Exporter、Alertmanager 配置为系统服务(systemd)
  • 使用反向代理(如 Nginx)保护界面安全性
  • 配置 TLS/SSL 加密数据传输
  • 分区存储,优化大规模数据查询性能
  • 定制丰富的 Grafana 仪表盘,提升可视化体验



五、常见问题排查


问题

可能原因

解决方案

采集不到数据

target 配置错误/端口未开放

检查 scrape_configs,确认端口开放

Prometheus 无法启动

配置文件语法错误

使用 promtool check config 检查

Alertmanager 告警未触发

告警规则配置错误

检查 rule 文件,验证条件准确




六、总结



通过以上步骤,你可以在 Linux 系统上从零搭建起完整的 Prometheus 监控体系,满足企业级基础设施和应用程序的监控需求。

未来可以进一步扩展到黑盒监控、服务发现、集群 HA 等更复杂的监控场景。

相关推荐

WordPress外贸站架构深度剖析:如何实现秒级页面响应?

在搭建WordPress外贸独立站时,性能往往是影响转化的隐形杀手。下面分享几点实战经验,帮助你把响应速度从3秒降到1秒以内:1精准PHP版本与扩展选择推荐使用PHP8.1+,并启用Opcache...

nginx配置文件详解(nginx配置文档)

Nginx是一个强大的免费开源的HTTP服务器和反向代理服务器。在Web开发项目中,nginx常用作为静态文件服务器处理静态文件,并负责将动态请求转发至应用服务器(如Django,Flask,et...

网站总是受到攻击打不开怎么办(网站被攻击打不开)

最近我的网站流量呈上升的趋势,经常被同行恶意攻击,但是我的网站还是没有垮,我就详细给遇到和我同样问题的朋友们分享我的网站到底是如何防御住黑客攻击的,因为正常的情况下,我们的客户端发送请求到达服务器端,...

一文读懂限流算法及方案介绍(限流式的范围怎么算)

作者:京东科技康志兴应用场景现代互联网很多业务场景,比如秒杀、下单、查询商品详情,最大特点就是高并发,而往往我们的系统不能承受这么大的流量,继而产生了很多的应对措施:CDN、消息队列、多级缓存、异地...

HTTP/1.1、HTTP/2、HTTP/3 演变(http的发展)

HTTP基本概念HTTP是超文本传输协议,也就是HyperTextTransferProtocol。HTTP常见的状态码有哪些?1xx类状态码属于提示信息,是协议处理中的一种中间状态,实际...

Nginx负载均衡算法详解(5大主流算法)

关注△mikechen△,十余年BAT架构经验倾囊相授!大家好,我是mikechen睿哥。Nginx是大型架构的必备中间件,也是大厂经常考察的内容,下面我就全面来详解Nginx算法@mikechen轮...

Nginx从安装到高可用,一篇搞定(nginx安装windows)

一、Nginx安装1、去官网http://nginx.org/下载对应的nginx包,推荐使用稳定版本2、上传nginx到linux系统3、安装依赖环境(1)安装gcc环境yuminstallgc...

一文搞懂!7种常见的限流方式!(限流措施有哪些)

在实际应用中,每个系统或者服务都有其处理能力的极限(瓶颈),即便是微服务中有集群和分布式的夹持,也不能保证系统能应对任何大小的流量,因此,系统为了自保,需要对处理能力范围以外的流量进行“特殊照顾”(比...

探索Apache HttpClient超时时间如何设定?

大家好,我是哪吒。最近在项目遇到了通过HTTP请求,调用第三方接口的问题。一、ApacheHttpClient模拟POST请求,调用第三方接口ApacheHttpClient是一个流行的Java库...

Nginx 1.20.0 稳定版介绍(nginx1.21.0)

nginx最新稳定分支1.20已于2021年4月20日发布,新版本引入了来自1.19.x主线分支的新功能和错误修复,其中包括:使用OCSP进行客户端SSL证书验证引入ssl_rej...

图解常见的限流算法(计数器、滑动窗口计数、漏桶、令牌桶)

哈喽,大家好呀,我是呼噜噜,好久没有更新文章了,今天我们来聊聊在企业级项目中,常见的几种限流手段的原理及其实现什么场景需要限流随着互联网的业务发展,比如秒杀、双十一、618等这些我们耳熟能详,也有被人...

高并发场景下,Nginx性能如何提升10倍?

大家好,我是mikechen。在高并发场景,Nginx是流量入口的第一道防线,如果想拦截亿级流量,需要Nginx合理调优才能应对@mikechen。本文作者:陈睿|mikechen文章来源:mike...

Sentinel源码—8.限流算法和设计模式总结

大纲1.关于限流的概述2.高并发下的四大限流算法原理及实现3.Sentinel使用的设计模式总结1.关于限流的概述保护高并发系统的三把利器:缓存、降级和限流。限流就是通过限制请求的流量以达到保护系统的...

Nginx-性能优化(nginx性能优化)

前言这篇关于Nginx的性能优化,是我查阅资料研究所成,并没有用于实际生产环境,如若你想用于实践,请谨慎测试之后使用。Nginx性能优化,主要是减少磁盘io。请求头、请求体、响应体都在缓冲区操...

两步优化nginx,性能达到10万+并发

Nginx介绍nginx是一款来自俄罗斯开发人员开源的高性能的HTTP服务器和方向代理服务器,因为它的性能非常优秀,而且是免费,所以,在国内被广泛运用于web服务器、负载均衡服务器、邮件代理服务器。它...