我准备怎么用一台服务器做完一次运维实践任务：从环境准备到监控与日志的落地路线

这次要做的不是单独学一个工具，而是把一整串东西串起来：

Ansible
k3s
Prometheus
Grafana
Loki

如果只看名字，这种任务最容易给人一种压迫感：

东西太多了，我根本不知道该先做什么。

我一开始也是这个感觉。

不过现在这个实践已经比最开始更清楚了，因为目标被收窄到了只有一台机器，也就是 k3s 那台服务器。

这样反而更适合先把整条自动化路线练顺。

所以这篇文章，我不再按“两台机器分工”的思路写，而是直接按一台服务器的实际场景来拆：

一台服务器能承担什么
Ansible 怎么组织目录
哪些事情交给 Ansible
怎样让 k3s、Prometheus、Grafana 进入自动化流程
日志服务怎么作为补充落进去

先把目标说清楚#

这次实践，我不会追求真正的生产架构，而是追求：

做出一套单机可运行、并且能够重复执行的最小自动化版本。

也就是说：

k3s 这台机器同时承担实验环境本体
Ansible 负责把环境初始化、k3s、Helm、Prometheus、Grafana 这些步骤串起来
Loki 先按最小实验版本去落地

这样做的重点不是“把所有东西都堆得很大”，而是：

先把顺序走通
先把自动化思路理顺
以后重做时不需要从头手敲

这一台服务器我准备怎么用#

既然只剩下一台机器，那它就要承担这次实践里的主要角色。

`k3s` 这台机器我准备用来做#

k3s 单节点集群
Helm 部署练习
Prometheus + Grafana 的 Kubernetes 内部署
一部分日志服务实验

这样做虽然不算“分层很漂亮”，但对当前这个阶段反而更合适。

因为你现在最需要的不是一套复杂分布式架构，而是：

先把一条完整的自动化部署链路跑通。

第一步：先把 SSH 管理理顺#

后面所有自动化都要建立在 SSH 能稳定连接的基础上，所以这一步不能省。

先在管理机上准备 ~/.ssh/config：

1
Host k3s
2
    HostName 192.168.3.5
3
    User root
4
    IdentityFile ~/.ssh/id_ed25519

然后先手工确认：

1
ssh k3s hostname

如果这一步不顺，后面不要急着怪 Ansible，应该先把 SSH 打通。

如果你前面还没单独整理过 SSH 配置，也可以先看这篇：

Git SSH 密钥怎么配：从生成密钥到让 GitHub 走 SSH 的一份完整上手教程

第二步：先搭一个最小的 Ansible 目录#

我会先建一个自己的工作目录：

1
mkdir -p ~/lab-ops/ansible/{group_vars,host_vars,playbooks}
2
cd ~/lab-ops/ansible

目录我会先做成这样：

1
ansible/
2
├── inventory.ini
3
├── group_vars/
4
├── host_vars/
5
└── playbooks/
6
    ├── bootstrap.yml
7
    ├── k3s.yml
8
    ├── monitoring.yml
9
    └── logging.yml

这次的目标不是把目录做得多复杂，而是让后面的自动化步骤都有地方放。

第三步：把 inventory 写清楚#

1
[k3s_nodes]
2
k3s ansible_host=192.168.3.5 ansible_user=root
3

4
[all:vars]
5
ansible_python_interpreter=/usr/bin/python3

因为现在只有一台机器，所以 inventory 反而更简单。

第四步：先用 Ansible 做基础初始化#

先做最基础的一层，目的是把这台机器整理到可继续自动化的状态。

`playbooks/bootstrap.yml`#

1
- hosts: k3s_nodes
2
  become: true
3
  tasks:
4
    - name: Update apt cache
5
      apt:
6
        update_cache: true
7

8
    - name: Install common packages
9
      apt:
10
        name:
11
          - curl
12
          - wget
13
          - git
14
          - vim
15
          - htop
16
          - unzip
17
          - jq
18
          - ca-certificates
19
        state: present

执行方式#

1
ansible-playbook -i inventory.ini playbooks/bootstrap.yml

这一层做完以后，至少先有一个统一起点。

第五步：让 Ansible 接管 k3s 安装#

这一步开始，Ansible 就不只是“初始化工具”了。

`playbooks/k3s.yml`#

1
- hosts: k3s_nodes
2
  become: true
3
  tasks:
4
    - name: Install k3s
5
      shell: curl -sfL https://get.k3s.io | sh -
6
      args:
7
        creates: /usr/local/bin/k3s
8

9
    - name: Ensure k3s service is enabled
10
      service:
11
        name: k3s
12
        state: started
13
        enabled: true
14

15
    - name: Create kubectl symlink
16
      file:
17
        src: /usr/local/bin/k3s
18
        dest: /usr/local/bin/kubectl
19
        state: link
20
        force: true
21

22
    - name: Check node status
23
      shell: kubectl get nodes
24
      environment:
25
        KUBECONFIG: /etc/rancher/k3s/k3s.yaml
26
      register: k3s_nodes_result
27
      changed_when: false
28

29
    - name: Show node status
30
      debug:
31
        var: k3s_nodes_result.stdout_lines
32

33
    - name: Install Helm
34
      shell: curl https://raw.githubusercontent.com/helm/helm/main/scripts/get-helm-3 | bash
35
      args:
36
        creates: /usr/local/bin/helm

执行方式#

1
ansible-playbook -i inventory.ini playbooks/k3s.yml

这里的重点不是把 curl | sh 包了一层，而是：

如果你前面还没系统理解 Helm，这一步最好和这篇一起看：

Helm 是什么，应该怎么安装和使用：给 Kubernetes 新手的一篇实战入门
以后重装时可以重复跑
k3s 安装被纳入了统一流程
Helm 也顺手接进来了

第六步：把 Prometheus + Grafana 收进 Ansible#

如果这一步还继续手工装，那前面 Ansible 的价值就还是没有完全发挥出来。

所以我会直接把监控也写成 playbook。

如果你想先补监控这条线的概念，再继续往下看，也可以对应参考：

`playbooks/monitoring.yml`#

1
- hosts: k3s_nodes
2
  become: true
3
  environment:
4
    KUBECONFIG: /etc/rancher/k3s/k3s.yaml
5
    HTTP_PROXY: http://192.168.3.14:7890/
6
    HTTPS_PROXY: http://192.168.3.14:7890/
7
    NO_PROXY: 127.0.0.1,localhost,10.42.0.0/16,10.43.0.0/16,10.0.0.0/8,192.168.0.0/16
8
  tasks:
9
    - name: Add Prometheus Helm repo
10
      shell: helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
11
      register: helm_repo_add
12
      failed_when: helm_repo_add.rc != 0 and 'already exists' not in helm_repo_add.stderr
13
      changed_when: "'has been added' in helm_repo_add.stdout"
14

15
    - name: Add Grafana Helm repo
16
      shell: helm repo add grafana https://grafana.github.io/helm-charts
17
      register: grafana_repo_add
18
      failed_when: grafana_repo_add.rc != 0 and 'already exists' not in grafana_repo_add.stderr
19
      changed_when: "'has been added' in grafana_repo_add.stdout"
20

21
    - name: Update Helm repos
22
      shell: helm repo update
23
      changed_when: false
24

25
    - name: Create monitoring namespace
26
      shell: kubectl create namespace monitoring
27
      register: monitoring_ns
28
      failed_when: monitoring_ns.rc != 0 and 'already exists' not in monitoring_ns.stderr
29
      changed_when: "'created' in monitoring_ns.stdout"
30

31
    - name: Write monitoring values
32
      copy:
33
        dest: /root/monitoring-values.yaml
34
        mode: '0644'
35
        content: |
36
          grafana:
37
            service:
38
              type: NodePort
39
              nodePort: 30080
40

41
    - name: Install kube-prometheus-stack
42
      shell: helm upgrade --install monitoring prometheus-community/kube-prometheus-stack -n monitoring --create-namespace -f /root/monitoring-values.yaml

执行方式#

1
ansible-playbook -i inventory.ini playbooks/monitoring.yml

这一层里我更倾向于把和监控部署直接相关的环境一起放进 playbook，例如：

KUBECONFIG
HTTP_PROXY
HTTPS_PROXY
NO_PROXY

同时，如果后面准备让外部机器通过 Tailscale 或反向代理访问 Grafana，我也更建议直接把 Grafana 的 service 形式写进 Helm values，而不是装完以后再临时手工 patch。

这样做的好处是：

Helm 访问仓库时有稳定的网络出口
kubectl 与 Helm 都能直接找到 k3s 集群
以后重跑 playbook 时不依赖当前 shell 是否手工 export 过环境变量
Grafana 暴露方式可以跟着 release 一起管理，不会在重装后丢失

如果你的代理地址、网段或者 NodePort 端口号跟这里不同，就把示例里的值替换成你自己的实际环境。

部署后怎么确认#

1
ssh k3s sudo kubectl get pods -n monitoring
2
ssh k3s sudo kubectl get svc -n monitoring

如果只是临时访问 Grafana，依然可以端口转发：

1
ssh k3s sudo kubectl port-forward svc/monitoring-grafana -n monitoring 3000:80

浏览器访问：

1
http://127.0.0.1:3000

第七步：日志服务怎么放进这条自动化路线#

日志这部分我更倾向于直接走 Loki，而不是继续用 Docker 临时跑一套 ELK。

原因很简单：

它更贴近 k3s / Kubernetes 的使用场景
它和前面已经部署好的 Grafana 更容易接起来
采集层可以直接按节点方式运行，而不是额外再拼一套偏传统的日志平台

如果你想先补 Loki 这条路线的背景，可以配合我前面那篇单独的文章一起看：

如何在 k3s 里部署和使用 Loki：按官方当前推荐路线完成一次最小可用实践

`playbooks/logging.yml`#

1
- hosts: k3s_nodes
2
  become: true
3
  environment:
4
    KUBECONFIG: /etc/rancher/k3s/k3s.yaml
5
    HTTP_PROXY: http://192.168.3.14:7890/
6
    HTTPS_PROXY: http://192.168.3.14:7890/
7
    NO_PROXY: 127.0.0.1,localhost,10.42.0.0/16,10.43.0.0/16,10.0.0.0/8,192.168.0.0/16
8
  tasks:
9
    - name: Add Grafana Helm repo
10
      shell: helm repo add grafana https://grafana.github.io/helm-charts
11
      register: grafana_repo_add
12
      failed_when: grafana_repo_add.rc != 0 and 'already exists' not in grafana_repo_add.stderr
13
      changed_when: "'has been added' in grafana_repo_add.stdout"
14

15
    - name: Update Helm repos
16
      shell: helm repo update
17
      changed_when: false
18

19
    - name: Create logging namespace
20
      shell: kubectl create namespace logging
21
      register: logging_ns
22
      failed_when: logging_ns.rc != 0 and 'already exists' not in logging_ns.stderr
23
      changed_when: "'created' in logging_ns.stdout"
24

25
    - name: Write Loki values
26
      copy:
27
        dest: /root/loki-values.yaml
28
        mode: '0644'
29
        content: |
30
          deploymentMode: SingleBinary
31

32
          singleBinary:
33
            replicas: 1
34

35
          loki:
36
            auth_enabled: false
37
            commonConfig:
38
              replication_factor: 1
39
            storage:
40
              type: filesystem
41
            schemaConfig:
42
              configs:
43
                - from: "2024-01-01"
44
                  store: tsdb
45
                  object_store: filesystem
46
                  schema: v13
47
                  index:
48
                    prefix: loki_index_
49
                    period: 24h
50
            limits_config:
51
              allow_structured_metadata: true
52
              volume_enabled: true
53

54
          chunksCache:
55
            enabled: false
56
          resultsCache:
57
            enabled: false
58

59
          backend:
60
            replicas: 0
61
          read:
62
            replicas: 0
63
          write:
64
            replicas: 0
65
          ingester:
66
            replicas: 0
67
          querier:
68
            replicas: 0
69
          queryFrontend:
70
            replicas: 0
71
          queryScheduler:
72
            replicas: 0
73
          indexGateway:
74
            replicas: 0
75
          compactor:
76
            replicas: 0
77
          ruler:
78
            replicas: 0
79

80
          minio:
81
            enabled: false
82

83
          gateway:
84
            enabled: false
85

86
    - name: Install Loki
87
      shell: helm upgrade --install loki grafana/loki -n logging --create-namespace -f /root/loki-values.yaml
88

89
    - name: Write Alloy values
90
      copy:
91
        dest: /root/alloy-values.yaml
92
        mode: '0644'
93
        content: |
94
          alloy:
95
            configMap:
96
              create: true
97
              content: |-
98
                logging {
99
                  level  = "info"
100
                  format = "logfmt"
101
                }
102

103
                discovery.kubernetes "pods" {
104
                  role = "pod"
105
                }
106

107
                discovery.relabel "pod_logs" {
108
                  targets = discovery.kubernetes.pods.targets
109

110
                  rule {
111
                    source_labels = ["__meta_kubernetes_namespace"]
112
                    target_label  = "namespace"
113
                  }
114

115
                  rule {
116
                    source_labels = ["__meta_kubernetes_pod_name"]
117
                    target_label  = "pod"
118
                  }
119

120
                  rule {
121
                    source_labels = ["__meta_kubernetes_pod_container_name"]
122
                    target_label  = "container"
123
                  }
124
                }
125

126
                loki.source.kubernetes "pod_logs" {
127
                  targets    = discovery.relabel.pod_logs.output
128
                  forward_to = [loki.write.default.receiver]
129
                }
130

131
                loki.write "default" {
132
                  endpoint {
133
                    url = "http://loki.logging.svc.cluster.local:3100/loki/api/v1/push"
134
                  }
135
                }
136

137
          controller:
138
            type: daemonset
139

140
          serviceMonitor:
141
            enabled: false
142

143
    - name: Install Alloy
144
      shell: helm upgrade --install alloy grafana/alloy -n logging -f /root/alloy-values.yaml

执行方式#

1
ansible-playbook -i inventory.ini playbooks/logging.yml

这一步我会把日志后端和采集层一起收进 Ansible：

Loki 负责存储和查询
Grafana Alloy 负责按节点采集容器日志

这样这一段才算完整，而不是只有一个“后端先装上再说”的残缺版本。

第八步：这一套自动化路线到底长什么样#

如果我把整件事按执行顺序排出来，大概就是：

1
cd ~/lab-ops/ansible
2

3
ansible-playbook -i inventory.ini playbooks/bootstrap.yml
4
ansible-playbook -i inventory.ini playbooks/k3s.yml
5
ansible-playbook -i inventory.ini playbooks/monitoring.yml
6
ansible-playbook -i inventory.ini playbooks/logging.yml

这四步跑完以后，整套环境至少会比较接近：

基础环境已经初始化
k3s 已经部署
Helm 已经安装
Prometheus + Grafana 已经落地
Loki 与 Grafana Alloy 已经落地

这时候你再回头看，就会发现 Ansible 已经不只是“装几个包”，而是真的在承担整套部署流程的主线角色。

第九步：怎么验收这次实践#

如果做到后面没有一个明确验收表，很容易出现一种情况：

每个步骤都做了一点
但自己也说不清到底算不算完成

所以我会给自己列最小验收项。

基础连接#

1
ssh k3s hostname

Ansible 可用#

1
ansible all -i inventory.ini -m ping

k3s 正常#

1
ssh k3s kubectl get nodes
2
ssh k3s kubectl get pods -A

监控正常#

1
ssh k3s kubectl get pods -n monitoring
2
ssh k3s kubectl get svc -n monitoring

Grafana 页面能访问。

日志服务正常#

1
ssh k3s sudo kubectl get pods -n logging
2
ssh k3s sudo kubectl get svc -n logging
3
ssh k3s sudo kubectl logs -n logging -l app.kubernetes.io/name=alloy --tail=50

至少 Loki 和 Alloy 都正常运行，并且 Alloy 没有明显推送报错。

如果这里日志采集不正常，我现在更建议优先检查是不是还在用手工拼接 /var/log/pods 路径的旧思路。对 k3s 这种环境来说，直接改用 loki.source.kubernetes 往往更稳，因为它不用你自己去猜节点上的日志目录结构。

这次实践里，我现在更在意的事#

如果按现在这个思路，我更在意的已经不是“我会不会手动装这些东西”，而是：

1）我能不能把部署顺序理清楚#

2）我能不能把关键步骤收进 Ansible#

3）我下次重做时，是不是还能复现出来#

这三件事比“第一次是否完全手敲成功”更重要。

写在最后#

现在这个实践被收窄到只有一台服务器以后，反而更适合练自动化。

因为你不用再分心考虑多机协作，也不用把注意力放在环境切换上。

更合理的做法就是：

让 Ansible 先接管基础环境
再继续接管 k3s
再继续接管监控部署
最后把日志服务也纳入自动化流程

这样整件事才会真正从“我会手动搭环境”，变成：

我已经开始把环境搭建过程整理成一条可以重复执行的自动化路线。

对现在这个阶段来说，我觉得这比把架构做得很复杂更重要。

我准备怎么用一台服务器做完一次运维实践任务：从环境准备到监控与日志的落地路线

先把目标说清楚#

这一台服务器我准备怎么用#

k3s 这台机器我准备用来做#

第一步：先把 SSH 管理理顺#

第二步：先搭一个最小的 Ansible 目录#

第三步：把 inventory 写清楚#

第四步：先用 Ansible 做基础初始化#

playbooks/bootstrap.yml#

执行方式#

第五步：让 Ansible 接管 k3s 安装#

playbooks/k3s.yml#

执行方式#

第六步：把 Prometheus + Grafana 收进 Ansible#

playbooks/monitoring.yml#

执行方式#

部署后怎么确认#

第七步：日志服务怎么放进这条自动化路线#

playbooks/logging.yml#

执行方式#

第八步：这一套自动化路线到底长什么样#

第九步：怎么验收这次实践#

基础连接#

Ansible 可用#

k3s 正常#

监控正常#

日志服务正常#

这次实践里，我现在更在意的事#

1）我能不能把部署顺序理清楚#

2）我能不能把关键步骤收进 Ansible#

3）我下次重做时，是不是还能复现出来#

写在最后#

评论

`k3s` 这台机器我准备用来做#

`playbooks/bootstrap.yml`#

`playbooks/k3s.yml`#

`playbooks/monitoring.yml`#

`playbooks/logging.yml`#