外部数据怎么进入k8s集群？

一、外部数据怎么进入k8s集群？

1、加入VPMN集团网，必须持该集团介绍信，到移动营业厅进行登记，或者由该集团的集团联系人联系该集团的客户经理进行加入。当然如果你有朋友在移动工作，也可以随便找个集团给你加几个号码进去。

二、用K8s的公司有多少人会部署K8s？

介绍

容器化部署

随着Docker技术的流行，对项目的容器化部署方式越来越流行，容器化部署的优点如下：

可以保证每个容器拥有自己的文件系统、CPU、内存、进程空间等
运行应用程序所需要的资源都被容器包装，并和底层基础架构解耦
容器化的应用程序可以跨云服务商、跨Linux操作系统发行版进行部署

虽然容器化部署可以带来很多便利，但是也会出现一些问题，比如说：

一个容器故障停机了，怎么样让另外一个容器立刻启动去替补停机的容器
当并发访问量变大的时候，怎么样做到横向扩展容器数量

这些容器管理的问题统称为容器编排问题，为了解决这些容器编排问题，就产生了一些容器编排技术：

Swarm：Docker自己的容器编排工具
Mesos：Apache的一个资源统一管控的工具，需要和Marathon结合使用
Kubernetes：Google开源的的容器编排工具

目前为止Kubernetes是最为流行的一种容器编排技术。

k8s

kubernetes，由于k和s之间有8个字符，所以简称k8s，是一个全新的基于容器技术的分布式架构领先方案，是谷歌严格保密十几年的秘密武器----Borg系统的一个开源版本，于2015年7月发布第一个正式版本，它的本质是一组服务器集群，可以在集群的每个节点上运行特定的程序，来对节点中的容器进行管理，主要提供了如下主要功能：

自我修复：一旦某一个容器崩溃，能够在1秒中左右迅速启动新的容器
弹性伸缩：可以根据需要，自动对集群中正在运行的容器数量进行调整
服务发现：服务可以通过自动发现的形式找到它所依赖的服务
负载均衡：如果一个服务起动了多个容器，能够自动实现请求的负载均衡
版本回退：如果发现新发布的程序版本有问题，可以立即回退到原来的版本
存储编排：可以根据容器自身的需求自动创建存储卷

组件

一个k8s集群主要是由控制节点(master)、工作节点(node)构成，每个节点上都会安装不同的组件。

master：集群的控制平面，负责集群的决策 ( 管理 )

ApiServer : 资源操作的唯一入口，接收用户输入的命令，提供认证、授权、API注册和发现等机制 Scheduler : 负责集群资源调度，按照预定的调度策略将Pod调度到相应的node节点上 ControllerManager : 负责维护集群的状态，比如程序部署安排、故障检测、自动扩展、滚动更新等 Etcd ：负责存储集群中各种资源对象的信息

node：集群的数据平面，负责为容器提供运行环境 ( 干活 )

Kubelet : 负责维护容器的生命周期，即通过控制docker，来创建、更新、销毁容器 KubeProxy : 负责提供集群内部的服务发现和负载均衡 Docker : 负责节点上容器的各种操作

下面，以部署一个nginx服务来说明kubernetes系统各个组件调用关系：

首先要明确，一旦kubernetes环境启动之后，master和node都会将自身的信息存储到etcd数据库中
一个nginx服务的安装请求会首先被发送到master节点的apiServer组件
apiServer组件会调用scheduler组件来决定到底应该把这个服务安装到哪个node节点上

在此时，它会从etcd中读取各个node节点的信息，然后按照一定的算法进行选择，并将结果告知apiServer

apiServer调用controller-manager去调度Node节点安装nginx服务
kubelet接收到指令后，会通知docker，然后由docker来启动一个nginx的pod

pod是kubernetes的最小操作单元，容器必须跑在pod中至此，一个nginx服务就运行了，如果需要访问nginx，就需要通过kube-proxy来对pod产生访问的代理

这样，外界用户就可以访问集群中的nginx服务了

核心概念

Master：集群控制节点，每个集群需要至少一个master节点负责集群的管控

Node：工作负载节点，由master分配容器到这些node工作节点上，然后node节点上的docker负责容器的运行

Pod：kubernetes的最小控制单元，容器都是运行在pod中的，一个pod中可以有1个或者多个容器

Controller：控制器，通过它来实现对pod的管理，比如启动pod、停止pod、伸缩pod的数量等等

Service：pod对外服务的统一入口，下面可以维护者同一类的多个pod

Label：标签，用于对pod进行分类，同一类pod会拥有相同的标签

NameSpace：命名空间，用来隔离pod的运行环境

环境搭建

主机准备

本次搭建的是一台Master节点和多台Node节点构成的集群

作用	IP地址	操作系统	配置
Master	192.168.109.101	Centos7.5 基础设施服务器	2颗CPU 2G内存 50G硬盘
Node1	192.168.109.102	Centos7.5 基础设施服务器	2颗CPU 2G内存 50G硬盘
Node2	192.168.109.103	Centos7.5 基础设施服务器	2颗CPU 2G内存 50G硬盘

环境初始化

1) 检查操作系统的版本

# 此方式下安装kubernetes集群要求Centos版本要在7.5或之上
[root@master ~]# cat /etc/redhat-release
CentOS Linux release 7.5.1804 (Core)

2）主机名解析

为了方便后面集群节点间的直接调用，在这配置一下主机名解析，企业中推荐使用内部DNS服务器

# 主机名成解析 编辑三台服务器的/etc/hosts文件，添加下面内容
192.168.109.100  master
192.168.109.101  node1
192.168.109.102  node2

3）时间同步

kubernetes要求集群中的节点时间必须精确一致，这里直接使用chronyd服务从网络同步时间。

企业中建议配置内部的时间同步服务器

# 启动chronyd服务
[root@master ~]# systemctl start chronyd
# 设置chronyd服务开机自启
[root@master ~]# systemctl enable chronyd
# chronyd服务启动稍等几秒钟，就可以使用date命令验证时间了
[root@master ~]# date

4）禁用iptables和firewalld服务

kubernetes和docker在运行中会产生大量的iptables规则，为了不让系统规则跟它们混淆，直接关闭系统的规则

# 1 关闭firewalld服务
[root@master ~]# systemctl stop firewalld
[root@master ~]# systemctl disable firewalld
# 2 关闭iptables服务
[root@master ~]# systemctl stop iptables
[root@master ~]# systemctl disable iptables

5）禁用selinux

selinux是linux系统下的一个安全服务，如果不关闭它，在安装集群中会产生各种各样的奇葩问题

# 编辑 /etc/selinux/config 文件，修改SELINUX的值为disabled
# 注意修改完毕之后需要重启linux服务
SELINUX=disabled

6）禁用swap分区

swap分区指的是虚拟内存分区，它的作用是在物理内存使用完之后，将磁盘空间虚拟成内存来使用

启用swap设备会对系统的性能产生非常负面的影响，因此kubernetes要求每个节点都要禁用swap设备

但是如果因为某些原因确实不能关闭swap分区，就需要在集群安装过程中通过明确的参数进行配置说明

# 编辑分区配置文件/etc/fstab，注释掉swap分区一行
# 注意修改完毕之后需要重启linux服务
 UUID=455cc753-7a60-4c17-a424-7741728c44a1 /boot    xfs     defaults        0 0
 /dev/mapper/centos-home /home                      xfs     defaults        0 0
# /dev/mapper/centos-swap swap                      swap    defaults        0 0

7）修改linux的内核参数

# 修改linux的内核参数，添加网桥过滤和地址转发功能
# 编辑/etc/sysctl.d/kubernetes.conf文件，添加如下配置:
net.bridge.bridge-nf-call-ip6tables = 1
net.bridge.bridge-nf-call-iptables = 1
net.ipv4.ip_forward = 1

# 重新加载配置
[root@master ~]# sysctl -p

# 加载网桥过滤模块
[root@master ~]# modprobe br_netfilter

# 查看网桥过滤模块是否加载成功
[root@master ~]# lsmod | grep br_netfilter

8）配置ipvs功能

在kubernetes中service有两种代理模型，一种是基于iptables的，一种是基于ipvs的

两者比较的话，ipvs的性能明显要高一些，但是如果要使用它，需要手动载入ipvs模块

# 1 安装ipset和ipvsadm
[root@master ~]# yum install ipset ipvsadmin -y

# 2 添加需要加载的模块写入脚本文件
[root@master ~]# cat <<EOF >  /etc/sysconfig/modules/ipvs.modules
#!/bin/bash
modprobe -- ip_vs
modprobe -- ip_vs_rr
modprobe -- ip_vs_wrr
modprobe -- ip_vs_sh
modprobe -- nf_conntrack_ipv4
EOF

# 3 为脚本文件添加执行权限
[root@master ~]# chmod +x /etc/sysconfig/modules/ipvs.modules

# 4 执行脚本文件
[root@master ~]# /bin/bash /etc/sysconfig/modules/ipvs.modules

# 5 查看对应的模块是否加载成功
[root@master ~]# lsmod | grep -e ip_vs -e nf_conntrack_ipv4

9）重启服务器

上面步骤完成之后，需要重新启动linux系统

[root@master ~]# reboot

安装docker

# 1 切换镜像源
[root@master ~]# wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repo

# 2 查看当前镜像源中支持的docker版本
[root@master ~]# yum list docker-ce --showduplicates

# 3 安装特定版本的docker-ce
# 必须指定--setopt=obsoletes=0，否则yum会自动安装更高版本
[root@master ~]# yum install --setopt=obsoletes=0 docker-ce-18.06.3.ce-3.el7 -y

# 4 添加一个配置文件
# Docker在默认情况下使用的Cgroup Driver为cgroupfs，而kubernetes推荐使用systemd来代替cgroupfs
[root@master ~]# mkdir /etc/docker
[root@master ~]# cat <<EOF >  /etc/docker/daemon.json
{
  "exec-opts": ["native.cgroupdriver=systemd"],
  "registry-mirrors": ["https://kn0t2bca.mirror.aliyuncs.com"]
}
EOF

# 5 启动docker
[root@master ~]# systemctl restart docker
[root@master ~]# systemctl enable docker

# 6 检查docker状态和版本
[root@master ~]# docker version

安装k8s

# 由于kubernetes的镜像源在国外，速度比较慢，这里切换成国内的镜像源
# 编辑/etc/yum.repos.d/kubernetes.repo，添加下面的配置 
[kubernetes]
name=Kubernetes
baseurl=http://mirrors.aliyun.com/kubernetes/yum/repos/kubernetes-el7-x86_64
enabled=1
gpgcheck=0
repo_gpgcheck=0
gpgkey=http://mirrors.aliyun.com/kubernetes/yum/doc/yum-key.gpg
       http://mirrors.aliyun.com/kubernetes/yum/doc/rpm-package-key.gpg

# 安装kubeadm、kubelet和kubectl
[root@master ~]# yum install --setopt=obsoletes=0 kubeadm-1.17.4-0 kubelet-1.17.4-0 kubectl-1.17.4-0 -y

# 配置kubelet的cgroup
# 编辑/etc/sysconfig/kubelet，添加下面的配置
KUBELET_CGROUP_ARGS="--cgroup-driver=systemd"
KUBE_PROXY_MODE="ipvs"

# 4 设置kubelet开机自启
[root@master ~]# systemctl enable kubelet

准备集群镜像

# 在安装kubernetes集群之前，必须要提前准备好集群需要的镜像，所需镜像可以通过下面命令查看
[root@master ~]# kubeadm config images list

# 下载镜像
# 此镜像在kubernetes的仓库中,由于网络原因,无法连接，下面提供了一种替代方案
images=(
    kube-apiserver:v1.17.4
    kube-controller-manager:v1.17.4
    kube-scheduler:v1.17.4
    kube-proxy:v1.17.4
    pause:3.1
    etcd:3.4.3-0
    coredns:1.6.5
)

for imageName in ${images[@]} ; do
    docker pull registry.cn-hangzhou.aliyuncs.com/google_containers/$imageName
    docker tag registry.cn-hangzhou.aliyuncs.com/google_containers/$imageName       k8s.gcr.io/$imageName
    docker rmi registry.cn-hangzhou.aliyuncs.com/google_containers/$imageName
done

集群初始化

下面开始对集群进行初始化，并将node节点加入到集群中

下面的操作只需要在master节点上执行即可

# 创建集群
[root@master ~]# kubeadm init \
    --kubernetes-version=v1.17.4 \
    --pod-network-cidr=10.244.0.0/16 \
    --service-cidr=10.96.0.0/12 \
    --apiserver-advertise-address=192.168.109.100

# 创建必要文件
[root@master ~]# mkdir -p $HOME/.kube
[root@master ~]# sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
[root@master ~]# sudo chown $(id -u):$(id -g) $HOME/.kube/config

下面的操作只需要在node节点上执行即可

# 将node节点加入集群
[root@master ~]# kubeadm join 192.168.109.100:6443 \ 
    --token 8507uc.o0knircuri8etnw2 \
    --discovery-token-ca-cert-hash \
    sha256:acc37967fb5b0acf39d7598f8a439cc7dc88f439a3f4d0c9cae88e7901b9d3f

# 查看集群状态 此时的集群状态为NotReady，这是因为还没有配置网络插件
[root@master ~]# kubectl get nodes
NAME     STATUS     ROLES    AGE     VERSION
master   NotReady   master   6m43s   v1.17.4
node1    NotReady   <none>   22s     v1.17.4
node2    NotReady   <none>   19s     v1.17.4

安装网络插件

kubernetes支持多种网络插件，比如flannel、calico、canal等等，任选一种使用即可，本次选择flannel

下面操作依旧只在master节点执行即可，插件使用的是DaemonSet的控制器，它会在每个节点上都运行

# 获取fannel的配置文件
[root@master ~]# wget https://raw.githubusercontent.com/coreos/flannel/master/Documentation/kube-flannel.yml

# 修改文件中quay.io仓库为quay-mirror.qiniu.com

# 使用配置文件启动fannel
[root@master ~]# kubectl apply -f kube-flannel.yml

# 稍等片刻，再次查看集群节点的状态
[root@master ~]# kubectl get nodes
NAME     STATUS   ROLES    AGE     VERSION
master   Ready    master   15m     v1.17.4
node1    Ready    <none>   8m53s   v1.17.4
node2    Ready    <none>   8m50s   v1.17.4

至此，kubernetes的集群环境搭建完成

服务部署

接下来在kubernetes集群中部署一个nginx程序，测试下集群是否在正常工作。

# 部署nginx
[root@master ~]# kubectl create deployment nginx --image=nginx:1.14-alpine

# 暴露端口
[root@master ~]# kubectl expose deployment nginx --port=80 --type=NodePort

# 查看服务状态
[root@master ~]# kubectl get pods,service
NAME                         READY   STATUS    RESTARTS   AGE
pod/nginx-86c57db685-fdc2k   1/1     Running   0          18m

NAME                 TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)        AGE
service/kubernetes   ClusterIP   10.96.0.1       <none>        443/TCP        82m
service/nginx        NodePort    10.104.121.45   <none>        80:30073/TCP   17m

# 4 最后在电脑上访问下部署的nginx服务

资源管理

在kubernetes中，所有的内容都抽象为资源，用户需要通过操作资源来管理kubernetes。

kubernetes的本质上就是一个集群系统，用户可以在集群中部署各种服务，也就是在kubernetes集群中运行一个个的容器，并将指定的程序跑在容器中。

kubernetes的最小管理单元是pod而不是容器，所以只能将容器放在Pod中，而kubernetes一般也不会直接管理Pod，而是通过Pod控制器来管理Pod的。

Pod可以提供服务之后，就要考虑如何访问Pod中服务，kubernetes提供了Service资源实现这个功能。

k8s提供了三种资源管理方式

命令式对象管理：直接使用命令去操作kubernetes资源

kubectl run nginx-pod --image=nginx:1.17.1 --port=80

命令式对象配置：通过命令配置和配置文件去操作kubernetes资源

kubectl create/patch -f nginx-pod.yaml

声明式对象配置：通过apply命令和配置文件去操作kubernetes资源

kubectl apply -f nginx-pod.yaml

命令式对象管理

kubectl命令

kubectl是kubernetes集群的命令行工具，通过它能够对集群本身进行管理，并能够在集群上进行容器化应用的安装部署。kubectl命令的语法如下：

kubectl [command] [type] [name] [flags]

comand：指定要对资源执行的操作，例如create、get、delete

type：指定资源类型，比如deployment、pod、service

name：指定资源的名称，名称大小写敏感

flags：指定额外的可选参数

# 查看所有pod
kubectl get pod 

# 查看某个pod
kubectl get pod pod_name

# 查看某个pod,以yaml格式展示结果
kubectl get pod pod_name -o yaml

下面以一个namespace / pod的创建和删除简单演示下命令的使用：

# 创建一个namespace
[root@master ~]# kubectl create namespace dev
namespace/dev created

# 获取namespace
[root@master ~]# kubectl get ns
NAME              STATUS   AGE
default           Active   21h
dev               Active   21s
kube-node-lease   Active   21h
kube-public       Active   21h
kube-system       Active   21h

# 在此namespace下创建并运行一个nginx的Pod
[root@master ~]# kubectl run pod --image=nginx -n dev
kubectl run --generator=deployment/apps.v1 is DEPRECATED and will be removed in a future version. Use kubectl run --generator=run-pod/v1 or kubectl create instead.
deployment.apps/pod created

# 查看新创建的pod
[root@master ~]# kubectl get pod -n dev
NAME                   READY   STATUS    RESTARTS   AGE
pod-864f9875b9-pcw7x   1/1     Running   0          21s

# 删除指定的pod
[root@master ~]# kubectl delete pod pod-864f9875b9-pcw7x
pod "pod-864f9875b9-pcw7x" deleted

# 删除指定的namespace
[root@master ~]# kubectl delete ns dev
namespace "dev" deleted

命令式对象配置

命令式对象配置就是使用命令配合配置文件一起来操作kubernetes资源。

1）创建一个nginxpod.yaml，内容如下：

apiVersion: v1
kind: Namespace
metadata:
  name: dev

---

apiVersion: v1
kind: Pod
metadata:
  name: nginxpod
  namespace: dev
spec:
  containers:
  - name: nginx-containers
    image: nginx:1.17.1

2）执行create命令，创建资源：

[root@master ~]# kubectl create -f nginxpod.yaml
namespace/dev created
pod/nginxpod created

此时发现创建了两个资源对象，分别是namespace和pod

3）执行get命令，查看资源：

[root@master ~]#  kubectl get -f nginxpod.yaml
NAME            STATUS   AGE
namespace/dev   Active   18s

NAME            READY   STATUS    RESTARTS   AGE
pod/nginxpod    1/1     Running   0          17s

这样就显示了两个资源对象的信息

4）执行delete命令，删除资源：

[root@master ~]# kubectl delete -f nginxpod.yaml
namespace "dev" deleted
pod "nginxpod" deleted

此时发现两个资源对象被删除了

总结:
    命令式对象配置的方式操作资源，可以简单的认为：命令  +  yaml配置文件（里面是命令需要的各种参数）

声明式对象配置

声明式对象配置跟命令式对象配置很相似，但是它只有一个命令apply。

# 首先执行一次kubectl apply -f yaml文件，发现创建了资源
[root@master ~]#  kubectl apply -f nginxpod.yaml
namespace/dev created
pod/nginxpod created

# 再次执行一次kubectl apply -f yaml文件，发现说资源没有变动
[root@master ~]#  kubectl apply -f nginxpod.yaml
namespace/dev unchanged
pod/nginxpod unchanged

实战

本章节将介绍如何在kubernetes集群中部署一个nginx服务，并且能够对其进行访问。

Namespace

Namespace是kubernetes系统中的一种非常重要资源，它的主要作用是用来实现多套环境的资源隔离或者多租户的资源隔离。

默认情况下，kubernetes集群中的所有的Pod都是可以相互访问的。但是在实际中，可能不想让两个Pod之间进行互相的访问，那此时就可以将两个Pod划分到不同的namespace下。kubernetes通过将集群内部的资源分配到不同的Namespace中，可以形成逻辑上的"组"，以方便不同的组的资源进行隔离使用和管理。

可以通过kubernetes的授权机制，将不同的namespace交给不同租户进行管理，这样就实现了多租户的资源隔离。此时还能结合kubernetes的资源配额机制，限定不同租户能占用的资源，例如CPU使用量、内存使用量等等，来实现租户可用资源的管理。

kubernetes在集群启动之后，会默认创建几个namespace

[root@master ~]# kubectl  get namespace
NAME              STATUS   AGE
default           Active   45h     #  所有未指定Namespace的对象都会被分配在default命名空间
kube-node-lease   Active   45h     #  集群节点之间的心跳维护，v1.13开始引入
kube-public       Active   45h     #  此命名空间下的资源可以被所有人访问（包括未认证用户）
kube-system       Active   45h     #  所有由Kubernetes系统创建的资源都处于这个命名空间

下面来看namespace资源的具体操作：

查看

# 1 查看所有的ns  命令：kubectl get ns
[root@master ~]# kubectl get ns
NAME              STATUS   AGE
default           Active   45h
kube-node-lease   Active   45h
kube-public       Active   45h     
kube-system       Active   45h     

# 2 查看指定的ns   命令：kubectl get ns ns名称
[root@master ~]# kubectl get ns default
NAME      STATUS   AGE
default   Active   45h

# 3 指定输出格式  命令：kubectl get ns ns名称  -o 格式参数
# kubernetes支持的格式有很多，比较常见的是wide、json、yaml
[root@master ~]# kubectl get ns default -o yaml
apiVersion: v1
kind: Namespace
metadata:
  creationTimestamp: "2020-04-05T04:44:16Z"
  name: default
  resourceVersion: "151"
  selfLink: /api/v1/namespaces/default
  uid: 7405f73a-e486-43d4-9db6-145f1409f090
spec:
  finalizers:
  - kubernetes
status:
  phase: Active

# 4 查看ns详情  命令：kubectl describe ns ns名称
[root@master ~]# kubectl describe ns default
Name:         default
Labels:       <none>
Annotations:  <none>
Status:       Active  # Active 命名空间正在使用中  Terminating 正在删除命名空间

# ResourceQuota 针对namespace做的资源限制
# LimitRange针对namespace中的每个组件做的资源限制
No resource quota.
No LimitRange resource.

创建

# 创建namespace
[root@master ~]# kubectl create ns dev
namespace/dev created

删除

# 删除namespace
[root@master ~]# kubectl delete ns dev
namespace "dev" deleted

配置方式

首先准备一个yaml文件：ns-dev.yaml

apiVersion: v1
kind: Namespace
metadata:
  name: dev

然后就可以执行对应的创建和删除命令了：

创建：kubectl create -f ns-dev.yaml

删除：kubectl delete -f ns-dev.yaml

Pod

Pod是kubernetes集群进行管理的最小单元，程序要运行必须部署在容器中，而容器必须存在于Pod中。

Pod可以认为是容器的封装，一个Pod中可以存在一个或者多个容器。

kubernetes在集群启动之后，集群中的各个组件也都是以Pod方式运行的。可以通过下面命令查看：

[root@master ~]# kubectl get pod -n kube-system
NAMESPACE     NAME                             READY   STATUS    RESTARTS   AGE
kube-system   coredns-6955765f44-68g6v         1/1     Running   0          2d1h
kube-system   coredns-6955765f44-cs5r8         1/1     Running   0          2d1h
kube-system   etcd-master                      1/1     Running   0          2d1h
kube-system   kube-apiserver-master            1/1     Running   0          2d1h
kube-system   kube-controller-manager-master   1/1     Running   0          2d1h
kube-system   kube-flannel-ds-amd64-47r25      1/1     Running   0          2d1h
kube-system   kube-flannel-ds-amd64-ls5lh      1/1     Running   0          2d1h
kube-system   kube-proxy-685tk                 1/1     Running   0          2d1h
kube-system   kube-proxy-87spt                 1/1     Running   0          2d1h
kube-system   kube-scheduler-master            1/1     Running   0          2d1h

创建并运行

kubernetes没有提供单独运行Pod的命令，都是通过Pod控制器来实现的

# 命令格式： kubectl run (pod控制器名称) [参数] 
# --image  指定Pod的镜像
# --port   指定端口
# --namespace  指定namespace
[root@master ~]# kubectl run nginx --image=nginx:1.17.1 --port=80 --namespace dev 
deployment.apps/nginx created

查看pod信息

# 查看Pod基本信息
[root@master ~]# kubectl get pods -n dev
NAME                     READY   STATUS    RESTARTS   AGE
nginx-5ff7956ff6-fg2db   1/1     Running   0          43s

# 查看Pod的详细信息
[root@master ~]# kubectl describe pod nginx-5ff7956ff6-fg2db -n dev
Name:         nginx-5ff7956ff6-fg2db
Namespace:    dev
Priority:     0
Node:         node1/192.168.109.101
Start Time:   Wed, 08 Apr 2020 09:29:24 +0800
Labels:       pod-template-hash=5ff7956ff6
              run=nginx
Annotations:  <none>
Status:       Running
IP:           10.244.1.23
IPs:
  IP:           10.244.1.23
Controlled By:  ReplicaSet/nginx-5ff7956ff6
Containers:
  nginx:
    Container ID:   docker://4c62b8c0648d2512380f4ffa5da2c99d16e05634979973449c98e9b829f6253c
    Image:          nginx:1.17.1
    Image ID:       docker-pullable://nginx@sha256:485b610fefec7ff6c463ced9623314a04ed67e3945b9c08d7e53a47f6d108dc7
    Port:           80/TCP
    Host Port:      0/TCP
    State:          Running
      Started:      Wed, 08 Apr 2020 09:30:01 +0800
    Ready:          True
    Restart Count:  0
    Environment:    <none>
    Mounts:
      /var/run/secrets/kubernetes.io/serviceaccount from default-token-hwvvw (ro)
Conditions:
  Type              Status
  Initialized       True
  Ready             True
  ContainersReady   True
  PodScheduled      True
Volumes:
  default-token-hwvvw:
    Type:        Secret (a volume populated by a Secret)
    SecretName:  default-token-hwvvw
    Optional:    false
QoS Class:       BestEffort
Node-Selectors:  <none>
Tolerations:     node.kubernetes.io/not-ready:NoExecute for 300s
                 node.kubernetes.io/unreachable:NoExecute for 300s
Events:
  Type    Reason     Age        From               Message
  ----    ------     ----       ----               -------
  Normal  Scheduled  <unknown>  default-scheduler  Successfully assigned dev/nginx-5ff7956ff6-fg2db to node1
  Normal  Pulling    4m11s      kubelet, node1     Pulling image "nginx:1.17.1"
  Normal  Pulled     3m36s      kubelet, node1     Successfully pulled image "nginx:1.17.1"
  Normal  Created    3m36s      kubelet, node1     Created container nginx
  Normal  Started    3m36s      kubelet, node1     Started container nginx

访问Pod

# 获取podIP
[root@master ~]# kubectl get pods -n dev -o wide
NAME                     READY   STATUS    RESTARTS   AGE    IP             NODE    ... 
nginx-5ff7956ff6-fg2db   1/1     Running   0          190s   10.244.1.23   node1   ...

#访问POD
[root@master ~]# curl http://10.244.1.23:80
<!DOCTYPE html>
<html>
<head>
    <title>Welcome to nginx!</title>
</head>
<body>
    <p><em>Thank you for using nginx.</em></p>
</body>
</html>

删除指定Pod

# 删除指定Pod
[root@master ~]# kubectl delete pod nginx-5ff7956ff6-fg2db -n dev
pod "nginx-5ff7956ff6-fg2db" deleted

# 此时，显示删除Pod成功，但是再查询，发现又新产生了一个 
[root@master ~]# kubectl get pods -n dev
NAME                     READY   STATUS    RESTARTS   AGE
nginx-5ff7956ff6-jj4ng   1/1     Running   0          21s

# 这是因为当前Pod是由Pod控制器创建的，控制器会监控Pod状况，一旦发现Pod死亡，会立即重建
# 此时要想删除Pod，必须删除Pod控制器

# 先来查询一下当前namespace下的Pod控制器
[root@master ~]# kubectl get deploy -n  dev
NAME    READY   UP-TO-DATE   AVAILABLE   AGE
nginx   1/1     1            1           9m7s

# 接下来，删除此PodPod控制器
[root@master ~]# kubectl delete deploy nginx -n dev
deployment.apps "nginx" deleted

# 稍等片刻，再查询Pod，发现Pod被删除了
[root@master ~]# kubectl get pods -n dev
No resources found in dev namespace.

配置操作

创建一个pod-nginx.yaml，内容如下：

apiVersion: v1
kind: Pod
metadata:
  name: nginx
  namespace: dev
spec:
  containers:
  - image: nginx:1.17.1
    name: pod
    ports:
    - name: nginx-port
      containerPort: 80
      protocol: TCP

然后就可以执行对应的创建和删除命令了：

创建：kubectl create -f pod-nginx.yaml

删除：kubectl delete -f pod-nginx.yaml

Label

Label是kubernetes系统中的一个重要概念。它的作用就是在资源上添加标识，用来对它们进行区分和选择。

Label的特点：

一个Label会以key/value键值对的形式附加到各种对象上，如Node、Pod、Service等等
一个资源对象可以定义任意数量的Label ，同一个Label也可以被添加到任意数量的资源对象上去
Label通常在资源对象定义时确定，当然也可以在对象创建后动态添加或者删除

可以通过Label实现资源的多维度分组，以便灵活、方便地进行资源分配、调度、配置、部署等管理工作。

一些常用的Label 示例如下：

版本标签："version":"release", "version":"stable"......
环境标签："environment":"dev"，"environment":"test"，"environment":"pro"
架构标签："tier":"frontend"，"tier":"backend"

标签定义完毕之后，还要考虑到标签的选择，这就要使用到Label Selector，即：

Label用于给某个资源对象定义标识

Label Selector用于查询和筛选拥有某些标签的资源对象

当前有两种Label Selector：

基于等式的Label Selector

name = slave: 选择所有包含Label中key="name"且value="slave"的对象

env != production: 选择所有包括Label中的key="env"且value不等于"production"的对象

基于集合的Label Selector

name in (master, slave): 选择所有包含Label中的key="name"且value="master"或"slave"的对象

name not in (frontend): 选择所有包含Label中的key="name"且value不等于"frontend"的对象

标签的选择条件可以使用多个，此时将多个Label Selector进行组合，使用逗号","进行分隔即可。例如：

name=slave，env!=production

name not in (frontend)，env!=production

命令方式

# 为pod资源打标签
[root@master ~]# kubectl label pod nginx-pod version=1.0 -n dev
pod/nginx-pod labeled

# 为pod资源更新标签
[root@master ~]# kubectl label pod nginx-pod version=2.0 -n dev --overwrite
pod/nginx-pod labeled

# 查看标签
[root@master ~]# kubectl get pod nginx-pod  -n dev --show-labels
NAME        READY   STATUS    RESTARTS   AGE   LABELS
nginx-pod   1/1     Running   0          10m   version=2.0

# 筛选标签
[root@master ~]# kubectl get pod -n dev -l version=2.0  --show-labels
NAME        READY   STATUS    RESTARTS   AGE   LABELS
nginx-pod   1/1     Running   0          17m   version=2.0
[root@master ~]# kubectl get pod -n dev -l version!=2.0 --show-labels
No resources found in dev namespace.

#删除标签
[root@master ~]# kubectl label pod nginx-pod version- -n dev
pod/nginx-pod labeled

配置方式

apiVersion: v1
kind: Pod
metadata:
  name: nginx
  namespace: dev
  labels:
    version: "3.0" 
    env: "test"
spec:
  containers:
  - image: nginx:1.17.1
    name: pod
    ports:
    - name: nginx-port
      containerPort: 80
      protocol: TCP

然后就可以执行对应的更新命令了：kubectl apply -f pod-nginx.yaml

Deployment

在kubernetes中，Pod是最小的控制单元，但是kubernetes很少直接控制Pod，一般都是通过Pod控制器来完成的。Pod控制器用于pod的管理，确保pod资源符合预期的状态，当pod的资源出现故障时，会尝试进行重启或重建pod。

在kubernetes中Pod控制器的种类有很多，本章节只介绍一种：Deployment。

命令操作

# 命令格式: kubectl run deployment名称  [参数] 
# --image  指定pod的镜像
# --port   指定端口
# --replicas  指定创建pod数量
# --namespace  指定namespace
[root@master ~]# kubectl run nginx --image=nginx:1.17.1 --port=80 --replicas=3 -n dev
deployment.apps/nginx created

# 查看创建的Pod
[root@master ~]# kubectl get pods -n dev
NAME                     READY   STATUS    RESTARTS   AGE
nginx-5ff7956ff6-6k8cb   1/1     Running   0          19s
nginx-5ff7956ff6-jxfjt   1/1     Running   0          19s
nginx-5ff7956ff6-v6jqw   1/1     Running   0          19s

# 查看deployment的信息
[root@master ~]# kubectl get deploy -n dev
NAME    READY   UP-TO-DATE   AVAILABLE   AGE
nginx   3/3     3            3           2m42s

# UP-TO-DATE：成功升级的副本数量
# AVAILABLE：可用副本的数量
[root@master ~]# kubectl get deploy -n dev -o wide
NAME    READY UP-TO-DATE  AVAILABLE   AGE     CONTAINERS   IMAGES              SELECTOR
nginx   3/3     3         3           2m51s   nginx        nginx:1.17.1        run=nginx

# 查看deployment的详细信息
[root@master ~]# kubectl describe deploy nginx -n dev
Name:                   nginx
Namespace:              dev
CreationTimestamp:      Wed, 08 Apr 2020 11:14:14 +0800
Labels:                 run=nginx
Annotations:            deployment.kubernetes.io/revision: 1
Selector:               run=nginx
Replicas:               3 desired | 3 updated | 3 total | 3 available | 0 unavailable
StrategyType:           RollingUpdate
MinReadySeconds:        0
RollingUpdateStrategy:  25% max unavailable, 25% max surge
Pod Template:
  Labels:  run=nginx
  Containers:
   nginx:
    Image:        nginx:1.17.1
    Port:         80/TCP
    Host Port:    0/TCP
    Environment:  <none>
    Mounts:       <none>
  Volumes:        <none>
Conditions:
  Type           Status  Reason
  ----           ------  ------
  Available      True    MinimumReplicasAvailable
  Progressing    True    NewReplicaSetAvailable
OldReplicaSets:  <none>
NewReplicaSet:   nginx-5ff7956ff6 (3/3 replicas created)
Events:
  Type    Reason             Age    From                   Message
  ----    ------             ----   ----                   -------
  Normal  ScalingReplicaSet  5m43s  deployment-controller  Scaled up replicaset nginx-5ff7956ff6 to 3

# 删除 
[root@master ~]# kubectl delete deploy nginx -n dev
deployment.apps "nginx" deleted

配置操作

创建一个deploy-nginx.yaml，内容如下：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx
  namespace: dev
spec:
  replicas: 3
  selector:
    matchLabels:
      run: nginx
  template:
    metadata:
      labels:
        run: nginx
    spec:
      containers:
      - image: nginx:1.17.1
        name: nginx
        ports:
        - containerPort: 80
          protocol: TCP

然后就可以执行对应的创建和删除命令了：

创建：kubectl create -f deploy-nginx.yaml

删除：kubectl delete -f deploy-nginx.yaml

Service

通过上节课的学习，已经能够利用Deployment来创建一组Pod来提供具有高可用性的服务。

虽然每个Pod都会分配一个单独的Pod IP，然而却存在如下两问题：

Pod IP 会随着Pod的重建产生变化
Pod IP 仅仅是集群内可见的虚拟IP，外部无法访问

这样对于访问这个服务带来了难度。因此，kubernetes设计了Service来解决这个问题。

Service可以看作是一组同类Pod对外的访问接口。借助Service，应用可以方便地实现服务发现和负载均衡。

操作一：创建集群内部可访问的Service

# 暴露Service
[root@master ~]# kubectl expose deploy nginx --name=svc-nginx1 --type=ClusterIP --port=80 --target-port=80 -n dev
service/svc-nginx1 exposed

# 查看service
[root@master ~]# kubectl get svc svc-nginx -n dev -o wide
NAME         TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)   AGE     SELECTOR
svc-nginx1   ClusterIP   10.109.179.231   <none>        80/TCP    3m51s   run=nginx

# 这里产生了一个CLUSTER-IP，这就是service的IP，在Service的生命周期中，这个地址是不会变动的
# 可以通过这个IP访问当前service对应的POD
[root@master ~]# curl 10.109.179.231:80
<!DOCTYPE html>
<html>
<head>
<title>Welcome to nginx!</title>
</head>
<body>
<h1>Welcome to nginx!</h1>
.......
</body>
</html>

操作二：创建集群外部也可访问的Service

# 上面创建的Service的type类型为ClusterIP，这个ip地址只用集群内部可访问
# 如果需要创建外部也可以访问的Service，需要修改type为NodePort
[root@master ~]# kubectl expose deploy nginx --name=svc-nginx2 --type=NodePort --port=80 --target-port=80 -n dev
service/svc-nginx2 exposed

# 此时查看，会发现出现了NodePort类型的Service，而且有一对Port（80:31928/TC）
[root@master ~]# kubectl get svc  svc-nginx-1  -n dev -o wide
NAME          TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)        AGE    SELECTOR
svc-nginx2    NodePort    10.100.94.0      <none>        80:31928/TCP   9s     run=nginx

# 接下来就可以通过集群外的主机访问 节点IP:31928访问服务了
# 例如在的电脑主机上通过浏览器访问下面的地址
http://192.168.109.100:31928/

删除Service

[root@master ~]# kubectl delete svc svc-nginx-1 -n dev                                   service "svc-nginx-1" deleted

配置方式

创建一个svc-nginx.yaml，内容如下：

apiVersion: v1
kind: Service
metadata:
  name: svc-nginx
  namespace: dev
spec:
  clusterIP: 10.109.179.231
  ports:
  - port: 80
    protocol: TCP
    targetPort: 80
  selector:
    run: nginx
  type: ClusterIP

然后就可以执行对应的创建和删除命令了：

创建：kubectl create -f svc-nginx.yaml

删除：kubectl delete -f svc-nginx.yaml

小结至此，已经掌握了Namespace、Pod、Deployment、Service资源的基本操作，有了这些操作，就可以在kubernetes集群中实现一个服务的简单部署和访问了，但是如果想要更好的使用kubernetes，就需要深入学习这几种资源的细节和原理。

三、k8s监测gpu

利用Kubernetes监测GPU：优化容器化环境中的深度学习工作负载

随着深度学习在许多领域的应用日益普及，越来越多的企业开始将其工作负载容器化以提高灵活性和可伸缩性。然而，对于运行深度学习工作负载的容器环境来说，充分利用GPU资源是至关重要的，以提供高性能和更快的训练速度。

Kubernetes是目前最流行的容器编排平台之一，它提供了丰富的功能来管理和调度容器。但是，在默认情况下，Kubernetes并不具备对GPU资源的监测和调度能力。为了充分利用GPU，在Kubernetes集群中监测和调度GPU资源变得至关重要。

Kubernetes GPU监测的挑战

在容器化环境中，使用GPU需要面临一些挑战。首先是GPU的可见性问题。在Kubernetes中，节点上的GPU设备并不是默认可见的，需要通过特定的配置和驱动程序来实现。其次，GPU资源的监测和管理也是一项复杂的任务。在深度学习工作负载中，GPU的利用率直接影响着整体性能，因此必须进行准确的监测和管理。

解决这些挑战的一种方法是通过使用Kubernetes的插件或添加自定义的资源定义来实现GPU的监测和调度。下面将介绍一些常用的方法。

Kubernetes中的GPU资源监测和调度方法

1. 使用Kubernetes插件

Kubernetes社区中有一些插件可用于监测和调度GPU资源。例如，NVIDIA Device Plugin是一个流行的插件，它可以检测节点上的GPU设备并将其注册到Kubernetes中。这样，调度器就可以通过标签选择GPU设备来运行容器。

另一个常见的插件是Kube-bench，它可以监测GPU设备的利用率和状态，并将其暴露为Kubernetes的指标。这使得开发者可以通过查询指标来获取GPU的使用情况和性能。

2. 使用自定义资源定义(CRD)

除了使用插件外，还可以通过自定义资源定义(CRD)来实现GPU资源的监测和调度。通过定义GPU资源对象，可以将GPU设备作为一种“资源”添加到Kubernetes中。然后，可以使用标签和调度器来选择节点上的GPU设备。

CRD还可以定义一些自定义的Kubernetes API来监测GPU的状态和利用率。这样，开发者可以通过查询API来获取GPU的详细信息，并根据实际需求进行调度。

Kubernetes中GPU监测与调度的好处

在Kubernetes中实现GPU资源的监测和调度可以带来一系列好处：

提高性能：通过监测GPU设备的利用率和状态，可以更好地优化深度学习工作负载的性能。合理地分配GPU资源可以加快训练速度，提高模型训练的效果。
资源利用率：通过调度和管理GPU资源，可以更好地利用集群中的硬件资源。这可以最大限度地减少资源的浪费，提高集群的利用率。
可扩展性：对GPU资源进行监测和调度可以提高容器化环境的可扩展性。通过动态地分配GPU设备，可以根据工作负载的需求及时扩展或缩减资源。
简化管理：通过自动化GPU资源的监测和调度，可以减少手动管理的工作量。这使得整个容器化环境更易于管理和维护。

结论

在容器化环境中，Kubernetes是一个强大的工具，可以简化容器的调度和管理。但是，默认情况下，Kubernetes并不具备对GPU资源的监测和调度能力。为了充分利用GPU，需要使用插件或自定义资源定义来实现GPU资源的监测和调度。

通过实现GPU资源的监测和调度，可以提高深度学习工作负载的性能，最大限度地利用集群中的硬件资源，并实现容器化环境的可扩展性。这将使企业能够更好地应对日益复杂的深度学习需求，提高业务的竞争力。

希望本文对你了解Kubernetes中GPU的监测和调度提供了一些有价值的信息。如果你有任何问题或建议，欢迎在下方留言！

四、k8s 安装 centos

使用Kubernetes在CentOS上进行安装指南

在当今云计算领域，Kubernetes已经成为了最受欢迎的容器编排系统之一。如果您是一位系统管理员或开发人员，并且想要在您的CentOS服务器上部署Kubernetes集群，那么您来对地方了！本文将为您提供详细的Kubernetes在CentOS上安装指南，帮助您轻松搭建高效的容器化环境。

什么是Kubernetes？

Kubernetes（常简称为K8s）是一个用于自动部署、扩展和管理容器化应用程序的开源平台。它提供了强大的自动化功能，可以帮助您简化应用程序的部署和维护过程，提高整体的系统可靠性和可扩展性。

在CentOS上安装Kubernetes的步骤：

第一步：安装Docker

要在CentOS上安装Kubernetes，首先需要安装Docker作为容器运行时。您可以通过以下命令在CentOS上安装Docker：

yum install docker

第二步：配置kubelet和kubeadm

接下来，您需要配置kubelet和kubeadm来准备安装Kubernetes。运行以下命令：

yum install -y kubelet kubeadm

第三步：初始化Kubernetes集群

现在，您可以使用kubeadm初始化Kubernetes集群。执行以下命令：

kubeadm init

第四步：加入节点

最后，您可以将其他节点加入到您的Kubernetes集群中。通过运行下面的命令，您可以在其他节点上加入集群：

kubeadm join

优化Kubernetes集群性能

为了获得最佳的性能和可靠性，您可以采取一些措施来优化您的Kubernetes集群：

使用容器网络插件（Container Networking Interface）来确保容器之间的通信高效且安全。
使用调度器来合理分配集群资源，避免资源争夺和过载。
定期监控集群的运行状况，及时处理故障和性能问题。

结语

通过本文提供的Kubernetes在CentOS上安装指南，您可以快速搭建自己的容器化环境，并享受Kubernetes带来的优势。希望本文能够帮助您顺利部署Kubernetes集群，提升应用程序的部署效率和可靠性。

五、k8s 国内镜像

使用国内镜像加速Kubernetes的部署

Kubernetes（简称K8s）作为一种流行的容器编排平台，已经在全球范围内得到了广泛的应用。然而，由于众所周知的原因，访问国际网络通常会面临一些困难，例如访问国外的Kubernetes镜像仓库速度慢或者不稳定。为了解决这个问题，我们可以使用国内的Kubernetes镜像加速服务，以提升部署速度和稳定性。

什么是Kubernetes镜像加速

Kubernetes镜像加速是一种利用国内网络资源的方法，通过将Kubernetes所需的Docker镜像存储在国内的镜像仓库中，并利用国内镜像加速服务来加快下载速度和部署效率。这样可以减少从国外拉取镜像所需的时间和带宽消耗，提升Kubernetes集群的整体性能。

如何使用国内镜像加速服务

使用国内镜像加速服务之前，首先需要进行一些准备工作。下面是一些基本的步骤：

选择一个可靠的国内镜像仓库服务商。国内有很多知名的镜像仓库服务提供商，例如阿里云容器镜像服务、腾讯云镜像仓库等。根据自己的需求和喜好选择一个适合的供应商。
注册并登录选定的镜像仓库服务商，并创建自己的镜像仓库。一般来说，这些服务商都提供了用户友好的操作界面和详细的文档，按照指引进行操作即可。
将需要使用的Kubernetes相关的Docker镜像上传到创建的镜像仓库中。可以使用Docker命令行工具或者相关GUI工具进行管理和上传。

完成上述准备工作后，我们可以开始使用国内镜像加速服务了。下面是具体的步骤：

在Kubernetes集群的每个节点上安装Docker。这是因为Kubernetes默认使用Docker作为容器运行时引擎，通过安装Docker可以保证镜像加速服务能正常工作。
编辑Kubernetes集群的配置文件，添加镜像加速器的配置。在kubelet和kube-proxy的配置文件中添加以下配置项：

六、共享gpu k8s

共享GPU和Kubernetes的结合：提升机器学习与深度学习的效率

随着人工智能的迅猛发展，机器学习和深度学习已经成为许多企业和研究机构的重要工具。然而，这些任务通常需要大量的计算资源才能获得较好的结果。传统上，研究者和开发人员需要购买昂贵的图形处理单元（GPU）来进行模型训练和推断。但是，随着共享 GPU 和 Kubernetes 的结合，我们可以以更低的成本和更高的效率来完成这些任务。

共享 GPU 是一种将多个任务或用户共享在同一个物理 GPU 上的技术。这种方式可以大大提高 GPU 的利用率，并且可以节省大量的资源和金钱。Kubernetes 是一种流行的容器编排系统，它可以管理和调度多个容器化应用程序。通过将共享 GPU 和 Kubernetes 相结合，我们可以实现高效的任务调度和资源管理，从而更好地满足机器学习和深度学习的需求。

共享 GPU 的优势

共享 GPU 的主要优势之一是资源的高效利用。在传统的单用户 GPU 系统中，一些 GPU 可能会被闲置或低效使用，因为训练任务通常需要较长的时间来完成。而通过共享 GPU，不同的任务可以在同一个 GPU 上并行执行，从而提高了 GPU 的利用率，并且可以同时满足多个用户的需求。

同时，共享 GPU 也可以节省金钱和成本。购买和维护 GPU 通常是一项昂贵的任务，特别是对于小型企业和研究团队来说。而共享 GPU 可以让用户按需使用 GPU 资源，而不需要购买整个 GPU 设备。这样，用户只需支付实际使用的 GPU 时间和资源，大大降低了成本。

另外，共享 GPU 还能提供更好的扩展性和灵活性。随着任务和用户的增加，共享 GPU 系统可以根据需求动态地分配和调整资源。这意味着用户不再需要担心资源短缺或任务调度的问题，而可以专注于模型训练和深度学习的研究。

Kubernetes 的角色

Kubernetes 是一个开源的容器编排系统，可以用于管理和调度容器化的应用程序。它提供了强大的资源管理和任务调度能力，使得我们可以更好地管理共享 GPU 资源。

首先，Kubernetes 可以通过节点选择器和亲和性规则来管理 GPU 资源的分配。通过标记和选择合适的节点，我们可以将特定的任务调度到拥有 GPU 资源的节点上进行执行。这样，我们可以避免 GPU 资源的浪费，将其分配给实际需要的任务，提高了资源的利用率。

此外，Kubernetes 还具备弹性伸缩和自动扩展的能力。当任务增加时，Kubernetes 可以根据预设的规则动态地增加 GPU 节点的数量，以满足用户的需求。而当任务减少时，Kubernetes 也会自动缩减节点的数量，释放闲置的资源。这种自动化的扩缩容机制可以大大简化资源管理的工作，并提供更好的性能和稳定性。

共享 GPU 和 Kubernetes 的实践

将共享 GPU 和 Kubernetes 应用于机器学习和深度学习任务需要一些特定的配置和工具。下面是一些常用的工具和步骤：

Kubeflow： Kubeflow 是一个专门为 Kubernetes 设计的机器学习工具集，可以在 Kubernetes 集群上快速部署和管理机器学习任务。
K8s-device-plugin： K8s-device-plugin 是一个 Kubernetes 插件，可以帮助我们在容器中发现和访问 GPU 资源。
NVIDIA Kubernetes 设备插件： NVIDIA Kubernetes 设备插件是一个专门为 NVIDIA GPU 设计的 Kubernetes 插件，可以更好地管理和调度 GPU 资源。

使用这些工具，我们可以很容易地在 Kubernetes 上部署和管理共享 GPU 资源。开发人员只需要定义相关的 GPU 资源请求和使用限制，Kubernetes 就会自动分配和管理这些资源。此外，使用 Kubeflow，我们还可以方便地构建和部署机器学习的工作流程。

结论

共享 GPU 和 Kubernetes 的结合为机器学习和深度学习任务带来了许多好处。通过共享 GPU，我们可以更高效地利用 GPU 资源，节省成本并提高任务的并行性。而通过 Kubernetes，我们可以更好地管理和调度共享 GPU 资源，提供弹性伸缩和自动扩展的能力。

这种结合为机器学习和深度学习的研究和开发提供了更好的平台和工具。未来，我们可以期待更多的创新和应用，进一步推动人工智能领域的发展。

七、k8s安装wordpress

k8s安装wordpress是一个常见的操作，许多人在这方面可能会遇到一些挑战。Kubernetes（简称K8s）是一种用于自动部署、扩展和操作容器化应用程序的开源系统。WordPress是一种流行的开源内容管理系统（CMS），用于建立网站和博客。在本文中，我们将讨论如何在Kubernetes集群中安装WordPress，以便用户能够更好地利用这两种技术的组合。

准备工作

在开始之前，请确保您具备以下准备工作：

具有一定的Kubernetes和Docker知识。
已经搭建好一个可用的Kubernetes集群。
了解WordPress的基本工作原理和配置。

安装WordPress

下面是安装WordPress的步骤：

步骤1：创建WordPress命名空间

首先，创建一个新的命名空间来部署WordPress。您可以使用以下命令来创建：


kubectl create namespace wordpress

步骤2：部署MySQL数据库

接下来，我们将部署MySQL数据库作为WordPress的后端数据库。您可以使用以下命令来创建MySQL的部署：


kubectl create -f mysql-deployment.yaml --namespace=wordpress

步骤3：部署WordPress应用

现在，我们将部署WordPress应用程序。您可以使用以下命令来创建WordPress的部署：


kubectl create -f wordpress-deployment.yaml --namespace=wordpress

配置WordPress

一旦WordPress应用程序成功部署，您需要进行一些配置才能使其正常工作。以下是一些配置建议：

配置WordPress域名

在WordPress的配置文件中设置正确的域名，确保您能够通过该域名访问您的网站。

设置数据库连接

在WordPress配置中设置正确的数据库连接信息，包括主机、用户名、密码等信息。

安装插件和主题

根据您的需求安装适合的插件和主题，以定制您的网站外观和功能。

总结

通过本文，您学习了如何在Kubernetes集群中安装WordPress，并对WordPress的一些基本配置有了更深入的了解。希望这些信息能够帮助您成功搭建WordPress网站，并充分利用Kubernetes的优势来管理和扩展您的网站。

八、gpu集群k8s

GPU集群在Kubernetes中的应用

GPU集群是指由多个GPU服务器组成的集群，用于处理需要大量计算资源的任务，例如深度学习、机器学习和科学计算等领域的任务。在Kubernetes（简称K8s）中，GPU集群的应用正变得越来越普遍，为用户提供了良好的资源管理和任务调度机制。

GPU集群K8s的优势

GPU集群在Kubernetes中的应用具有以下几个优势：

资源管理： K8s提供了灵活的资源管理机制，可以有效地调度GPU资源，确保任务能够高效运行。
自动化部署： GPU集群在Kubernetes中的部署相对简单，可以通过简单的配置文件实现自动化部署和扩展。
弹性伸缩： K8s支持根据任务需求动态扩展GPU集群，可以根据负载情况自动调整集群的规模。
容器化支持： K8s原生支持容器化应用部署，与GPU集群结合可以提供更加灵活的部署方案。

GPU集群K8s的部署

要在Kubernetes中部署GPU集群，需要进行以下几个步骤：

安装CUDA驱动： 首先需要在每台GPU服务器上安装适用于GPU的CUDA驱动，以确保GPU资源能够被正确地识别和利用。
安装NVIDIA容器运行时： 在K8s集群中安装NVIDIA容器运行时，以便支持容器中的GPU设备访问。
配置GPU资源： 在K8s中通过资源配额和节点选择器的方式配置GPU资源，以便正确地调度任务到具有GPU能力的节点上。
部署GPU应用： 最后，通过Kubernetes的Pod和Deployment等资源对象部署GPU应用程序，确保GPU任务能够正常运行。

GPU集群K8s的应用场景

GPU集群在Kubernetes中有着广泛的应用场景，包括但不限于以下几个方面：

深度学习模型训练： 训练深度学习模型通常需要大量的计算资源，GPU集群在K8s中能够提供高效的分布式训练环境。
科学计算： 科学计算任务常常需要复杂的数值计算和模拟，GPU集群能够加速这些计算过程，提高计算效率。
图像处理和渲染： 图像处理和渲染任务对计算资源要求较高，GPU集群可以快速处理大规模的图像数据。
数据分析： 在大数据分析领域，GPU集群可以加速数据处理和模型训练的速度，提高分析效率。

结语

GPU集群在Kubernetes中的应用已经成为高性能计算和深度学习领域的重要趋势，通过K8s的强大资源管理和调度能力，GPU集群可以更好地发挥其计算优势，为用户提供高效的计算环境。随着技术的不断发展，GPU集群在Kubernetes中的应用将会得到进一步的完善和拓展，为用户带来更多可能性和便利。

九、k8s挂载gpu

容器化技术和GPU加速在现代应用程序开发中发挥着越来越重要的作用。Kubernetes（K8s）作为一种流行的容器编排平台，能够更好地管理和扩展容器化应用程序。当需要在Kubernetes集群中挂载GPU时，通常涉及到一些特定的配置和注意事项。

为什么在Kubernetes中挂载GPU？

GPU加速能够显著提高机器学习、深度学习、图形处理等应用程序的性能。在Kubernetes集群中，挂载GPU可以让容器化的应用程序利用集群中的GPU资源，从而加速处理任务的速度和效率。

如何在Kubernetes中挂载GPU？

在Kubernetes中挂载GPU通常涉及到以下几个步骤：

确保集群中的节点具备GPU设备。
安装NVIDIA GPU驱动和相关工具。
配置Kubernetes的DevicePlugins以支持GPU资源。
创建Pod配置文件并指定GPU资源的需求。

配置Kubernetes的DevicePlugins

Kubernetes的DevicePlugins是一种插件，用于管理节点上的设备资源，包括GPU。通过配置DevicePlugins，Kubernetes集群可以识别和管理GPU资源，并将其分配给Pod。

创建Pod配置文件

创建Pod配置文件时，需要在容器的资源声明中指定需要的GPU数量和类型。例如：


apiVersion: v1
kind: Pod
metadata:
  name: gpu-pod
spec:
  containers:
  - name: gpu-container
    image: your_image
    resources:
      limits:
        nvidia.com/gpu: 1

常见问题和解决方案

在挂载GPU的过程中，可能会遇到一些常见的问题，例如GPU设备未识别、驱动不匹配等。针对这些问题，可以通过更新驱动、重启节点等方式进行解决。

结语

在Kubernetes中挂载GPU能够为容器化应用程序提供更强大的计算能力，从而实现更快速和高效的处理。通过合理配置和管理GPU资源，可以充分发挥Kubernetes在GPU加速方面的优势，为实际应用场景带来更多可能性。

十、k8s gpu隔离

容器化GPU应用程序的隔离与管理

随着容器化技术的普及和发展，许多企业开始将其应用程序进行容器化，以实现快速部署、高效管理和资源隔离。然而，在使用GPU进行加速的应用程序方面，如何有效实现GPU资源的隔离与管理成为了一个挑战。本文将探讨在Kubernetes（简称k8s）集群环境下，实现GPU隔离的最佳实践。

为什么需要GPU隔离

GPU（Graphics Processing Unit）作为一种专门用于处理图形和并行计算任务的硬件设备，被广泛应用于深度学习、科学计算、数据分析等领域。在容器化环境中，多个容器可能会共享同一块GPU，如果不对GPU资源进行隔离，就会造成资源争抢、性能抖动等问题，影响应用程序的稳定性和性能。

针对这一问题，k8s作为一个优秀的容器编排平台，提供了一些解决方案来实现GPU资源的隔离与管理。

GPU隔离的实现方式

在k8s集群中，实现GPU隔离主要有以下几种方式：

1. 使用设备插件

k8s通过设备插件的方式来实现GPU资源的隔离。设备插件是一个独立的组件，用于管理和调度GPU设备，并为容器提供访问GPU的能力。通过设备插件，可以动态地将GPU设备分配给容器，并保证容器之间的资源隔离。

2. 使用资源限制

除了设备插件外，k8s还提供了一种通过资源限制的方式来实现GPU隔离的方法。通过在Pod的配置中指定资源限制，可以限制容器对GPU资源的使用，从而实现资源的隔离和管理。

实践指南

在实际应用中，为了更好地实现GPU资源的隔离和管理，可以按照以下步骤进行操作：

1. 配置GPU设备插件

首先，需要在k8s集群中部署GPU设备插件，例如NVIDIA的GPU设备插件。通过配置设备插件，可以让k8s集群认识到GPU设备，并实现对GPU资源的管理和隔离。

2. 定义GPU资源

在定义Pod的配置文件时，需要明确指定容器对GPU资源的需求。可以通过资源声明的方式来指定容器需要的GPU资源数量和类型。

3. 启用GPU隔离

通过配置Pod的Security Context，可以启用GPU隔离功能。可以设置GPU资源的权限，确保容器只能访问被授权的GPU资源，从而实现资源隔离和安全访问。

4. 监控GPU资源

最后，在部署GPU加速的应用程序后，需要通过监控系统实时监控GPU资源的使用情况。通过监控工具可以及时发现资源瓶颈和性能问题，并采取相应措施进行优化。

结论

在容器化GPU应用程序的开发和部署过程中，GPU资源的隔离与管理是至关重要的。通过合理配置设备插件、定义GPU资源、启用隔离功能和监控GPU资源的方式，可以有效实现GPU资源的隔离与管理，提高应用程序的稳定性和性能表现。

希望本文对您在容器化GPU应用程序中实现资源隔离和管理有所帮助，欢迎您在实践中探索更多的最佳实践和技术方法。