标签

Linux

Linux 是一个广泛使用的开源操作系统内核,由林纳斯·托瓦兹(Linus Torvalds)于1991年创建。它是 Unix-like 操作系统的一个重要分支,并且它的设计和实现遵循了模块化的设计原则。Linux 内核本身可以与不同的用户空间组件配合,形成完整的操作系统。这些完整的系统被称为 Linux 发行版,例如 Ubuntu、Fedora、Debian、CentOS 和 Arch Linux 等。

Linux
服务端6月3日 00:11
Linux 启动流程是怎样的?从 BIOS 到 login 的完整过程Linux 启动分五个阶段:固件(BIOS/UEFI)→ 引导加载器(GRUB)→ 内核 → init 系统(systemd)→ 用户登录。每个阶段接力完成,任一阶段失败系统就无法启动。 ## 1. 固件阶段:BIOS/UEFI 按下电源键后,CPU 执行固件(烧在主板 ROM 里的程序): - **BIOS**(传统):POST 自检 → 扫描启动设备 → 读取第一个扇区(MBR,512 字节) - **UEFI**(现代):POST 自检 → 读取 EFI 系统分区(ESP)里的 .efi 引导程序 UEFI 比 BIOS 快(跳过 MBR 扫描),支持 GPT 分区(超过 2TB 磁盘),支持安全启动(Secure Boot)。新机器都是 UEFI。 ## 2. 引导加载器:GRUB2 GRUB2 显示启动菜单(如果有多个内核或系统),然后加载 Linux 内核和 initramfs 到内存: ``` GRUB 菜单 ├── Ubuntu, Linux 6.5.0-generic ├── Ubuntu, Linux 6.5.0-generic (recovery) └── Advanced options ``` GRUB 的配置在 /boot/grub/grub.cfg。修改用 update-grub 命令,不要直接编辑。 ## 3. 内核阶段 内核加载后: 1. 解压 initramfs(临时根文件系统,包含基本驱动) 2. 检测硬件,加载驱动模块 3. 挂载真正的根文件系统(/) 4. 执行 /sbin/init(PID 1) 内核启动时的日志用 dmesg 查看。如果卡在某个驱动加载,dmesg 能看到最后一条。 ## 4. init 系统:systemd 现代 Linux 都用 systemd(取代了旧的 SysV init)。systemd 按 target(目标单元)组织启动流程: ``` sysinit.target # 基础系统初始化 ↓ multi-user.target # 多用户模式(无图形界面) ↓ graphical.target # 图形界面 ``` 每个 target 下有多个 service 并行启动(不像旧 init 串行),启动速度更快。 查看启动耗时: ```bash systemd-analyze # 总耗时 systemd-analyze blame # 各服务耗时排序 ``` ## 5. 用户登录 - **文本模式**:getty 进程在 tty1-6 显示登录提示 - **图形模式**:GDM/LightDM/SDDM 显示管理器显示登录界面 登录后: 1. 验证用户密码(/etc/shadow) 2. 启动用户 shell(/bin/bash 或 /bin/zsh) 3. 执行 shell 配置文件(.bashrc/.zshrc) 4. 用户进入系统 ## 常见启动故障 **卡在 GRUB**:内核或 initramfs 损坏。用 Live USB chroot 修复:grub-install + update-grub。 **卡在内核阶段**:驱动问题。启动时在 GRUB 菜单按 e 编辑,在 linux 行末加 nomodeset 禁用图形驱动。 **卡在 systemd**:某个服务启动失败。systemctl status 查看失败服务,systemctl disable 暂时禁用。 **忘记密码**:GRUB 菜单按 e,linux 行末加 init=/bin/bash,Ctrl+X 启动到 root shell,passwd 修改密码。
服务端6月3日 00:11
Linux 管道和重定向怎么用?| > >> 2>&1 详解管道(|)把一个命令的输出传给另一个命令做输入。重定向(> >> 2>&1)控制输出到文件还是设备。两者配合是 Linux 命令行最核心的组合能力。 ## 重定向 ### 标准输出重定向 ```bash ls > file.txt # 覆盖写入 ls >> file.txt # 追加写入 ``` > 会清空文件再写入,>> 在文件末尾追加。新手常犯的错:用 > 覆盖了重要文件。 ### 标准错误重定向 ```bash gcc main.c 2> errors.log # 只重定向错误 ``` Linux 有三个标准流:stdin(0)、stdout(1)、stderr(2)。2> 就是重定向文件描述符 2(标准错误)。 ### 同时重定向输出和错误 ```bash # 输出和错误都写到同一个文件 gcc main.c > output.log 2>&1 # 更简洁的写法(bash 4+) gcc main.c &> output.log ``` 2>&1 把 stderr 合并到 stdout。顺序重要:> output.log 2>&1 正确,2>&1 > output.log 错误(stderr 去了终端而不是文件)。 ### 丢弃输出 ```bash gcc main.c > /dev/null 2>&1 # 什么都不看 gcc main.c 2> /dev/null # 只看正常输出,忽略错误 ``` /dev/null 是黑洞设备,写入的数据全部丢弃。 ## 管道 ```bash # 找出占用内存最多的 5 个进程 ps aux | sort -k4 -rn | head -5 # 统计当前目录下各类型文件数量 ls | grep -o '\..*$' | sort | uniq -c | sort -rn # 在日志中搜索错误并提取时间 grep ERROR app.log | awk '{print $1, $2}' ``` 管道把前一个命令的 stdout 变成后一个命令的 stdin。注意:管道只传 stdout,不传 stderr。如果要传 stderr,先 2>&1。 ## 常见组合 ```bash # 查找大文件 du -sh * | sort -rh | head -10 # 统计代码行数 find . -name '*.py' | xargs wc -l | tail -1 # 批量替换文件内容 grep -rl 'old_text' . | xargs sed -i 's/old_text/new_text/g' # 监控日志中的错误 tail -f app.log | grep --line-buffered ERROR ``` ## Here Document ```bash cat > config.yaml << EOF server: port: 8080 host: localhost EOF ``` << EOF 把多行文本作为 stdin,常用于写配置文件或脚本内嵌数据。
服务端6月3日 00:11
Linux 系统怎么备份和恢复?rsync、tar 和快照实战Linux 备份分三个层级:文件级(rsync/tar)、分区级(dd)、快照级(LVM/Btrfs)。日常用 rsync 增量备份文件,关键系统用快照,dd 只在磁盘克隆时用。 ## rsync:增量备份首选 rsync 只传输变化的文件,第一次全量,之后只传差异部分: ```bash # 本地备份到外部硬盘 rsync -avz --delete /home/user/ /backup/home/ # 远程备份到服务器 rsync -avz --delete /home/user/ user@server:/backup/home/ ``` 参数:-a 保留权限和时间戳,-v 显示进度,-z 压缩传输,--delete 删除目标中源端已不存在的文件(保持完全同步)。 定时备份: ```bash # 每天凌晨 2 点备份 0 2 * * * rsync -avz --delete /home/user/ /backup/home/ >> /var/log/backup.log 2>&1 ``` ## tar:打包归档 ```bash # 打包并压缩 tar czf backup_$(date +%Y%m%d).tar.gz /home/user/ # 解压恢复 tar xzf backup_20240101.tar.gz -C / ``` tar 适合归档到单个文件(方便传输和存储),但不支持增量。每次都全量打包,大目录慢。 ## dd:磁盘级克隆 ```bash # 整盘克隆 dd if=/dev/sda of=/dev/sdb bs=4M status=progress # 克隆到镜像文件 dd if=/dev/sda of=disk.img bs=4M status=progress ``` dd 逐扇区复制,包含分区表和引导扇区。用途:换硬盘时整盘克隆。缺点:必须卸载分区或用 Live USB,否则数据不一致。 ## LVM 快照 LVM 快照冻结文件系统某一时刻的状态,备份时不需要停服务: ```bash # 创建快照 lvcreate -L 10G -s -n snap_root /dev/vg0/root # 挂载快照并备份 mount /dev/vg0/snap_root /mnt/snap rsync -avz /mnt/snap/ /backup/root/ # 备份完成后删除快照 umount /mnt/snap lvremove /dev/vg0/snap_root ``` 快照不是备份——如果硬盘坏了快照也没了。快照的意义是:在不停服务的情况下获得一致的文件系统状态。 ## 备份策略:3-2-1 原则 - **3** 份数据副本 - **2** 种不同存储介质(本地硬盘 + NAS) - **1** 份离线/远程(云存储) 最小化方案:rsync 到本地 NAS + 推到 S3。两步覆盖 3-2-1。 ## 恢复测试 没测过的备份等于没备份。定期恢复测试: ```bash # 随机抽取一个文件验证 tar tzf backup.tar.gz | head -5 rsync -avzn /backup/home/ /tmp/verify/ # dry-run 验证 ``` 每季度做一次完整恢复演练——把备份恢复到新机器,确认能正常工作。
服务端2月17日 23:39
Linux 定时任务 cron 的时间格式、常用命令和最佳实践有哪些?Linux 定时任务(cron)是自动化运维的重要工具,可以定期执行脚本和命令。 cron 基本概念: - cron 是 Linux 系统的定时任务调度器 - 由 cron 守护进程(crond)负责执行定时任务 - 配置文件:/etc/crontab(系统级)、/var/spool/cron/username(用户级) - 时间格式:分 时 日 月 周 命令 时间格式说明: - 分(0-59):每小时的第几分钟 - 时(0-23):每天的第几小时 - 日(1-31):每月的第几天 - 月(1-12):每年的第几个月 - 周(0-7,0 和 7 都表示周日):每周的第几天 特殊符号: - *:匹配所有值 - ,:分隔多个值,如 1,3,5 表示第 1、3、5 - -:表示范围,如 1-5 表示 1 到 5 - /n:表示间隔,如 */5 表示每 5 个单位 常用示例: - 每分钟执行:* * * * * command - 每小时执行:0 * * * * command - 每天凌晨 2 点执行:0 2 * * * command - 每周一凌晨 3 点执行:0 3 * * 1 command - 每月 1 号凌晨 4 点执行:0 4 1 * * command - 每 5 分钟执行一次:*/5 * * * * command - 工作日(周一到周五)每天上午 9 点执行:0 9 * * 1-5 command crontab 命令: - crontab -e:编辑当前用户的定时任务 - crontab -l:列出当前用户的定时任务 - crontab -r:删除当前用户的所有定时任务 - crontab -u username -e:编辑指定用户的定时任务(需要 root 权限) 系统级定时任务: - /etc/crontab:系统级定时任务配置文件 - /etc/cron.hourly/:每小时执行的任务目录 - /etc/cron.daily/:每天执行的任务目录 - /etc/cron.weekly/:每周执行的任务目录 - /etc/cron.monthly/:每月执行的任务目录 环境变量: - cron 任务执行时环境变量与用户登录时不同 - 可以在 crontab 文件中定义环境变量 - 建议在脚本中使用绝对路径 - 可以在脚本开头 source 环境变量文件:source ~/.bashrc 日志和调试: - cron 日志位置:/var/log/syslog 或 /var/log/cron - 查看日志:grep CRON /var/log/syslog - 调试技巧:将输出重定向到日志文件:command >> /tmp/cron.log 2>&1 - 发送邮件:cron 默认会将输出发送到用户邮箱 最佳实践: - 使用绝对路径 - 在脚本中设置正确的环境变量 - 添加日志记录便于调试 - 使用锁文件防止重复执行 - 测试脚本后再添加到 cron - 合理设置执行时间,避免系统高峰期 - 定期检查 cron 任务执行情况 常见问题: - 脚本权限不足:确保脚本有执行权限(chmod +x script.sh) - 环境变量问题:在脚本中显式设置环境变量 - 路径问题:使用绝对路径或切换到正确目录 - 时区问题:确保系统时区正确 - cron 服务未启动:systemctl status cron 或 systemctl start cron anacron(异步 cron): - 用于不是 24 小时运行的系统 - 配置文件:/etc/anacrontab - 适合笔记本电脑等不常开机的设备 - 会检查上次执行时间,如果错过则补执行 systemd 定时器: - systemd 的定时任务替代方案 - 配置文件:/etc/systemd/system/*.timer - 查看定时器:systemctl list-timers - 更灵活的调度选项 - 更好的日志集成
服务端2月17日 23:38
Linux 磁盘管理和文件系统操作中如何进行分区、格式化、挂载和管理磁盘空间?Linux 磁盘管理和文件系统是系统管理员的核心技能,涉及磁盘分区、格式化、挂载和维护等操作。 磁盘分区: - fdisk:传统的磁盘分区工具 - 查看分区:fdisk -l - 进入交互模式:fdisk /dev/sdb - 常用命令:n(新建分区)、p(打印分区表)、d(删除分区)、w(保存并退出)、q(不保存退出) - parted:现代磁盘分区工具,支持 GPT 分区表 - 查看分区:parted -l - 进入交互模式:parted /dev/sdb - 创建分区:mkpart primary ext4 1MiB 100% - 设置分区表:mklabel gpt - lsblk:列出块设备信息 - blkid:查看块设备 UUID 和文件系统类型 文件系统: - 常见文件系统类型:ext4、xfs、btrfs、ntfs、vfat - mkfs:创建文件系统,如 mkfs.ext4 /dev/sdb1、mkfs.xfs /dev/sdb1 - mkfs.ext4:创建 ext4 文件系统 - mkfs.xfs:创建 xfs 文件系统 磁盘挂载: - mount:挂载文件系统,如 mount /dev/sdb1 /mnt/data - umount:卸载文件系统,如 umount /mnt/data - 查看挂载点:mount、df -h - /etc/fstab:自动挂载配置文件 - 格式:设备 挂载点 文件系统类型 挂载选项 dump fsck - 示例:/dev/sdb1 /mnt/data ext4 defaults 0 2 - 使用 UUID:UUID=xxx /mnt/data ext4 defaults 0 2(推荐) - 查看设备 UUID:blkid /dev/sdb1 磁盘空间管理: - df:查看磁盘空间使用情况,df -h(人类可读格式) - du:查看目录或文件大小,du -sh directory(显示目录总大小) - du -h --max-depth=1 /:查看根目录下各目录的大小 - 清理磁盘空间: - 清理包缓存:apt clean(Debian/Ubuntu)、yum clean all(CentOS/RHEL) - 清理旧日志:logrotate - 查找大文件:find / -type f -size +100M LVM(逻辑卷管理): - pvcreate:创建物理卷,如 pvcreate /dev/sdb1 - vgcreate:创建卷组,如 vgcreate vgname /dev/sdb1 - lvcreate:创建逻辑卷,如 lvcreate -L 10G -n lvname vgname - lvextend:扩展逻辑卷,如 lvextend -L +5G /dev/vgname/lvname - lvreduce:缩减逻辑卷,如 lvreduce -L -5G /dev/vgname/lvname - resize2fs:调整 ext4 文件系统大小,如 resize2fs /dev/vgname/lvname - xfs_growfs:扩展 xfs 文件系统 - pvdisplay、vgdisplay、lvdisplay:查看物理卷、卷组、逻辑卷信息 RAID(磁盘阵列): - mdadm:管理软件 RAID - 创建 RAID 0:mdadm --create /dev/md0 --level=0 --raid-devices=2 /dev/sdb1 /dev/sdc1 - 创建 RAID 1:mdadm --create /dev/md0 --level=1 --raid-devices=2 /dev/sdb1 /dev/sdc1 - 创建 RAID 5:mdadm --create /dev/md0 --level=5 --raid-devices=3 /dev/sdb1 /dev/sdc1 /dev/sdd1 - 查看 RAID 状态:cat /proc/mdstat、mdadm --detail /dev/md0 磁盘性能优化: - 使用 SSD:提高 I/O 性能 - 调整 I/O 调度器:echo deadline > /sys/block/sda/queue/scheduler - 增加文件系统块大小:mkfs.ext4 -b 4096 /dev/sdb1 - 使用 noatime 挂载选项:减少磁盘写入 - 启用文件系统日志:提高数据安全性 磁盘故障排查: - 查看磁盘健康:smartctl -a /dev/sda(需要安装 smartmontools) - 查看磁盘 I/O:iostat -x 1 - 查看磁盘错误:dmesg | grep -i error - 修复文件系统:fsck /dev/sdb1(需要先卸载)
服务端2月17日 23:38
Linux Shell 脚本编程中如何定义变量、编写条件判断和循环语句?Linux Shell 脚本编程是自动化运维和系统管理的重要技能。 变量定义和使用: - 变量定义:name="value"(注意等号两边不能有空格) - 变量引用:$name 或 ${name} - 只读变量:readonly name - 删除变量:unset name - 环境变量:export name="value" - 特殊变量:$0(脚本名)、$1-$9(位置参数)、$#(参数个数)、$*(所有参数)、$@(所有参数)、$?(上一条命令退出状态)、$$(当前进程 PID)、$!(后台进程 PID) 条件判断: - if 语句:if [ condition ]; then commands; fi - 文件测试:-f(文件存在)、-d(目录存在)、-e(存在)、-r(可读)、-w(可写)、-x(可执行) - 字符串比较:=(等于)、!=(不等于)、-z(空字符串)、-n(非空字符串) - 数值比较:-eq(等于)、-ne(不等于)、-gt(大于)、-lt(小于)、-ge(大于等于)、-le(小于等于) - 逻辑运算:-a(与)、-o(或)、!(非) 循环结构: - for 循环:for i in {1..10}; do commands; done 或 for ((i=0; i<10; i++)); do commands; done - while 循环:while [ condition ]; do commands; done - until 循环:until [ condition ]; do commands; done 函数定义: - 函数定义:function_name() { commands; } 或 function function_name { commands; } - 函数调用:function_name arg1 arg2 - 返回值:return value(0-255) - 局部变量:local var="value" 常用命令: - echo:输出文本,echo -n 不换行,echo -e 解析转义字符 - printf:格式化输出 - read:读取用户输入,read -p "prompt" var - test:条件测试,[ ] 是 test 的同义词 - expr:表达式求值 - let:算术运算 - awk:文本处理工具 - sed:流编辑器 - grep:文本搜索 数组操作: - 定义数组:arr=(item1 item2 item3) - 访问元素:${arr[0]}、${arr[@]}(所有元素)、${#arr[@]}(元素个数) - 添加元素:arr+=("new_item") 最佳实践: - 使用 set -e 遇到错误立即退出 - 使用 set -u 使用未定义变量时报错 - 使用 set -o pipefail 管道中任何命令失败都返回失败 - 添加注释说明脚本用途 - 使用引号保护变量
服务端2月17日 23:37
Linux 包管理工具(APT、YUM、PACMAN)的使用方法和常见操作有哪些?Linux 包管理是系统维护和软件安装的核心技能,不同的发行版使用不同的包管理工具。 Debian/Ubuntu 包管理(APT): - apt update:更新软件包列表 - apt upgrade:升级已安装的软件包 - apt full-upgrade:升级软件包(可能删除依赖包) - apt install package:安装软件包 - apt remove package:删除软件包(保留配置文件) - apt purge package:删除软件包及其配置文件 - apt autoremove:删除不再需要的依赖包 - apt search keyword:搜索软件包 - apt show package:显示软件包详细信息 - apt list --installed:列出已安装的软件包 - apt-cache depends package:查看软件包依赖关系 - apt-cache rdepends package:查看依赖该软件包的其他包 - dpkg -l:列出已安装的软件包 - dpkg -i package.deb:安装 .deb 文件 - dpkg -r package:删除软件包 - dpkg -P package:删除软件包及其配置文件 CentOS/RHEL 包管理(YUM/DNF): - yum update:更新软件包列表和已安装的软件包 - yum install package:安装软件包 - yum remove package:删除软件包 - yum search keyword:搜索软件包 - yum info package:显示软件包详细信息 - yum list installed:列出已安装的软件包 - yum provides command:查找提供某个命令的软件包 - yum check-update:检查可更新的软件包 - yum clean all:清理缓存 - yum deplist package:查看软件包依赖关系 - rpm -qa:列出所有已安装的软件包 - rpm -ivh package.rpm:安装 .rpm 文件 - rpm -e package:删除软件包 - rpm -q package:查询软件包是否已安装 - rpm -ql package:列出软件包安装的文件 - rpm -qf file:查找文件属于哪个软件包 Arch Linux 包管理(PACMAN): - pacman -Syu:同步软件包数据库并升级系统 - pacman -S package:安装软件包 - pacman -R package:删除软件包 - pacman -Rs package:删除软件包及其依赖 - pacman -Rns package:删除软件包、依赖和配置文件 - pacman -Ss keyword:搜索软件包 - pacman -Si package:显示软件包详细信息 - pacman -Qe:列出显式安装的软件包 - pacman -Qm:列出从 AUR 安装的软件包 - pacman -Fy:同步文件数据库 - pacman -Fo command:查找提供某个命令的软件包 软件源配置: - Debian/Ubuntu:/etc/apt/sources.list 和 /etc/apt/sources.list.d/ - CentOS/RHEL:/etc/yum.repos.d/ - Arch Linux:/etc/pacman.conf 第三方软件仓库: - EPEL(Extra Packages for Enterprise Linux):为 RHEL/CentOS 提供额外软件包 - PPA(Personal Package Archive):Ubuntu 用户个人软件仓库 - AUR(Arch User Repository):Arch Linux 用户软件仓库 包管理最佳实践: - 定期更新系统:apt update && apt upgrade 或 yum update - 使用版本锁定:apt-mark hold package 或 yum versionlock package - 清理缓存:apt autoremove && apt clean 或 yum clean all - 备份重要配置:在升级前备份 /etc 目录 - 测试环境验证:在生产环境更新前先在测试环境验证 - 使用自动化工具:Ansible、Chef、Puppet 等进行批量管理 常见问题解决: - 依赖冲突:使用 apt -f install 或 yum --skip-broken - 软件包损坏:使用 dpkg --configure -a 或 yum reinstall package - 锁定问题:删除 /var/lib/dpkg/lock 或 /var/run/yum.pid - 找不到软件包:检查软件源配置,运行 apt update 或 yum makecache
服务端2月17日 23:37
Linux 容器技术(Docker、Kubernetes)的核心概念、常用命令和最佳实践有哪些?Linux 容器技术是现代应用部署和微服务架构的核心技术,Docker 和 Kubernetes 是最主流的容器解决方案。 Docker 基本概念: - 镜像(Image):只读的文件系统模板,包含运行应用所需的所有依赖 - 容器(Container):镜像的运行实例,轻量级、隔离的运行环境 - 仓库(Repository):存储和分发镜像的地方,如 Docker Hub - Dockerfile:用于构建镜像的文本文件 - Docker Compose:定义和运行多容器应用的工具 Docker 常用命令: - 镜像管理: - docker images:列出本地镜像 - docker pull image:拉取镜像 - docker build -t name .:构建镜像 - docker rmi image:删除镜像 - docker tag image newname:标记镜像 - 容器管理: - docker run:运行容器 - docker ps:查看运行中的容器 - docker ps -a:查看所有容器 - docker stop container:停止容器 - docker start container:启动容器 - docker restart container:重启容器 - docker rm container:删除容器 - docker exec -it container /bin/bash:进入容器 - 容器操作: - docker logs container:查看容器日志 - docker cp file container:/path:复制文件到容器 - docker cp container:/path file:从容器复制文件 - docker inspect container:查看容器详细信息 - docker stats:查看容器资源使用情况 Dockerfile 指令: - FROM:指定基础镜像 - RUN:执行命令 - COPY:复制文件到镜像 - ADD:复制文件到镜像(支持解压缩和 URL) - CMD:容器启动时执行的命令 - ENTRYPOINT:容器启动时执行的入口点 - ENV:设置环境变量 - ARG:构建时的变量 - EXPOSE:声明容器监听的端口 - VOLUME:声明挂载点 - WORKDIR:设置工作目录 - USER:设置运行用户 Docker Compose: - 配置文件:docker-compose.yml - 常用命令: - docker-compose up:启动服务 - docker-compose down:停止并删除服务 - docker-compose ps:查看服务状态 - docker-compose logs:查看服务日志 - docker-compose exec service command:在服务中执行命令 - 配置示例: ```yaml version: '3' services: web: build: . ports: - "80:80" volumes: - ./data:/data environment: - ENV=value ``` Kubernetes 基本概念: - Pod:最小的部署单元,包含一个或多个容器 - Node:运行 Pod 的物理或虚拟机 - Service:为 Pod 提供稳定的网络访问 - Deployment:管理 Pod 的副本和更新 - ReplicaSet:确保指定数量的 Pod 副本在运行 - StatefulSet:管理有状态应用 - DaemonSet:在每个节点上运行一个 Pod - ConfigMap:配置数据 - Secret:敏感数据 - Namespace:资源隔离 - Ingress:HTTP/HTTPS 路由 Kubernetes 常用命令: - 集群管理: - kubectl cluster-info:查看集群信息 - kubectl get nodes:查看节点 - kubectl get namespaces:查看命名空间 - Pod 管理: - kubectl get pods:查看 Pod - kubectl describe pod podname:查看 Pod 详情 - kubectl logs podname:查看 Pod 日志 - kubectl exec -it podname /bin/bash:进入 Pod - kubectl delete pod podname:删除 Pod - Service 管理: - kubectl get services:查看服务 - kubectl describe service servicename:查看服务详情 - Deployment 管理: - kubectl get deployments:查看部署 - kubectl apply -f yaml:应用配置 - kubectl rollout status deployment/deploymentname:查看部署状态 - kubectl scale deployment/deploymentname --replicas=3:扩展副本数 Kubernetes 配置示例: - Pod 配置: ```yaml apiVersion: v1 kind: Pod metadata: name: mypod spec: containers: - name: mycontainer image: nginx ports: - containerPort: 80 ``` - Deployment 配置: ```yaml apiVersion: apps/v1 kind: Deployment metadata: name: mydeployment spec: replicas: 3 selector: matchLabels: app: myapp template: metadata: labels: app: myapp spec: containers: - name: mycontainer image: nginx ports: - containerPort: 80 ``` 容器网络: - Docker 网络模式: - bridge:默认模式,容器通过 Docker 网桥通信 - host:容器使用主机网络栈 - none:无网络 - container:共享另一个容器的网络 - Kubernetes 网络模型: - Pod 网络:所有 Pod 在同一个扁平网络中 - Service 网络:为 Pod 提供稳定的 IP - Ingress:外部访问入口 容器存储: - Docker 存储驱动:overlay2、aufs、btrfs、zfs - 卷(Volume):持久化存储 - 绑定挂载(Bind Mount):将主机目录挂载到容器 - Kubernetes 存储类(StorageClass):动态存储分配 - 持久卷(PersistentVolume):集群级别的存储资源 - 持久卷声明(PersistentVolumeClaim):用户对存储的请求 容器安全: - 镜像安全: - 使用官方镜像或可信镜像 - 定期更新镜像 - 扫描镜像漏洞 - 最小化镜像大小 - 运行时安全: - 使用非 root 用户运行容器 - 限制容器资源 - 使用只读文件系统 - 限制容器能力 - Kubernetes 安全: - RBAC:基于角色的访问控制 - Network Policy:网络策略 - Pod Security Policy:Pod 安全策略 容器编排最佳实践: - 微服务架构:将应用拆分为多个微服务 - 健康检查:配置 liveness 和 readiness 探针 - 资源限制:设置 CPU 和内存限制 - 滚动更新:逐步更新应用,避免服务中断 - 自动扩缩容:根据负载自动调整副本数 - 配置管理:使用 ConfigMap 和 Secret 管理配置 - 日志收集:集中收集和分析容器日志 - 监控告警:监控容器和集群状态
服务端2月17日 23:37
Linux 文本处理中 grep、sed、awk 命令的常用用法和正则表达式有哪些?Linux 文本处理是系统管理和数据分析的重要技能,掌握这些工具可以大大提高工作效率。 grep(文本搜索): - 基本用法:grep "pattern" file - 常用选项: - -i:忽略大小写 - -v:反向匹配(显示不匹配的行) - -n:显示行号 - -c:统计匹配行数 - -r:递归搜索目录 - -l:只显示包含匹配的文件名 - -A n:显示匹配行及其后 n 行 - -B n:显示匹配行及其前 n 行 - -C n:显示匹配行及其前后各 n 行 - 正则表达式:grep -E "pattern1|pattern2" file(扩展正则) - 示例:grep -rn "error" /var/log(递归搜索日志中的错误) sed(流编辑器): - 基本用法:sed 'command' file - 常用命令: - s/pattern/replacement/:替换(只替换第一个匹配) - s/pattern/replacement/g:全局替换(替换所有匹配) - d:删除行 - p:打印行 - n:读取下一行 - 常用选项: - -i:直接修改文件 - -n:抑制自动输出 - -e:执行多个命令 - 示例: - sed 's/old/new/g' file(全局替换) - sed '/pattern/d' file(删除匹配的行) - sed -i 's/foo/bar/g' file(直接修改文件) awk(文本处理工具): - 基本用法:awk 'pattern {action}' file - 内置变量: - $0:整行 - $1, $2, ...:第1、2、...个字段 - NF:字段总数 - NR:当前行号 - FNR:当前文件的行号 - FS:字段分隔符(默认空格) - OFS:输出字段分隔符 - RS:记录分隔符(默认换行符) - ORS:输出记录分隔符 - 常用函数: - print:打印 - printf:格式化输出 - length():字符串长度 - substr():子字符串 - split():分割字符串 - gsub():全局替换 - 示例: - awk '{print $1}' file(打印第一个字段) - awk -F: '{print $1, $3}' /etc/passwd(以冒号为分隔符) - awk 'NR==1,NR==10' file(打印第1-10行) - awk '{sum+=$1} END {print sum}' file(计算第一列总和) cut(剪切工具): - 基本用法:cut [options] file - 常用选项: - -d:指定分隔符 - -f:指定字段 - -c:指定字符位置 - 示例: - cut -d: -f1 /etc/passwd(以冒号为分隔符,提取第一个字段) - cut -c1-10 file(提取每行的前10个字符) sort(排序工具): - 基本用法:sort [options] file - 常用选项: - -n:按数值排序 - -r:倒序 - -k:指定排序字段 - -t:指定分隔符 - -u:去重 - 示例: - sort -n -k2 file(按第二列数值排序) - sort -t: -k3 -n /etc/passwd(按第三列数值排序) uniq(去重工具): - 基本用法:uniq [options] file - 常用选项: - -c:统计重复次数 - -d:只显示重复的行 - -u:只显示不重复的行 - 示例: - sort file | uniq -c(排序后统计重复次数) 组合使用: - 统计日志中错误数量:grep "error" log | wc -l - 查找访问量最高的 IP:awk '{print $1}' access.log | sort | uniq -c | sort -rn | head -10 - 提取文件中的邮箱:grep -Eo '[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}' file
服务端2月17日 23:36
Linux 系统安全加固措施有哪些,包括用户管理、SSH 配置和防火墙设置?Linux 系统安全是运维和开发人员必须掌握的重要知识,涉及用户管理、权限控制、防火墙配置等多个方面。 用户和组管理: - useradd:创建用户,如 useradd -m -s /bin/bash username(创建用户并设置家目录和 shell) - userdel:删除用户,如 userdel -r username(删除用户及其家目录) - usermod:修改用户属性,如 usermod -aG group username(将用户添加到组) - passwd:修改用户密码,如 passwd username - groupadd:创建组,如 groupadd groupname - groupdel:删除组,如 groupdel groupname - gpasswd:管理组,如 gpasswd -a username groupname(将用户添加到组) - id:查看用户 ID 和组信息 - whoami:查看当前用户 - w:查看当前登录用户 SSH 安全配置: - 配置文件:/etc/ssh/sshd_config - 禁用 root 登录:PermitRootLogin no - 禁用密码登录:PasswordAuthentication no(使用密钥认证) - 修改默认端口:Port 2222 - 限制登录用户:AllowUsers user1 user2 - 密钥认证:ssh-keygen 生成密钥对,将公钥复制到服务器的 ~/.ssh/authorized_keys - 使用 ssh-copy-id:ssh-copy-id user@host 防火墙配置: - iptables:传统防火墙工具 - 查看规则:iptables -L -n - 添加规则:iptables -A INPUT -p tcp --dport 22 -j ACCEPT - 删除规则:iptables -D INPUT 1 - 保存规则:iptables-save > /etc/iptables/rules.v4 - firewalld:动态防火墙管理 - 查看规则:firewall-cmd --list-all - 开放端口:firewall-cmd --add-port=80/tcp --permanent - 重载配置:firewall-cmd --reload - ufw:简化防火墙配置(Ubuntu) - 启用防火墙:ufw enable - 开放端口:ufw allow 22 - 查看状态:ufw status 文件权限和 SELinux: - chmod:修改文件权限 - chown:修改文件所有者 - chgrp:修改文件所属组 - SELinux:安全增强型 Linux - 查看状态:getenforce - 临时禁用:setenforce 0 - 永久禁用:修改 /etc/selinux/config - 查看上下文:ls -Z 系统加固: - 禁用不必要的服务:systemctl disable service - 更新系统:apt update && apt upgrade(Debian/Ubuntu)或 yum update(CentOS/RHEL) - 配置自动更新:unattended-upgrades(Debian/Ubuntu) - 安装安全工具:fail2ban(防止暴力破解)、rkhunter(检测 rootkit) - 配置日志审计:auditd - 限制 sudo 权限:编辑 /etc/sudoers,使用 visudo 命令 安全审计: - 查看登录日志:last、lastlog - 查看认证日志:/var/log/auth.log(Debian/Ubuntu)或 /var/log/secure(CentOS/RHEL) - 查看系统日志:/var/log/messages、journalctl - 查看进程:ps aux、top - 查看网络连接:ss -tulnp、netstat -tulnp - 查看开放端口:nmap localhost 应急响应: - 检查异常进程:ps aux | grep -v grep | grep -E "bash|sh|python|perl" - 检查异常网络连接:ss -tulnp | grep ESTABLISHED - 检查异常文件:find / -perm -4000 -o -perm -2000(查找 SUID/SGID 文件) - 检查用户登录:last、lastlog - 隔离受感染系统:断开网络连接 - 备份重要数据:在清理前备份关键数据
服务端2月17日 23:36
Linux 系统性能监控有哪些常用工具,如何分析 CPU、内存、磁盘和网络的使用情况?Linux 系统性能监控是运维工程师的重要技能,需要掌握多种工具来诊断系统瓶颈。 CPU 监控: - top/htop:实时查看 CPU 使用率、进程信息 - vmstat:报告虚拟内存统计信息,如 vmstat 1 5(每秒更新一次,共5次) - mpstat:显示各个 CPU 核心的使用情况,如 mpstat -P ALL 1 - sar:系统活动报告,如 sar -u 1 10(每秒采集一次,共10次) 内存监控: - free:显示内存使用情况,free -h 以人类可读格式显示 - vmstat:查看内存交换、缓存等信息 - ps aux:查看进程的内存占用(VSZ、RSS) - pmap:查看进程的内存映射 磁盘监控: - df:查看磁盘空间使用情况,df -h 以人类可读格式显示 - du:查看目录或文件的大小,du -sh directory - iostat:查看磁盘 I/O 统计信息,如 iostat -x 1 - iotop:实时查看磁盘 I/O 使用情况(需要 root 权限) 网络监控: - ifconfig/ip:查看网络接口配置 - netstat/ss:查看网络连接和端口监听,如 netstat -tulnp 或 ss -tulnp - nethogs:按进程查看网络带宽使用 - tcpdump:抓包分析网络流量,如 tcpdump -i eth0 port 80 日志分析: - /var/log/messages:系统主日志 - /var/log/syslog:系统日志(Debian/Ubuntu) - /var/log/dmesg:内核启动日志 - journalctl:systemd 日志查看工具,如 journalctl -f(实时查看) 综合监控工具: - dstat:集成了 vmstat、iostat、netstat 等功能 - glances:基于 Web 的系统监控工具 - prometheus + grafana:企业级监控解决方案 性能优化建议: - CPU:优化算法、减少不必要的计算、使用多进程/多线程 - 内存:减少内存泄漏、优化数据结构、使用缓存 - 磁盘:使用 SSD、优化文件系统、减少 I/O 操作 - 网络:使用 CDN、优化 TCP 参数、减少网络请求
服务端2月17日 23:35
Linux 系统日志管理中如何查看、分析和轮转日志文件?Linux 系统日志管理是故障排查和安全审计的重要环节,掌握日志分析技能可以快速定位问题。 日志文件位置: - /var/log/messages:系统主日志(CentOS/RHEL) - /var/log/syslog:系统日志(Debian/Ubuntu) - /var/log/auth.log:认证日志(Debian/Ubuntu) - /var/log/secure:安全日志(CentOS/RHEL) - /var/log/kern.log:内核日志 - /var/log/boot.log:系统启动日志 - /var/log/dmesg:内核启动消息 - /var/log/cron:定时任务日志 - /var/log/maillog:邮件日志 - /var/log/nginx/:Nginx 日志目录 - /var/log/apache2/:Apache 日志目录 - /var/log/mysql/:MySQL 日志目录 日志查看工具: - cat:查看整个文件内容 - less:分页查看,支持上下滚动和搜索 - tail:查看文件末尾,tail -f 实时查看 - head:查看文件开头 - grep:搜索特定内容 - zcat:查看压缩的日志文件(.gz) - zgrep:搜索压缩的日志文件 - journalctl:systemd 日志查看工具 journalctl 常用命令: - journalctl:查看所有日志 - journalctl -f:实时查看日志 - journalctl -u service:查看特定服务的日志 - journalctl -u service -f:实时查看服务日志 - journalctl --since today:查看今天的日志 - journalctl --since "2024-01-01" --until "2024-01-02":查看指定时间段的日志 - journalctl -p err:查看错误级别的日志 - journalctl -p warning:查看警告级别的日志 - journalctl -b:查看当前启动的日志 - journalctl -b -1:查看上一次启动的日志 - journalctl --disk-usage:查看日志磁盘占用 - journalctl --vacuum-size=1G:限制日志大小为 1GB 日志级别: - emerg:紧急 - alert:警报 - crit:严重 - err:错误 - warning:警告 - notice:通知 - info:信息 - debug:调试 日志轮转(logrotate): - 配置文件:/etc/logrotate.conf 和 /etc/logrotate.d/ - 配置示例: ``` /var/log/nginx/*.log { daily missingok rotate 14 compress delaycompress notifempty create 0640 www-data adm sharedscripts postrotate [ -f /var/run/nginx.pid ] && kill -USR1 `cat /var/run/nginx.pid` endscript } ``` - 手动执行:logrotate -f /etc/logrotate.conf - 测试配置:logrotate -d /etc/logrotate.conf 日志分析技巧: - 统计错误数量:grep -i error /var/log/syslog | wc -l - 查找特定时间段的日志:grep "2024-01-01" /var/log/syslog - 查找特定 IP 的访问:grep "192.168.1.1" /var/log/nginx/access.log - 统计访问量最高的 IP:awk '{print $1}' /var/log/nginx/access.log | sort | uniq -c | sort -rn | head -10 - 查找失败的登录尝试:grep "Failed password" /var/log/auth.log - 查找系统重启记录:last reboot 日志管理最佳实践: - 定期清理旧日志:使用 logrotate 自动轮转 - 监控日志大小:设置告警阈值 - 集中日志管理:使用 ELK(Elasticsearch、Logstash、Kibana)或 Graylog - 日志备份:定期备份重要日志 - 日志权限:确保日志文件权限正确,防止未授权访问 - 结构化日志:使用 JSON 格式便于解析和分析 远程日志收集: - rsyslog:系统日志服务,支持远程日志收集 - syslog-ng:功能强大的日志管理工具 - fluentd:统一日志收集层 - filebeat:轻量级日志收集器 故障排查流程: 1. 确认问题发生时间 2. 查看系统主日志(/var/log/messages 或 /var/log/syslog) 3. 查看相关服务日志 4. 使用 grep 搜索错误信息 5. 分析日志上下文 6. 结合其他监控工具(top、vmstat、iostat)综合判断
服务端2月17日 23:35
Linux 系统服务管理中如何使用 systemctl 和 service 命令管理服务?Linux 系统服务管理是运维工程师的核心技能,主要涉及 systemd 和传统的 init 系统。 systemd 服务管理: - systemctl start service:启动服务 - systemctl stop service:停止服务 - systemctl restart service:重启服务 - systemctl reload service:重新加载配置(不中断服务) - systemctl status service:查看服务状态 - systemctl enable service:设置服务开机自启 - systemctl disable service:取消服务开机自启 - systemctl is-enabled service:检查服务是否开机自启 - systemctl list-units --type=service:列出所有服务 - systemctl list-unit-files --type=service:列出所有服务文件 - systemctl daemon-reload:重新加载 systemd 配置 服务配置文件: - 位置:/etc/systemd/system/ 或 /usr/lib/systemd/system/ - 示例:/etc/systemd/system/nginx.service 服务配置文件格式: ```ini [Unit] Description=nginx service After=network.target [Service] Type=forking ExecStart=/usr/sbin/nginx ExecReload=/bin/kill -s HUP $MAINPID ExecStop=/bin/kill -s TERM $MAINPID Restart=on-failure [Install] WantedBy=multi-user.target ``` 传统 init 服务管理(SysVinit): - service service start:启动服务 - service service stop:停止服务 - service service restart:重启服务 - service service status:查看服务状态 - chkconfig --list:列出所有服务 - chkconfig service on:设置服务开机自启 - chkconfig service off:取消服务开机自启 服务日志管理: - journalctl -u service:查看特定服务的日志 - journalctl -u service -f:实时查看服务日志 - journalctl -u service --since today:查看今天的日志 - journalctl -u service --since "2024-01-01" --until "2024-01-02":查看指定时间段的日志 - journalctl -p err:查看错误级别的日志 - /var/log/messages:系统主日志 - /var/log/syslog:系统日志(Debian/Ubuntu) 服务故障排查: - 检查服务状态:systemctl status service - 查看服务日志:journalctl -u service - 检查配置文件:cat /etc/systemd/system/service.service - 检查端口监听:ss -tulnp | grep service - 检查进程:ps aux | grep service - 手动启动测试:直接运行服务的可执行文件 服务优化: - 调整启动顺序:使用 After 和 Wants 指令 - 设置资源限制:使用 LimitCPU、LimitMEM 等指令 - 配置自动重启:Restart=on-failure、RestartSec=10s - 优化启动时间:使用 Type=simple 或 Type=notify
服务端2月17日 23:35
Linux 系统监控和告警的常用工具、配置方法和最佳实践有哪些?Linux 系统监控和告警是保障系统稳定运行的重要手段,需要掌握各种监控工具和告警机制。 系统监控工具: - CPU 监控: - top:实时查看 CPU 使用率和进程信息 - htop:交互式进程查看器,功能更强大 - mpstat:显示各个 CPU 核心的使用情况 - sar:系统活动报告,可记录历史数据 - vmstat:报告虚拟内存统计信息 - 内存监控: - free:显示内存使用情况 - vmstat:查看内存交换、缓存等信息 - ps aux:查看进程的内存占用 - pmap:查看进程的内存映射 - 磁盘监控: - df:查看磁盘空间使用情况 - du:查看目录或文件的大小 - iostat:查看磁盘 I/O 统计信息 - iotop:实时查看磁盘 I/O 使用情况 - 网络监控: - ifconfig/ip:查看网络接口配置 - netstat/ss:查看网络连接和端口监听 - nethogs:按进程查看网络带宽使用 - tcpdump:抓包分析网络流量 - iftop:实时显示网络带宽使用 - 进程监控: - ps:查看进程状态 - top/htop:实时监控进程 - pgrep:查找进程 ID - pidstat:监控进程资源使用 性能分析工具: - strace:跟踪系统调用和信号 - ltrace:跟踪库函数调用 - perf:性能分析工具 - sysdig:系统级监控和故障排查 - eBPF:扩展伯克利数据包过滤器 日志监控: - /var/log/messages:系统主日志 - /var/log/syslog:系统日志(Debian/Ubuntu) - /var/log/auth.log:认证日志 - /var/log/secure:安全日志(CentOS/RHEL) - journalctl:systemd 日志查看工具 - logrotate:日志轮转工具 监控告警系统: - Nagios:企业级监控系统 - Zabbix:分布式监控系统 - Prometheus:时序数据库和监控系统 - Grafana:数据可视化平台 - ELK Stack(Elasticsearch、Logstash、Kibana):日志分析和可视化 - Datadog:云监控平台 - New Relic:应用性能监控 Prometheus 监控: - 数据采集:使用 Exporter 采集指标 - 常用 Exporter: - node_exporter:系统指标 - mysqld_exporter:MySQL 指标 - nginx_exporter:Nginx 指标 - redis_exporter:Redis 指标 - 配置文件:/etc/prometheus/prometheus.yml - 告警规则:使用 PromQL 定义告警条件 - 告警管理:Alertmanager 处理告警通知 Grafana 可视化: - 数据源配置:支持 Prometheus、Elasticsearch 等 - 仪表板:创建自定义监控面板 - 告警:基于可视化图表设置告警 - 模板:使用变量创建动态仪表板 告警通知方式: - 邮件:SMTP 邮件通知 - 短信:短信网关 - 即时通讯:Slack、钉钉、企业微信 - 电话:语音通知 - Webhook:自定义 Web 回调 告警策略: - 告警级别:Critical、Warning、Info - 告警阈值:根据业务需求设置合理阈值 - 告警抑制:避免告警风暴 - 告警聚合:相关告警合并通知 - 告警升级:长时间未处理自动升级 自定义监控脚本: - 编写 Shell/Python 脚本采集指标 - 使用 cron 定时执行 - 输出格式:支持 Nagios、Prometheus 等格式 - 示例: ```bash #!/bin/bash # 检查磁盘使用率 DISK_USAGE=$(df / | awk 'NR==2 {print $5}' | sed 's/%//') if [ $DISK_USAGE -gt 80 ]; then echo "CRITICAL: Disk usage is ${DISK_USAGE}%" exit 2 fi echo "OK: Disk usage is ${DISK_USAGE}%" exit 0 ``` 监控最佳实践: - 全面监控:覆盖 CPU、内存、磁盘、网络等关键指标 - 合理采样:避免监控数据量过大 - 告警分级:区分紧急和一般告警 - 告警收敛:避免重复告警 - 定期维护:清理过期数据,更新监控规则 - 文档记录:维护监控配置文档 - 测试验证:定期测试告警机制 常见监控指标: - 系统指标:CPU 使用率、内存使用率、磁盘使用率、网络流量 - 应用指标:请求数、响应时间、错误率、并发数 - 业务指标:订单量、用户数、交易额 故障排查流程: 1. 确认告警信息 2. 查看系统监控数据 3. 检查相关服务状态 4. 分析日志文件 5. 定位问题根因 6. 实施修复措施 7. 验证修复效果 8. 总结经验教训
服务端2月17日 23:35
Linux 系统资源限制 ulimit 的作用、配置方法和常见应用场景有哪些?Linux 系统资源限制(ulimit)是控制进程资源使用的重要机制,可以防止进程占用过多系统资源。 ulimit 基本概念: - ulimit 是 shell 内置命令,用于控制 shell 进程及其子进程的资源限制 - 限制分为软限制(soft limit)和硬限制(hard limit) - 软限制可以由用户调整,但不能超过硬限制 - 硬限制只能由 root 用户提高 - 配置文件:/etc/security/limits.conf、/etc/security/limits.d/ 常用 ulimit 命令: - ulimit -a:显示所有当前资源限制 - ulimit -n:查看/设置最大打开文件数 - ulimit -u:查看/设置最大用户进程数 - ulimit -s:查看/设置栈大小 - ulimit -v:查看/设置最大虚拟内存 - ulimit -m:查看/设置最大常驻内存 - ulimit -c:查看/设置 core 文件大小 - ulimit -t:查看/设置最大 CPU 时间 - ulimit -f:查看/设置最大文件大小 - ulimit -l:查看/设置最大锁定内存 - ulimit -p:查看/设置管道缓冲区大小 - ulimit -e:查看/设置最大调度优先级 - ulimit -r:查看/设置最大实时优先级 资源限制类型: - 文件描述符限制: - open files:最大打开文件数(-n) - max locked memory:最大锁定内存(-l) - 进程限制: - max user processes:最大用户进程数(-u) - max pending signals:最大挂起信号 - 内存限制: - max memory size:最大常驻内存(-m) - virtual memory:最大虚拟内存(-v) - stack size:栈大小(-s) - CPU 限制: - cpu time:最大 CPU 时间(-t) - max nice priority:最大 nice 优先级(-e) - max realtime priority:最大实时优先级(-r) - 其他限制: - file size:最大文件大小(-f) - pipe size:管道缓冲区大小(-p) - core file size:core 文件大小(-c) limits.conf 配置格式: - 格式:<domain> <type> <item> <value> - domain:可以是用户、组、*(所有用户)、%组名 - type:soft(软限制)、hard(硬限制)、-(同时设置软硬限制) - item:资源类型,如 nofile、nproc、memlock 等 - value:限制值,unlimited 表示无限制 配置示例: ``` # 限制所有用户的最大打开文件数 * soft nofile 65535 * hard nofile 65535 # 限制特定用户的最大进程数 username soft nproc 4096 username hard nproc 8192 # 限制特定组的最大内存 @groupname soft memlock 1048576 @groupname hard memlock 2097152 # 启用 core 文件 * soft core unlimited * hard core unlimited ``` 临时修改限制: - 在当前 shell 中修改:ulimit -n 65535 - 仅对当前 shell 及其子进程有效 - 退出 shell 后失效 永久修改限制: - 编辑 /etc/security/limits.conf 文件 - 编辑 /etc/security/limits.d/ 目录下的配置文件 - 修改后需要重新登录才能生效 - 对于服务进程,需要重启服务 systemd 服务限制: - 在服务配置文件中设置限制 - 配置项: - LimitNOFILE=65535:最大打开文件数 - LimitNPROC=4096:最大进程数 - LimitMEMLOCK=infinity:最大锁定内存 - LimitCORE=infinity:core 文件大小 - 示例: ``` [Service] LimitNOFILE=65535 LimitNPROC=4096 ``` 常见应用场景: - Web 服务器(Nginx、Apache): - 增加最大打开文件数:ulimit -n 65535 - 增加最大进程数:ulimit -u 4096 - 数据库服务器(MySQL、PostgreSQL): - 增加最大打开文件数:ulimit -n 65535 - 增加 core 文件大小:ulimit -c unlimited - 高并发应用: - 增加最大打开文件数:ulimit -n 65535 - 增加最大进程数:ulimit -u 8192 - 开发环境: - 启用 core 文件:ulimit -c unlimited - 增加 core 文件大小:ulimit -c unlimited 查看进程限制: - 查看 PID 的限制:cat /proc/PID/limits - 查看进程打开的文件数:ls /proc/PID/fd | wc -l - 查看进程线程数:ps -eLf | grep PID | wc -l 故障排查: - "Too many open files" 错误:增加 ulimit -n - "Cannot allocate memory" 错误:检查内存限制 - 进程无法启动:检查进程数限制 - core 文件未生成:检查 core 文件限制 最佳实践: - 根据应用需求设置合理的限制值 - 不要设置过高的限制值,避免资源耗尽 - 监控资源使用情况,及时调整限制 - 在生产环境应用前先在测试环境验证 - 定期检查和更新限制配置
服务端2月17日 23:35
Linux 网络配置和管理中常用的命令有哪些,如何配置网络接口、DNS 和防火墙?Linux 网络配置和管理是系统管理员的核心技能之一。 网络配置文件: - /etc/network/interfaces(Debian/Ubuntu):网络接口配置文件 - /etc/sysconfig/network-scripts/ifcfg-*(CentOS/RHEL):网络接口配置文件 - /etc/resolv.conf:DNS 解析配置文件 - /etc/hosts:主机名到 IP 地址的映射 - /etc/hostname:主机名配置 网络配置命令: - ifconfig:配置和显示网络接口(已废弃,推荐使用 ip 命令) - ip:新一代网络配置工具,如 ip addr show(显示 IP 地址)、ip link show(显示网络接口)、ip route show(显示路由表) - route:显示和操作 IP 路由表,如 route -n(显示路由表)、route add default gw 192.168.1.1(添加默认网关) - netstat:网络统计工具,如 netstat -tulnp(显示 TCP/UDP 监听端口)、netstat -an(显示所有连接) - ss:netstat 的替代工具,性能更好,如 ss -tulnp - ping:测试网络连通性,如 ping -c 4 google.com - traceroute:跟踪数据包路由,如 traceroute google.com - nslookup/dig:DNS 查询工具,如 dig google.com - curl/wget:下载工具,curl -I http://example.com(查看响应头) - telnet:测试端口连通性,如 telnet host port - nc(netcat):网络工具,如 nc -zv host port(测试端口) 网络服务管理: - systemctl:管理网络服务,如 systemctl restart network(重启网络服务) - service:传统服务管理命令,如 service network restart 防火墙配置: - iptables:传统的防火墙工具,如 iptables -L(列出规则)、iptables -A INPUT -p tcp --dport 80 -j ACCEPT(添加规则) - firewalld:动态防火墙管理守护进程,如 firewall-cmd --list-all(查看规则)、firewall-cmd --add-port=80/tcp(开放端口) - ufw:简化防火墙配置工具(Ubuntu),如 ufw allow 80(开放端口) 网络故障排查: - 检查网络接口:ip addr show 或 ifconfig - 检查路由表:ip route show 或 route -n - 检查 DNS:cat /etc/resolv.conf、dig domain.com - 检查端口监听:ss -tulnp 或 netstat -tulnp - 检查网络连通性:ping、traceroute - 抓包分析:tcpdump -i eth0 port 80 - 查看网络统计:sar -n DEV 1 网络性能优化: - 调整 TCP 参数:修改 /etc/sysctl.conf,如 net.ipv4.tcp_tw_reuse=1 - 增加连接数:net.core.somaxconn、net.ipv4.tcp_max_syn_backlog - 优化网络缓冲区:net.core.rmem_max、net.core.wmem_max
服务端2月17日 23:34
Linux 虚拟化技术(KVM、Docker、Kubernetes)的特点和使用场景有哪些?Linux 虚拟化技术是现代云计算和容器化部署的基础,掌握虚拟化技术对于系统架构和运维至关重要。 虚拟化类型: - 全虚拟化(Full Virtualization):通过 hypervisor 模拟完整的硬件环境,客户操作系统无需修改 - 半虚拟化(Para-virtualization):客户操作系统需要修改以配合 hypervisor - 操作系统级虚拟化(OS-level Virtualization):在同一个操作系统内核上运行多个隔离的用户空间实例 KVM(Kernel-based Virtual Machine): - Linux 内核的虚拟化模块 - 将 Linux 内核转变为 hypervisor - 需要 CPU 支持硬件虚拟化(Intel VT-x 或 AMD-V) - 使用 QEMU 作为设备模拟器 - 命令示例: - 安装 KVM:apt install qemu-kvm libvirt-daemon-system libvirt-clients - 检查 KVM 支持:kvm-ok 或 lsmod | grep kvm - 创建虚拟机:virt-install --name vm1 --ram 2048 --vcpus 2 --disk path=/var/lib/libvirt/images/vm1.qcow2,size=20 --cdrom /path/to/iso Xen: - 开源 hypervisor - 支持 paravirtualization 和 full virtualization - Domain 0(Dom0):特权域,负责硬件访问和管理 - Domain U(DomU):非特权域,运行客户操作系统 - 命令示例:xl create vm.cfg、xl list VMware: - 商业虚拟化解决方案 - VMware ESXi:企业级 hypervisor - VMware Workstation:桌面虚拟化软件 - VMware vSphere:虚拟化管理平台 Docker 容器: - 轻量级虚拟化技术 - 共享主机内核,隔离用户空间 - 镜像(Image):只读的文件系统模板 - 容器(Container):镜像的运行实例 - 常用命令: - docker run:运行容器 - docker ps:查看运行中的容器 - docker images:查看镜像 - docker build:构建镜像 - docker exec:在容器中执行命令 - docker logs:查看容器日志 - docker stop/start:停止/启动容器 Kubernetes(K8s): - 容器编排平台 - 管理容器化应用的部署、扩展和管理 - 核心概念: - Pod:最小的部署单元 - Service:为 Pod 提供稳定的网络访问 - Deployment:管理 Pod 的副本和更新 - ConfigMap:配置数据 - Secret:敏感数据 - 常用命令: - kubectl get pods:查看 Pod - kubectl get services:查看服务 - kubectl apply -f yaml:应用配置 - kubectl logs pod:查看日志 LXC(Linux Containers): - 操作系统级虚拟化 - 共享内核,隔离进程和网络 - 比 Docker 更接近传统虚拟机 - 命令示例: - lxc-create:创建容器 - lxc-start:启动容器 - lxc-stop:停止容器 - lxc-ls:列出容器 libvirt: - 虚拟化管理 API 和工具集 - 支持 KVM、QEMU、Xen、LXC 等多种虚拟化技术 - 提供统一的虚拟化管理接口 - 命令示例: - virsh list:列出虚拟机 - virsh start vm:启动虚拟机 - virsh shutdown vm:关闭虚拟机 - virsh dumpxml vm:查看虚拟机配置 虚拟化网络: - Bridge(网桥):将虚拟机连接到物理网络 - NAT(网络地址转换):虚拟机通过主机访问外部网络 - Host-only:仅主机和虚拟机之间的网络 - VLAN:虚拟局域网 虚拟化存储: - 镜像格式:qcow2、raw、vmdk、vdi - 存储池:libvirt 存储池管理 - 共享存储:NFS、iSCSI、Ceph 性能优化: - CPU 亲和性:绑定虚拟机到特定 CPU 核心 - 内存 ballooning:动态调整虚拟机内存 - 巨页(Huge Pages):提高内存性能 - virtio:半虚拟化 I/O 驱动 虚拟化安全: - SELinux/AppArmor:强制访问控制 - 资源限制:cgroups 限制 CPU、内存、磁盘 I/O - 网络隔离:VLAN、防火墙规则 - 镜像安全:定期更新、扫描漏洞
服务端2月17日 23:34
Linux 进程管理中常用的命令有哪些,如何查看、终止和管理后台进程?Linux 进程管理是系统运维和开发的核心技能。每个进程都有唯一的进程 ID(PID),父进程 ID(PPID),以及运行状态。 常用进程管理命令: - ps:查看当前进程状态,常用选项包括 ps aux(显示所有进程)、ps -ef(完整格式显示)、ps -l(长格式显示) - top/htop:实时监控系统进程和资源使用情况,htop 提供更友好的交互界面 - kill:终止进程,如 kill PID(发送 SIGTERM 信号)、kill -9 PID(强制终止,发送 SIGKILL 信号) - killall:按进程名终止进程,如 killall nginx - pkill:按模式匹配终止进程,如 pkill -f "python script.py" - pgrep:查找进程 ID,如 pgrep nginx - nohup:让命令在后台持续运行,如 nohup command & - &:在后台运行命令,如 command & - jobs:查看当前 shell 的后台任务 - bg/fg:将任务切换到后台/前台运行 进程状态包括: - R(Running):正在运行或在运行队列中等待 - S(Sleeping):可中断睡眠 - D(Uninterruptible Sleep):不可中断睡眠 - T(Stopped):已停止 - Z(Zombie):僵尸进程 僵尸进程是已完成但父进程尚未读取其退出状态的进程,需要父进程调用 wait() 或 waitpid() 来回收。孤儿进程是父进程已终止但仍在运行的进程,会被 init 进程(PID 1)收养。 进程间通信(IPC)方式包括管道、消息队列、共享内存、信号量、套接字等。
服务端2月17日 13:41
Linux 内核参数调优中常用的网络、内存和文件系统参数有哪些?Linux 内核参数调优是提升系统性能的重要手段,通过调整 /etc/sysctl.conf 文件可以优化系统行为。 网络参数调优: - TCP 连接参数: - net.ipv4.tcp_tw_reuse=1:允许将 TIME-WAIT sockets 重新用于新的 TCP 连接 - net.ipv4.tcp_tw_recycle=0:关闭 TCP 连接快速回收(可能导致 NAT 问题) - net.ipv4.tcp_fin_timeout=30:减少 FIN-WAIT-2 状态的超时时间 - net.ipv4.tcp_keepalive_time=600:TCP keepalive 探测时间 - net.ipv4.tcp_keepalive_probes=3:TCP keepalive 探测次数 - net.ipv4.tcp_keepalive_intvl=15:TCP keepalive 探测间隔 - TCP 缓冲区参数: - net.ipv4.tcp_rmem="4096 87380 16777216":TCP 接收缓冲区大小 - net.ipv4.tcp_wmem="4096 65536 16777216":TCP 发送缓冲区大小 - net.core.rmem_max=16777216:最大接收缓冲区 - net.core.wmem_max=16777216:最大发送缓冲区 - TCP 连接队列: - net.core.somaxconn=65535:最大监听队列长度 - net.ipv4.tcp_max_syn_backlog=8192:最大 SYN 队列长度 - net.ipv4.tcp_syncookies=1:启用 SYN cookies 防止 SYN 攻击 - 其他网络参数: - net.ipv4.ip_local_port_range="1024 65535":本地端口范围 - net.ipv4.tcp_max_tw_buckets=5000:TIME-WAIT bucket 数量 - net.ipv4.tcp_fastopen=3:启用 TCP Fast Open 内存参数调优: - 虚拟内存: - vm.swappiness=10:降低使用 swap 的倾向(0-100) - vm.vfs_cache_pressure=100:调整内核回收内存的倾向 - vm.dirty_ratio=10:脏页占内存的比例 - vm.dirty_background_ratio=5:后台写入脏页的比例 - vm.dirty_expire_centisecs=3000:脏页过期时间 - 内存分配: - vm.overcommit_memory=1:允许过度分配内存 - vm.overcommit_ratio=50:过度分配比例 - Huge Pages: - vm.nr_hugepages=0:大页数量 - vm.hugetlb_shm_group=0:允许使用大页的组 ID 文件系统参数调优: - 文件句柄: - fs.file-max=65535:系统最大打开文件数 - fs.inotify.max_user_watches=524288:inotify 监控数量 - 文件系统: - fs.aio-max-nr=1048576:最大异步 I/O 数量 - fs.nr_open=1048576:进程最大打开文件数 进程和线程参数调优: - 进程限制: - kernel.pid_max=4194303:最大进程 ID - kernel.threads-max=4194303:最大线程数 - 信号量: - kernel.sem="250 32000 100 128":信号量参数 - kernel.shmmax=68719476736:最大共享内存段大小 - kernel.shmall=4294967296:共享内存页数 安全参数调优: - 网络安全: - net.ipv4.conf.all.rp_filter=1:启用反向路径过滤 - net.ipv4.conf.default.rp_filter=1:默认启用反向路径过滤 - net.ipv4.icmp_echo_ignore_all=0:允许 ICMP echo 请求 - net.ipv4.icmp_echo_ignore_broadcasts=1:忽略广播 ICMP - net.ipv4.conf.all.accept_source_route=0:拒绝源路由 - net.ipv4.conf.default.accept_source_route=0:默认拒绝源路由 - 内核安全: - kernel.dmesg_restrict=1:限制 dmesg 访问 - kernel.kptr_restrict=1:限制内核指针访问 - kernel.perf_event_paranoid=2:限制性能事件访问 性能监控参数: - 系统监控: - kernel.sysrq=0:禁用 SysRq 键 - kernel.randomize_va_space=2:地址空间随机化 - 日志参数: - kernel.printk="4 4 1 7":控制台日志级别 参数应用方法: - 临时修改:sysctl -w parameter=value - 永久修改:编辑 /etc/sysctl.conf 文件 - 应用配置:sysctl -p 或 sysctl --system - 查看当前值:sysctl parameter - 查看所有参数:sysctl -a 调优建议: - 根据实际应用场景调整参数 - 修改前备份原配置 - 逐步调整,观察效果 - 使用性能监控工具验证调优效果 - 参考官方文档和最佳实践 - 生产环境调优前先在测试环境验证 常见应用场景: - Web 服务器:增加连接队列、调整 TCP 参数 - 数据库服务器:优化内存参数、增加文件句柄 - 高并发服务:增加端口范围、优化 TCP 缓冲区 - 虚拟化环境:调整内存参数、启用 Huge Pages