乐闻个人主页 - 乐闻世界

乐闻

主页文章专栏面试题问题

服务端2月18日 11:38

注意力机制是什么？为什么 Transformer 靠它替代了 RNN？注意力机制让模型在处理每个词时，能动态决定该"看"输入序列的哪些其他词。它是 Transformer 的核心，也是 BERT、GPT 等现代 NLP 模型的基础。没有注意力机制，就没有今天的大语言模型。 ## 直觉：注意力在做什么想象你在读"银行"这个词，想理解它的意思。如果上下文是"他去银行存钱"，"银行"和"存钱"的关系最密切——你的注意力会聚焦在"存钱"上。如果上下文是"他坐在河的银行边"，注意力会转向"河"。注意力机制做的就是这个：对序列中的每个位置，计算它和其他所有位置的相关程度，然后按相关程度加权聚合信息。相关程度高的权重大，低的权重小。 ## 核心计算：Quer...

服务端2月18日 11:39

如何构建一个 NLP 系统？从数据到部署的完整流程构建 NLP 系统不只是训模型——从数据收集到线上服务，中间有大量工程决策要做。模型只是系统的一部分，很多时候瓶颈不在模型效果，而在数据处理、服务稳定性和迭代速度上。 ## 明确任务和指标先想清楚三件事：系统要解决什么问题？怎么衡量效果？兜底策略是什么？比如做一个客服意图分类系统：目标是自动识别用户咨询的类别（退款、物流、产品问题等），指标是 F1 值和人工介入率，兜底是置信度低于阈值就转人工。不要上来就想用最先进的模型，先把任务定义清楚。 ## 数据工程数据是 NLP 系统的地基，也是最容易出问题的地方。 **数据收集**：业务日志、用户生成内容、公开数据集。优先用业...

服务端2月18日 16:56

命名实体识别（NER）怎么做？BiLSTM-CRF 和 BERT-CRF 哪个好？命名实体识别（Named Entity Recognition，NER）是从文本中抽取出特定类型的实体——人名、地名、机构名、日期等。它是信息抽取的基础：搜索引擎要理解"苹果"是公司还是水果，问答系统要找到答案里的人名和地点，都靠 NER。 ## NER 怎么定义"实体" 最常用的标注体系是 BIO：B-X 表示实体 X 的开头，I-X 表示实体 X 的内部，O 表示非实体。比如"北京大学位于海淀区"标注为"B-ORG I-ORG I-ORG I-ORG O B-LOC I-LOC I-LOC"。还有 BIOES 体系多了 E（结束）和 S（单字实体），理论上更精确但实际差距不大。 ...

服务端2月18日 16:58

NLP 文本预处理有哪些步骤？LLM 时代还需要吗？文本预处理是把原始文本变成模型能消化的输入的过程。传统 NLP 流程里这一步极其重要——垃圾进垃圾出，预处理做不好，模型再强也没用。但 LLM 时代有些变化，后面会说。 ## 预处理的核心步骤按顺序走： **1. 清洗噪声**：去掉 HTML 标签、URL、特殊符号、多余空格。爬虫抓的文本必做这步。用 BeautifulSoup 去 HTML 标签，正则去 URL（`re.sub(r"http\S+", "", text)`），没什么技术含量但很重要。 **2. 文本标准化**：统一大小写（英文）、统一编码（UTF-8）、繁简转换（中文）。注意英文小写化会丢失一些信息——"US...

服务端2月18日 16:59

大语言模型（LLM）是什么？为什么它能做这么多事？大语言模型（Large Language Model，LLM）是用海量文本训练的超大规模神经网络。它不是被编程去"做"某件事，而是通过预测下一个 token 学会了语言的规律——结果出乎意料地，这种能力泛化到了推理、翻译、写代码、做总结等各种任务上。 ## LLM 和传统 NLP 模型有什么本质区别传统 NLP 是"一个模型做一件事"——分类模型做分类，NER 模型做实体识别，翻译模型做翻译。LLM 打破了这个限制：同一个模型，通过不同的提示词（prompt），就能完成几十种任务。这种能力叫**涌现能力**——模型小的时候没有，参数过了某个阈值突然就出现了。关键在于规模效应。G...

服务端2月18日 17:04

C语言预处理器指令有哪些？#define 宏有什么坑？C 预处理器在编译前处理源代码，处理 `#include`、`#define`、`#ifdef` 等指令。它做的是文本替换，不是代码编译——这意味着宏没有类型检查、没有作用域，出错了很难调试。 ## 追问 ### #define 宏有什么坑？经典陷阱：`#define SQUARE(x) x * x`，调用 `SQUARE(1+2)` 展开成 `1+2 * 1+2`，结果是 5 不是 9。正确写法要给参数和整体都加括号：`#define SQUARE(x) ((x) * (x))`。但即使这样，`SQUARE(i++)` 还是会让 i 自增两次——宏是文本替换，不是函数调用。能用...

服务端2月18日 17:05

C语言位运算符怎么用？设置、清除、翻转一位怎么做？C 语言有 6 个位运算符：`&`（与）、`|`（或）、`^`（异或）、`~`（取反）、`<<`（左移）、`>>`（右移）。位运算直接操作二进制位，在标志位管理、数据压缩、硬件寄存器操作中不可替代。 ## 追问 ### 位运算怎么设置、清除、翻转、检查某个位？这是位运算面试的必考题，记住四个套路： ```c #define BIT(n) (1 << n) flags |= BIT(3); // 设置第 3 位 flags &= ~BIT(3); // 清除第 3 位 flags ^= BIT(3); // 翻转第 3 位 if (flags ...

服务端2月18日 17:05

C语言字符串函数有哪些坑？strcpy 和 strncpy 有什么区别？C 语言字符串就是以 `\0` 结尾的字符数组，标准库 `<string.h>` 提供了一组操作函数。面试重点不在背函数签名，而在理解哪些函数安全、哪些有坑、为什么有坑。 ## 追问 ### strcpy 和 strncpy 有什么区别？哪个更安全？ `strcpy` 无条件拷贝直到遇到 `\0`，目标缓冲区不够大就溢出——这是 C 语言最经典的安全漏洞来源。`strncpy` 限定了最大拷贝长度，但有个坑：如果源字符串比指定长度长，拷贝后不会自动补 `\0`，目标字符串可能不是合法的 C 字符串。正确用法： ```c strncpy(dest, src, sizeof(dest...

服务端2月18日 17:05

C语言文件操作怎么做？fopen/fread/fwrite 怎么用？C 语言文件操作就四步：`fopen` 打开 → `fread`/`fwrite`（或 `fgets`/`fprintf`）读写 → `fseek`/`ftell` 定位 → `fclose` 关闭。核心原则是：打开必检查返回值，关闭前确保所有操作完成，错误用 `ferror`/`feof` 判断。 ## 追问 ### 文本模式和二进制模式有什么区别？文本模式（`"r"`/`"w"`）在 Windows 上会自动做换行转换——读时把 `\r\n` 变成 `\n`，写时把 `\n` 变成 `\r\n`。二进制模式（`"rb"`/`"wb"`）原样读写，不做任何转换。Linux/ma...

服务端2月18日 17:06

C语言 malloc 和 free 怎么用？内存泄漏怎么排查？C 语言用 `malloc`/`calloc`/`realloc` 在堆上分配内存，用 `free` 释放。和栈上变量不同，堆内存的生命周期由程序员手动控制——分配了不释放就是内存泄漏，释放了再访问就是悬空指针。 ## 追问 ### malloc、calloc、realloc 有什么区别？ `malloc(size)` 分配 size 字节，内容不确定（可能是垃圾值）。`calloc(n, size)` 分配 n×size 字节并全部清零。`realloc(ptr, new_size)` 在已分配内存基础上调整大小——如果新空间够大就在原地扩展，不够就另找一块新地方拷贝过去。rea...