GLM-OCR在网络安全中的应用：自动化识别验证码与日志分析

张

张建站

2026/4/20 17:54:22

10分钟阅读

GLM-OCR在网络安全中的应用自动化识别验证码与日志分析最近和几个做安全的朋友聊天他们都在抱怨一些重复性的“体力活”比如渗透测试时要手动输入验证码或者每天要花大量时间从海量的日志截图、PDF报告里人工寻找关键告警信息。这些工作不仅枯燥效率低还容易因为疲劳而出错。其实这类问题背后都指向一个核心需求如何让机器看懂图片里的文字。这正是OCR光学字符识别技术大显身手的地方。而今天要聊的GLM-OCR作为一个开源的、效果不错的识别工具恰好能帮我们把这些繁琐的流程自动化。这篇文章我就结合几个实际的场景聊聊怎么用它来给网络安全工作“减负”。1. 场景一自动化识别登录验证码验证码是网站防止自动化攻击的常见手段但对于安全测试人员来说它也是个麻烦。在做授权测试时频繁的手动输入不仅打断思路还拖慢整体进度。GLM-OCR可以帮我们解决这个问题。1.1 为什么选择GLM-OCR来做这件事市面上OCR工具不少但GLM-OCR有几个特点让它挺适合这个场景。首先它对复杂背景、扭曲变形的文字有不错的识别能力很多验证码就喜欢用这些花样。其次它部署简单可以方便地集成到我们自己的自动化脚本或工具链里不用依赖第三方在线服务这对于涉及敏感信息的安全测试来说很重要。最后它的识别速度足够快能满足自动化测试对响应时间的要求。1.2 一个简单的实现思路我们不需要搞得太复杂。核心思路就是用脚本自动截图或获取验证码图片然后调用GLM-OCR识别出里面的文字最后自动填充到登录表单里。下面是一个用Python演示的核心流程。假设我们已经有了验证码图片的本地路径。import requests from PIL import Image import io # 假设这是你GLM-OCR服务的API地址本地部署 OCR_API_URL http://localhost:8000/ocr def recognize_captcha(image_path): 调用GLM-OCR识别验证码图片 with open(image_path, rb) as f: image_data f.read() # 构建请求通常以multipart/form-data形式上传图片 files {image: (captcha.png, image_data, image/png)} try: response requests.post(OCR_API_URL, filesfiles) response.raise_for_status() # 检查请求是否成功 result response.json() # 假设API返回格式为 {text: 识别出的文字, confidence: 0.95} recognized_text result.get(text, ).strip() confidence result.get(confidence, 0) if recognized_text and confidence 0.7: # 设置一个置信度阈值 print(f识别成功: {recognized_text} (置信度: {confidence:.2f})) return recognized_text else: print(识别失败或置信度过低) return None except requests.exceptions.RequestException as e: print(f调用OCR API失败: {e}) return None # 示例识别一张验证码图片 captcha_text recognize_captcha(path/to/your/captcha.png) if captcha_text: # 这里可以接上自动化测试框架如Selenium的代码自动填充验证码 # driver.find_element(By.ID, captcha-input).send_keys(captcha_text) print(f即将自动填充验证码: {captcha_text})这段代码的关键在于调用部署好的GLM-OCR服务。你需要先按照官方文档把GLM-OCR在本地或内网服务器上跑起来它会提供一个HTTP API。拿到识别结果后再和你现有的自动化测试工具比如Selenium、Playwright结合起来就能实现从截图到填写的全自动流程。1.3 实践中会遇到的问题与应对实际用起来肯定不会一帆风顺。验证码为了防机器识别设计得越来越复杂。GLM-OCR虽然强也可能遇到识别不准的情况。复杂干扰如果验证码有密集的点线干扰或颜色重叠可以尝试在识别前对图片做简单的预处理比如转成灰度图、提高对比度。OpenCV这类库就能轻松完成。import cv2 def preprocess_image(image_path): img cv2.imread(image_path) gray cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 简单二值化增强前景文字 _, thresh cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY) cv2.imwrite(processed_captcha.png, thresh) return processed_captcha.png识别错误自动化脚本需要容错。如果识别出的文字长度明显不对比如验证码通常是4-6位识别出2位或者填入后登录失败脚本应该能捕获这个异常然后触发重新获取和识别验证码的流程或者降级为等待人工输入。动态验证码对于滑块、点选等图形验证码纯OCR方案就不够了可能需要结合目标检测等其他AI模型这就超出本文范围了。2. 场景二从日志截图与PDF中快速定位告警安全运维人员每天要面对成堆的监控截图、扫描报告PDF。从这些非结构化的图片或文档里人工找“高危”、“漏洞”、“攻击”等关键词既费眼又容易遗漏。GLM-OCR可以帮我们把图片里的文字“挖”出来变成可搜索、可分析的文本。2.1 处理流程设计这个场景的流程比验证码要稍微多一步因为最终目的是分析和告警。一个基本的处理管道可以这样设计输入获取日志截图、PDF报告PDF可先转换为图片。识别使用GLM-OCR批量识别图片中的文字。提取在识别出的文本中使用规则正则表达式或简单的文本分类模型筛选出包含安全关键词如“ERROR” “FAILED” “攻击” “CVE-2024-*”的句子或段落。输出将提取到的关键告警信息汇总成结构化报告如JSON、CSV或直接发送到即时通讯工具如钉钉、企业微信进行通知。2.2 代码示例批量处理与关键信息提取假设我们有一个文件夹里面存放了多张服务器控制台的截图。import os import re from pathlib import Path # 安全关键词列表可以根据实际需要扩充 SECURITY_KEYWORDS [ error, failed, 拒绝访问, denied, 攻击, attack, 入侵, intrusion, 漏洞, vulnerability, 恶意, malicious, 告警, alert, 高危, high risk, CVE-, 溢出, overflow ] def extract_security_alerts(text): 从识别文本中提取包含安全关键词的告警句子 alerts [] # 简单按句号、换行分割句子可根据实际情况调整 sentences re.split(r[。!?\n], text) for sentence in sentences: sentence_lower sentence.lower() # 检查句子中是否包含任何安全关键词 for keyword in SECURITY_KEYWORDS: if keyword.lower() in sentence_lower: alerts.append(sentence.strip()) break # 一个句子包含一个关键词即可 return alerts def process_log_screenshots(folder_path): 批量处理日志截图文件夹 folder Path(folder_path) image_extensions (.png, .jpg, .jpeg, .bmp) all_alerts [] for image_file in folder.iterdir(): if image_file.suffix.lower() in image_extensions: print(f正在处理: {image_file.name}) # 步骤1: 调用之前定义的 recognize_captcha 函数或类似的OCR识别函数 # 注意这里需要能处理整张图片文本的OCR函数而非仅验证码。 # 假设我们有一个 recognize_image_text 函数 recognized_text recognize_image_text(str(image_file)) if recognized_text: # 步骤2: 提取安全告警 alerts extract_security_alerts(recognized_text) if alerts: for alert in alerts: all_alerts.append({ source_file: image_file.name, alert_content: alert }) print(f 发现 {len(alerts)} 条告警) # 步骤3: 输出结果 if all_alerts: output_report(all_alerts) else: print(未发现安全告警信息。) def output_report(alerts_list): 简单将告警输出为文本报告 with open(security_alerts_report.txt, w, encodingutf-8) as f: f.write( 安全告警摘要 \n\n) for item in alerts_list: f.write(f文件: {item[source_file]}\n) f.write(f告警: {item[alert_content]}\n) f.write(- * 40 \n) print(f告警报告已生成: security_alerts_report.txt) # 假设的识别整图文本的函数你需要根据GLM-OCR的实际API调整 def recognize_image_text(image_path): # 这里调用GLM-OCR的完整图片识别接口返回整个图片的文本 # 实现逻辑与 recognize_captcha 类似但可能调用不同的API端点 # 返回拼接好的字符串 pass # 运行示例 process_log_screenshots(./log_screenshots/)这个脚本提供了一个自动化分析的骨架。recognize_image_text函数需要你根据GLM-OCR提供的完整文档识别API来实现。提取规则SECURITY_KEYWORDS也可以做得更智能比如结合上下文判断严重等级。2.3 提升实用性的几点建议要让这个方案真正用起来还可以考虑以下几点处理PDF文件可以使用pdf2image库先将PDF的每一页转换成图片然后再送入OCR流程。处理表格数据日志或报告里常有表格。GLM-OCR如果支持版面分析可以尝试先定位表格区域再识别这样能得到更结构化的数据。如果不支持识别出的文本可能需要额外的逻辑来重组表格内容。与现有系统集成将提取到的告警信息通过Webhook等方式直接推送到你的SIEM安全信息和事件管理系统、运维监控平台或团队聊天群实现真正的自动化闭环。定期自动运行利用cronLinux或计划任务Windows让这个脚本定时扫描指定的文件目录或从监控系统拉取图片实现7x24小时的自动化日志审计。3. 总结整体试下来GLM-OCR在网络安全这些特定场景里确实能帮上不少忙。它把我们从“看图识字”的重复劳动中解放出来让自动化脚本有了“眼睛”。无论是搞定烦人的验证码还是从海量日志图片里捞取关键信息核心思路都是借助可靠的OCR能力将非结构化的视觉信息转化为程序可处理的文本。当然它也不是万能的。面对极端复杂的验证码或者排版诡异的文档识别率可能会下降需要配合一些图像预处理或者设计降级方案。但在大多数常见情况下它的表现已经足够让自动化流程变得更加顺畅。如果你也在为类似的安全运维效率问题头疼不妨试试将GLM-OCR引入你的工具链从小处着手先自动化一两个最耗时的环节感受一下技术带来的提效变化。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。