Skip to content

Latest commit

 

History

History
454 lines (275 loc) · 19.7 KB

开发文档.md

File metadata and controls

454 lines (275 loc) · 19.7 KB

概述

本项目结构以该项目为例AZCodingAccount/iGomokuGame: 一个在线五子棋游戏 (github.com),前端项目文件夹iSchool-Web、后端项目文件夹iSchool-Server,开发者需补充一切认为必要的开发文档在各自文件夹下的README文件中。

Git前缀规范

本项目常用的前缀有featfixdocsUI

💥 feat(模块): 添加了个很棒的功能
🐛 fix(模块): 修复了一些 bug
📝 docs(模块): 更新了一下文档
🌷 UI(模块): 修改了一下样式
🏰 chore(模块): 对脚手架做了些更改
🌐 locale(模块): 为国际化做了微小的贡献
refactor, perf, workflow, build, CI, typos, tests, types, wip, release, dep

Git workflow

项目开发在dev分支上、main分支设置了权限(仅管理者可以合并)。一般的工作流程

管理者初始化:

git init			# 初始化git仓库
git add .			# 添加文件到工作区
git branch -M main	# 切换master分支为main(政治正确)
git remote add origin https://github.com/AZCodingAccount/iSchool.git	# 关联远程仓库
git push -u origin main													# 推送,-u设置为默认仓库和分支
git branch dev		# 创建dev分支
git checkout dev	# 切换到dev分支工作

贡献者开发流程

git clone https://github.com/AZCodingAccount/iSchool.git	# 克隆项目到本地
git checkout dev		# 切换到dev分支
git add .				# 添加本地文件
git commit -m "{前缀}: {功能描述}"
git remote add origin https://github.com/AZCodingAccount/iSchool.git	# 关联远程仓库
git push -u origin dev													# 推送,-u设置为默认仓库和分支


# 本地开发,完成一个新功能进行下列工作流即可
git add .
git commit -m "{前缀}: {功能描述}"
git push

界面设计

用户模块

登录页面

image-20240418215223487

注册页面(忘记密码页面可以先不开发)

image-20240418215324090

个人中心页面

image-20240419220116345

消息提示:(点击去查看按钮,跳转到指定路由,后端返回数据会返回响应路径,直接router.push即可)

image-20240501211549906

搜索模块

首页:

image-20240501213527954

搜索成功的页面(ps:前端需要寻找vue中的markdown解析器解析AI智达内容,因为AI返回的内容是md格式)

image-20240502161250927

  • 进一步聊聊,AI聊天参考这个githubUI项目:Windows 12 网页版 (tjy-gitnub.github.io) 可以看看我提的pr,就是关于这个机器人聊天的PR

  • 站外搜索先不用实现了

  • 大众点评跳到大众点评那个页面就可以了

大众点评模块

主页(点击五角星就可以评分,评分后锁定,有评分这个组件)

image-20240503173238825

评论页面(评论参考CodeTop 面试题目总结,这个网站的评论功能,就是右边一个抽屉)

image-20240503174702034

添加点评对象页面

image-20240503210325163

流程叙述

大众点评模块流程叙述

一共9个接口

点评对象(comment_obj)

  1. 用户点击大众点评tab栏,程序发送查询请求,keyword为"",type为"",拿到全部数据渲染
  2. 用户点击搜索按钮,拿到搜索词作为keyword,下拉框内容作为type,发送查询请求拿到部分数据渲染
  3. 用户点击星星,进行评分,发送评分请求。已评分过的内容不可评分(后续扩展,暂不需实现
  4. 用户点击去添加按钮,弹出模态框,输入名称,选择类型,发送添加点评对象请求

一级评论(comments)

  1. 用户点击更多,查询所有一级评论,渲染
  2. 用户给一级评论点赞,发送点赞请求
  3. 用户回复一级评论,发送添加一级评论请求

二级评论(reply_comments)

  1. 用户点击查看回复,查询所有二级评论,渲染
  2. 用户给二级评论点赞,发送点赞请求
  3. 用户回复二级评论,发送添加二级评论请求

ps:参考接口文档和数据库表注释,注意每次请求的发送参数和返回参数就可以了

(还有一个用户点完赞不能点赞了,这个后续还需要兼容一下)

主页流程概述

一共四个接口

​ 用户输入关键词,发送两个请求,一个分页查询获取搜索数据,一个请求(aiSearch)通知后端去生成AI答案。当用户点击查看AI建议时,向后端发送请求(aiSearchRes),再获取AI的答案(注意,如果AI答案尚未生成完成,服务端返回生成中信息,code不为1)。

​ 点击聊天,将用户搜索关键词和AI答案渲染到页面上,之后,调用chat接口问答即可。

个人中心消息概述

  • 点击查看消息,发送请求(getMessageList),获取所有未读消息,渲染。

  • 当用户点击去查看时,只需传过去objId,打开对应点评对象的评论即可(直接跳转到当前评论位置实现起来可能困难)

技术实现细节

​ 对于数据库的同步,我采用的是一天增量同步一次,具体是第一次首先进行一个全量的同步,后续我传入文章id,爬取到比这个文章id小的元素,我就停止,然后写入数据库即可。(需要注意的是,article不一定连续,但递增,可能有发布然后删除的情况出现)

​ 考虑到可能会删除,但是是极少数情况,一周全量同步一次即可

第一次同步,同步了2755条,一共花费了1658s,大概28分钟

MySQL全文索引用法

ALTER TABLE info DROP INDEX title;	# 添加索引

ALTER TABLE info ADD FULLTEXT(title, content);	# 删除索引
# my.ini调整关联词长度(可以去注册表找配置文件位置:https://blog.csdn.net/gpweixing/article/details/111108109)
innodb_ft_min_token_size = 1
ft_min_word_len = 1	

# 查询是否修改成功(一定要先重启MySQL服务)
show variables like 'innodb_ft_min_token_size';

show variables like 'ft_min_word_len';

# 数据量5416条
select *
from info
where content like '%保研%'
  and school = 'HRBUST';	


select *
from info
where MATCH(title, content) AGAINST('保研')
  and school = 'HRBUST';	# 使用全文索引搜索

扩展补充

优化业务

错误日志、成功日志记录表、user表添加school字段、新增school表、新增info表的articleId索引

  • 集成Skywalking
  • 集成限流算法,根据压测接口

集成Redis

Redis这里主要有三个方面,

  1. 缓存用户检索ai回答的内容
  2. 缓存某个用户聊天的记录(主要是分布式集中存储的考量)
  3. 缓存用户查询的数据(规则是缓存任意关键词前10页的内容)
  4. 缓存增量同步时最后一个文章id

缓存过期策略:

​ 对1来说,默认不过期

​ 对2来说,默认缓存6h

​ 对3来说,每次全量或增量同步后清空

​ 对4来说,每次增量同步后更新

缓存预热的思路:记录关键字查询的次数,次数高的进行预热(本次暂不实现)

分布式任务调度

  • 全量同步每天凌晨0点0分0秒
  • 增量6-24点每5分钟一次

调用失败由python程序往数据库写日志,并返回给Java程序error msg,Java程序收到后邮件告警,人工看日志进行处理

不设置失败重试,因为一般同步失败就是代码或者页面结构出问题了,且要保证幂等性(第二次同步删除之前同步的数据,如果实现的话可以采用文章id,大于当前同步的文章id删除即可),如果同步失败人工处理即可

后续:已拓展幂等性,设置失败重试次数为3

查到执行器的进程,杀了重新起一个,xxl-job的bug

netstat -ano | findstr 9001
taskkill /F /PID 9656

集成ES

  1. 分析要搜索的字段:title、content、pub_time、school
  2. 建立索引,具体如下表
PUT /announcement
{
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "ik_max_word",
        "search_analyzer": "ik_smart", 
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      },
      "text": {
        "type": "text",
        "analyzer": "ik_max_word",
        "search_analyzer": "ik_smart", 
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      },
      "content": {
        "type": "text",
        "analyzer": "ik_max_word",
        "search_analyzer": "ik_smart", 
        "fields": {
          "keyword": {
            "type": "keyword",
            "ignore_above": 256
          }
        }
      },
      "pubTime": {
        "type": "date",
        "format": "yyyy-MM-dd"
      },
      "url": {
        "type": "keyword",
        "index": false
      },
      "createTime": {
        "type": "date",
        "index": false
      },
      "articleId": {
        "type": "integer",
        "index": false
      },
      "school": {
        "type": "keyword"
      }
    }
  }
}
  1. 同步数据,采用定时任务完毕以后手动从数据库查询出数据同步到es中
  2. 查询(根据关键字分页、根据条件查询)即可

问题:怎么让mysql数据同步到es

  1. 使用定时任务
  2. 双写,写到mysql时候写入es一份
  3. 使用中间件logstash和canel

本次采用第一种,原因:不引入其他中间件增加系统复杂性,实现简单,对数据实时要求不高(你说教务在线发了个公告,我5分钟内检索出来跟5分05秒检索出来有很大的区别吗?

番外篇,优化es搜索分词器

​ ik分词器其实对大部分场景并不友好,应该是词典比较老的缘故,因此需要自定义词典,国内本项目的场景也不多,找了百度、搜狗的词典也满足不了需求,因此本项目自定义了有关教务在线的常用词100多个。但是肯定是远远不能满足需求的,但是禁用词相对好找一点,常见禁用词直接加进去就可以了。保守一点,搜索用ik_smart,切词就用ik_max_word增加点数据量,也能满足日常的需求。搜索权重是 title:content=3:1

!es搜索效果很大程度上依赖于好的分词器和词典

项目功能优化

  1. 已注销的用户不可回复,账号名为已注销,头像为默认头像
  2. 记录用户给哪条评论点过赞,给哪个点评对象评过分
  3. 用户信息添加学校字段
  4. 部分冗余字段的设计

前端优化

界面优化

  1. 登录过程按钮loading动画

  2. 搜索界面与评论界面展示内容太少,至少5条以上,参考谷歌搜索界面,我的建议是实在想要这个背景图,可以搜索完成以后把这个背景图给隐藏了。没有搜索时候可以放那。

    文字可以稍微小一点,前端页面有些字体太大了,能一页展示的尽量别让滑动(比如个人中心)

    image-20240521135835997

image-20240521114945078

功能完善

  1. 搜索模块

    • 搜索添加按照起止日期进行搜索的功能。

    • 搜索完成后有根据日期进行排序(前端实现)

    • 点击搜索结果后直接跳转到显示页面(页面html内容向后端请求),不需要跳转到教务在线(可以有一个按钮运行用户跳转过去)

  2. 社区模块

    • 前端兼容给哪条评论点过赞和对象评分
    • 兼容用户注销后输入框禁用(判断用户已注销使用用户名:用户已注销、用户id:默认为0)
  3. 用户个人中心添加学校下拉框,兼容修改学校信息

bug修复

  1. 二级评论渲染的时候username和replyUsername弄串了

image-20240521133509247

  1. 记住我功能:后端并没有返回password,在登录之前就把用户输入的password存下来存到本地即可

image-20240521133804183

后续业务优化

  1. 优化:搜索时严格按照日期进行筛选

  2. 修复:缓存时redis key关联上日期

  3. 修复:社区模块评论bug,重复评分会出现问题的bug

搜索模块补充描述

​ 搜索模块是大数据量下的教育公告聚合搜索平台的核心模块,在一定程度上其他两个模块一定程度上来说是为搜索模块进行服务的,搜索模块获取用户模块的学校数据进行检索,用户在搜索模块获取相应信息不足后跳转到社区模块进一步问答。搜索模块主要包含的功能有关键词检索功能、AI检索建议、AI智能问答等功能。接下来详细介绍每个功能的优化思路:

1)关键词检索功能

数据源介绍

系统首先使用分布式任务调度框架调用爬虫程序对教育在线数据进行同步,同步规则为每天全量同步一次、6-24点每五分钟增量同步一次。爬取数据后对数据进行清洗存储到数据库中。使用分布式任务调度框架XXL-JOB实现增量和全量的同步,在任务调用失败后,发送邮件告警。

搜索基础功能实现

首先分析检索功能,教育在线公告是HTML页面,系统需求是将整个页面结构爬取下来,部分页面所占数据很大,有的达到了60KB左右,教务在线检索又需要在大数据量中检索content字段,这就要求解决此问题。解决问题概览图如图1-5所示。

image-20240613112557162

​ 从MySQL层面解决方案,首先需要使用分页查询,否则数据量过大会抛出OOM(Out Of Memory)异常,如图1-6所示,此时对1.1w级数据进行检索,接口返回时间为5.3s,如图1-7所示。使用全文检索,添加全文索引可以解决查询速度问题,但由于MySQL提供的全文索引对中文适配不好,检索准确性几乎为0。另一个经常被想到的解决方案是垂直分表,将大字段content拆分成另一个表,可以解决因大字段导致的查询性能问题,但从业务角度分析,失去了content字段,教务公告表检索意义其实不大。这就驱使我们寻求新的解决方案。

img

​ 图1-6 教务公告查询OOM异常

img

​ 图1-7 教育公告查询MySQL耗费时间

​ 使用Redis是一个十分显然的方案,将查询到的数据缓存到内存中,这样下次请求直接请求缓存,查询速度可以提升到命中缓存60ms,如图1-8所示,但是引入新的中间件意味着需要考虑中间件所带来的数据同步,数据缓存和过期策略等问题。前者对本业务需求实际不需额外成本来满足,数据缓存和过期策略是着重需要考虑的一点,且当用户查询如果并未命中缓存的时候,查询时间仍然退化成了数据库查询时间。

img

​ 图1-8 教育公告查询Redis耗费时间

​ 针对Redis未命中缓存时查询时间退化的问题,系统引入了Elastic Search,Elastic Search是一个搜索服务器,实际生产中在文章存储、日志分析领域应用广泛。ES采用了一种倒排索引的技术,对数据进行分词存储,从而使得查询效率可以接近O(1),对范围查询、聚合等查询效率可能接近Olog(n)或更高,但这种查询也是十分高效的。将每次同步MySQL数据时也将数据同步到ES中,解决了数据来源的问题。在未命中缓存时,采用ES查询,将查询时间控制在200ms以内,对某些特殊场景下,甚至与命中缓存查询时间相差无几,如本场景查询花费76ms,截图如图1-9所示。

img

​ 图1-9 教育公告查询ES耗费时间

2)AI搜索建议

​ 用户搜索时,服务端会自动调用生成AI检索建议的接口,但处于解耦与响应速度的考虑,系统会向RabbitMQ消息队列发送一条消息,其中以搜索关键词作为标识即可(由于本系统搜索时没有上下文,因此假定认为同一关键词输出的内容是唯一的),消息被生产者生产完成后,生产者会将消息以search:ai:{keyword}的键存储到Redis中,待用户点击查看AI搜索建议时,系统从Redis中查看是否有对应值存在,不存在,通知消息队列生成消息,存储即返回给用户。为了便于理解,给出时序图如图1-10所示。

image-20240613112524886 图1-10 AI搜索建议时序图

3)AI智能问答

AI智能问答是一个类似GPT对话模型的功能,AI智能问答的特点是更接近教育公告信息(有一个更明确的预设)助手的功能。用户对话过程中历史对话数据存储到Redis中,以用户id+业务前缀作为唯一标识,默认缓存历史消息列表是5条,在一定时间后会进行清空。之所以选择Redis存储用户消息列表的原因是因为系统是微服务项目,未来一定是会有分布式的需求,因此将消息列表存储到本地会涉及不同节点之间数据无法同步的问题,集中存储到Redis中,可以解决上述问题。详细时序图如图1-11所示。

image-20240613112501661

​ 图1-11 AI智能问答时序图