MySQL数据实时同步到Elasticsearch解决方案
csdh11 2025-01-02 15:31 5 浏览
概述
在实际的项目开发与运维过程中,MySQL 常常扮演着业务数据库的核心角色,以其强大的事务处理能力和数据完整性保障,支撑着系统的稳定运行。然而,随着数据量的急剧增长和查询复杂度的不断提升,单一依赖 MySQL 进行高效的数据检索显得日益吃力,尤其是在面对海量数据的复杂查询场景时,性能瓶颈愈发凸显。
为了有效缓解这一挑战,我们通常采用读写分离的策略,将 Elasticsearch(简称 ES)引入作为专门的查询数据库。ES 以其卓越的搜索性能、灵活的数据模式以及强大的可扩展性,成为处理复杂查询需求的理想选择。通过 ES,我们可以实现数据的快速检索与分析,从而大幅提升用户体验和系统响应速度。
在这一过程中,确保 MySQL 数据库与 ES 之间的数据同步成为了至关重要的一环。数据同步不仅关乎数据的实时性和准确性,更是保障系统稳定性和用户体验的基石。因此,我们需要精心设计与实施一套高效、可靠的数据同步方案。
具体而言,数据同步的实现方式多种多样,包括但不限于使用 Logstash、Kafka Connect、Debezium 等工具进行实时数据捕获与传输,或通过定时任务(如 Cron Job)结合 SQL 查询与批量导入的方式实现数据的定期同步。在选择同步方案时,我们需要综合考虑数据的实时性要求、系统架构的复杂度、运维成本以及数据的增量更新特性等因素。
同步方案
1. 同步双写
同步双写是一种数据同步策略,它指的是在主数据库(如MySQL)上进行数据修改操作时,同时将这些修改同步写入到ES中。这种策略旨在确保两个数据库之间的数据一致性,并优化系统的读写性能。
目标
同步双写是指在进行数据写入操作时,同时向两个或多个数据库写入相同的数据。在MySQL与ES的同步场景中,其主要目的是将MySQL中的业务数据实时同步到ES中,以便利用ES的高效查询能力来应对复杂的查询需求,同时减轻MySQL的查询压力。
实现方式
直接同步
在业务代码中,每次对MySQL数据库进行写入操作时,同时执行对ES的写入操作。这种方式简单直接,但可能增加代码的复杂性和出错的风险。
使用中间件
利用消息队列(如Kafka)、数据变更捕获工具(如Debezium)或ETL工具(如Logstash)等中间件来捕获MySQL的数据变更事件,并将这些事件转发到ES进行同步。这种方式可以解耦业务代码与数据同步逻辑,提高系统的可扩展性和可维护性。
触发器与存储过程
在MySQL中设置触发器或编写存储过程,在数据发生变更时自动触发ES的写入操作。这种方式可以减少业务代码的侵入性,但可能会增加MySQL的负担并影响性能。
优缺点
- 优点
- 业务逻辑编写简单
- 业务查询实时性高
- 缺点
- 业务硬编码,有需要写入 MySQL 的地方都需要添加写入 ES 的代码
- 业务代码强耦合度很高
- 存在双写失败丢数据风险
- 双写性能较差,本来 MySQL 的性能不是很高,再加一个 ES,系统的性能必然会下降
应用场景
同步双写策略适用于对数据一致性要求较高且需要优化查询性能的场景。例如,在电商系统中,可以将商品信息、订单数据等存储在MySQL中,同时将这些数据同步到ES中以支持复杂的搜索和分析需求。
2. 异步双写
异步双写也是一种数据同步策略,它允许在主数据库(如MySQL)进行数据修改操作时,异步地将这些修改写入到多个数据源(如ES)中。与同步双写相比,异步双写具有降低主数据库写入延迟、提高系统性能以及避免因备库问题而影响主库性能等优点。
优缺点
- 优点
- 提高系统可用性:即使备库出现问题,也不会影响主库的正常运行和数据写入
- 降低主库写入延迟:由于不需要等待备库确认,主库可以更快地完成写入操作,从而提高系统的整体性能
- 多数据源同步:多源写入之间相互隔离,便于扩展更多的数据源写入
- 缺点
- 硬编码问题:接入新的数据源需要实现新的消费者代码
- 系统复杂度增加:需要额外引入了消息中间件
- 实时性较低:由于MQ是异步消费模型,用户写入的数据不一定可以马上看到,消息挤压等会造成延时
- 数据一致性风险:由于存在异步处理的时间差,可能会出现主库和备库之间数据暂时不一致的情况。因此,需要采取适当的措施来确保数据的最终一致性。
应用场景
异步双写适用于对数据一致性要求不是特别高但对系统性能要求较高的场景。例如,在电商平台中,可以将用户订单信息、商品库存等关键数据实时同步到主数据库中,同时将一些非关键数据(如用户浏览记录、商品点击量等)异步地同步到备数据库中用于数据分析。这样可以在保证关键数据一致性的同时提高系统的整体性能。
3. Logstash同步
Logstash 是一个开源的服务器端数据处理管道,可以同时从多个来源采集数据,转换数据,然后将数据发送到您指定的存储库中。在实现 MySQL 数据库和 Elasticsearch 之间的数据同步时,Logstash 可以发挥重要作用。
优缺点
- 优点
- 不改变原代码,没有侵入性、没有硬编码
- 没有业务强耦合,不改变原来程序的性能
- 缺点
- 时效性较差,由于是采用定时器根据固定频率查询表来同步数据,尽管将同步周期设置到秒级,也还是会存在一定时间的延迟
- 对数据库有一定的轮询压力,一种改进方法是将轮询放到压力不大的从库上
- 无法实现同步删除,需要在Elasticsearch中执行相关命令手动删除
- Elasticsearch中的_id字段必须与MySQL中的id字段相同
4. Binlog 实时同步
Binlog实时同步是一种数据库同步技术,主要用于实时捕获并同步数据库中的变更数据。
Binlog(Binary Log)是MySQL等数据库的一种二进制日志,它记录了数据库中所有更改数据的SQL语句信息,但不包括查询操作。这些变更包括数据的插入、更新、删除等。Binlog主要用于数据库的主从复制和数据恢复。
同步原理
Binlog实时同步的原理基于数据库的复制机制。当数据库发生变更时,这些变更会被写入到Binlog中。同步工具(如Canal、Maxwell等)会监听Binlog的变动,实时捕获这些变更数据,并将其同步到其他数据库或存储系统中。
优缺点
- 优点
- 实时性:能够实时捕获和同步数据库的变更数据
- 一致性:确保源数据库和目标数据库之间数据的一致性
- 灵活性:支持多种数据库和存储系统之间的同步
- 可扩展性:可以根据业务需求进行扩展和定制
- 没有代码侵入、没有硬编码,原有系统不需要任何变化,没有感知
- 缺点
- 配置和维护同步工具可能具有一定的复杂性
- 在高并发场景下,Binlog的写入和同步可能会对数据库性能产生一定影响
- 同步工具依赖于数据库的Binlog功能,如果数据库版本或配置发生变化,可能需要重新配置同步工具
5. Canal数据同步
Canal是阿里巴巴集团提供的一个开源产品,能够通过解析数据库的增量日志,提供增量数据的订阅和消费功能。Canal的功能原理及详细说明请参见Canal。使用Canal模拟成MySQL的Slave,实时接收MySQL的增量数据binlog,然后通过RESTful API将数据写入到阿里云ES实例或ES Serverless应用中,适用于对数据同步的实时性要求较高的场景。
同步原理
Canal 原理就是伪装成 MySQL 的从节点,从而订阅 master 节点的 Binlog 日志。通过订阅binlog的方式实现数据实时同步,在不影响源数据库的情况下,同步延迟可降至毫秒级别。
同步流程
- Canal 服务端向 MySQL 的 master 节点传输 dump 协议
- MySQL 的 master 节点接收到 dump 请求后推送 binlog 日志给 Canal 服务端,解析 binlog 对象(原始为byte流)转成 Json 格式
- Canal 客户端通过 TCP 协议或 MQ 形式监听 Canal 服务端,同步数据到ES
执行核心流程
- canal模拟mysql slave的交互协议,伪装自己为mysql slave,向mysql master发送dump协议
- mysql master收到dump请求,开始推送binary log给slave(也就是canal)
- canal解析binary log对象(原始为byte流)
5. 阿里云 DTS
数据传输服务DTS(Data Transmission Service)是阿里云提供的实时数据流服务,支持关系型数据库(RDBMS)、非关系型的数据库(NoSQL)、数据多维分析(OLAP)等数据源间的数据交互,集数据同步、迁移、订阅、集成、加工于一体,助您构建安全、可扩展、高可用的数据架构。
相对于传统数据迁移或同步工具,DTS为您提供功能更丰富、传输性能更强、易用性更高且安全可靠的服务,帮助您简化复杂的数据交互工作,专注于上层的业务开发。
系统架构
架构特性
系统高可用数据传输服务内部每个模块都有主备架构,保证系统高可用。容灾系统实时检测每个节点的健康状况,一旦发现某个节点异常,会将链路快速切换到其他节点。
数据源地址动态适配对于数据订阅及同步链路,容灾系统还会监测数据源的连接地址切换等变更操作,一旦发现数据源发生连接地址变更,它会动态适配数据源新的连接方式,在数据源变更的情况下,保证链路的稳定性。
数据同步的工作原理
DTS可以在两个数据源之间同步正在进行的数据变更。数据同步通常用于OLTP到OLAP的数据传输。数据同步包括以下两个阶段:
- 同步初始化:DTS先开始收集增量数据,然后将源数据库的结构和存量数据加载到目标数据库。
- 数据实时同步:DTS同步正在进行的数据变更,并保持源数据库和目标数据库的同步。
DTS Serverless
DTS Serverless实例是数据传输服务DTS(Data Transmission Service)提供的资源规格可以弹性变化的实例。Serverless实例可以适应不断变化的业务需求,使实例资源能够随业务规模的变化自动调整,从而避免资源浪费和控制运维成本。
Serverless是一种动态计费方式,能够根据实例负载情况以分钟级别的动态调整资源,并实时计费(每小时生成一个收费订单),您仅需要为实际用量付费,从而节省大量成本。使用Serverless计费方式购买的实例,被称为Serverless实例。
Serverless实例会根据RPS(Records Per Second)、CPU、内存利用率、网络等因素动态调整资源规格,调整的资源规格以DU(DTS Unit)数体现。在DU数调整后的60秒,系统会检测当前资源规格是否满足负载需求。
在数据传输量波动较大的场景下,普通实例和Serverless实例资源使用和规格变化情况如下图所示:
由上图可以看到,在业务波动较大的场景下:
- 普通实例:在波谷期浪费的资源较多,在高峰期资源不足,业务受损。
- Serverless实例:实例的资源规格随负载需求动态调整,在波谷期和高峰期都能完全满足业务需求,保证业务不受损。
- 上一篇:MySql中查询JSON结构数据
- 下一篇:MySQL常用基础用法集锦,都在这里了
相关推荐
- usb2.0和3.0的区别
-
提到USB,就不得不提到他——AjayBhatt。那时计算机完全依赖串口和并口连接外设,像鼠标、打印机、手柄之类,速度很慢、驱动复杂,更不用说同时工作。为了解决这些问题,Bhatt提出了“通用串行总...
- 超级全的宝马模块缩写、常用缩写、中英对照,值得收藏
-
AAustauschbar可替换通过零件号码下一行ABAirbag安全气囊ABEAllgemeineBetriebserlaubnis普通操作许可证ABSAnti-Blockie...
- Ubuntu下显卡驱动安装
-
导读本文将介绍如何在...
- 智嵌物联USB-CAN调试器使用方法介绍
-
技术人员在开发调试CAN总线时,往往需要分析CAN报文数据,这时就需要一个PC机上的CAN调试器了。智嵌物联ZQWL研发的CAN调试器使用方便,稳定可靠,性价比高。单路CAN调试器有ZQWL-UCAN...
- 三菱编程软件GX WORKS2的安装和调试
-
从三菱官网下载的GXWORKS2经解压后有4个文件夹(Disk1-4),如果只需要编程的话我们只安装Disk1。打开文件夹,双击setup.exe文件,按提示逐步完成安装,过程中会提示输入用户名、公...
- 揭秘|U盘用完之后到底能不能直接拔掉?看完这篇文章你就明白啦
-
现在U盘已经成为我们生活学习中必不可少的一部分了,不管你是什么职业,可能是学生、老师、医生、记者等等。只要你的工作和电脑打交道,你肯定就要有一个U盘,U盘以他的便携性和方便在可移动磁盘中脱颖而出。但是...
- MAIWO存储学堂:USB接口全家族详解!
-
USB接口,可以说是人们最熟悉的接口,几乎无处不在。USB接口自从1996年推出后,已成功替代串口和并口,成为二十一世纪个人电脑和大量智能设备的必配接口之一。那么,USB接口究竟是何来头?USB(Un...
- (干货)两款USB芯片CH340与CH341常见问题解答
-
芯片供电注意事项CH340/CH341等USB芯片都支持5V和3.3V电源电压,5V供电时芯片V3引脚需要接一个104电容到地,3.3V供电时需要注意以下几点:★与US...
- SSD并不可怕 设置不当掉速毁盘才可怕
-
SSD固态硬盘如今成为装机配置中的必选产品,动辄500-600MB/秒的读写速度,可能因为主板、SSD设置不对,SSD的性能没有真正发挥出来。硬盘掉速问题最早来源于机械硬盘,性能多达5倍于机械硬盘的S...
- GEEK范:30块钱给机箱加个小屏幕
-
作者:casatift这篇文章主要是受到Mr_Smiles的《大龄男青年的小玩具,篇一:VFD屏》的启发,在加了2个星期班以后实在没有心情再干活,就用桌上的小玩意拼了个类似的小屏幕。当然,原件受限,...
- 优盘有时提示无法识别,是什么原因造成的?了解优盘原理轻松搞定
-
前言无法识别的USB设备?这个故障通常会是USB接口供电不足的原因,或者接触不良引起;也有的是系统或者优盘本身的原因;老修的解决经验,通常换一个USB接口就能解决了,大多是主机的前置供电不足或USB不...
- NUC980 移植移远EC20驱动(GobiUSBNet)
-
移植过程中,参考的是移远官方的参考手册《Quectel_WCDMA<E_Linux_USB_Driver_User_Guide_V1.8》等。1、添加USB设备信息先在Linux内核中添加EC...
- 科普:USB有A口和C口,那有没有B口?
-
前言在多媒体电脑问世时,外接式设备(例如键盘鼠标等)的传输规范各不相同;如打印机只能接LPT、调制解调器只能接RS232、鼠标键盘只能接PS/2等;并且繁杂的系统、必须安装的驱动程序以及重新开机才允许...
- 帝特usb转串口驱动——电脑驱动程序锐减
-
帝特usb转串口驱动是帝特为旗下US串口线产品打造的驱动程序,通过安装驱动便能够使用其USB转串口的产品。在此驱动程序中包含了旗下所有系列产品的驱动,并且包含了Windows、MAC、Linux等平台...
- 【驱动】串口驱动分析(三)-serial driver
-
简介前两节我们介绍串口驱动的框架和ttycore部分。这节我们介绍和硬件紧密相关的串口驱动部分。...
- 一周热门
-
-
一文读懂关于MySQL Datetime字段允许插入0000-00-00无效日期
-
IDC机房服务器托管可提供的服务
-
新版腾讯QQ更新Windows 9.9.7、Mac 6.9.25、Linux 3.2.5版本
-
Serv-u 提权
-
一文看懂mysql时间函数now()、current_timestamp() 和sysdate()
-
详解PostgreSQL 如何获取当前日期时间
-
一款全能的看图软件,速度快、功能强、免费用
-
PhotoShop通道
-
Boston Dynamics Founder to Attend the 2024 T-EDGE Conference
-
MySQL数据库关于表的一系列操作 mysql 表操作
-
- 最近发表
- 标签列表
-
- huaweiupdateextractor (27)
- thinkphp6下载 (25)
- mysql 时间索引 (31)
- mydisktest_v298 (34)
- sql 日期比较 (26)
- document.appendchild (35)
- 头像打包下载 (61)
- acmecadconverter_8.52绿色版 (39)
- oracle timestamp比较大小 (28)
- word文档批量处理大师破解版 (36)
- server2016安装密钥 (33)
- mysql 昨天的日期 (37)
- 加密与解密第四版pdf (30)
- jemeter官网 (31)
- parsevideo (33)
- 个人网站源码 (37)
- ckeditor4中文文档 (27)
- exe4j_java_home (30)
- centos7.4下载 (33)
- xlsx.full.min.js下载 (32)
- 深度学习 pdf (28)
- mysql 查询今天的数据 (34)
- intouch2014r2sp1永久授权 (36)
- 先锋影音源资2019 (35)
- usb2.0-serial驱动下载 (30)