数据迁移一致性测试探索与实践

news/2024/6/17 14:00:22 标签: sql

背景

量级庞大的日志通过mysql不足以支撑业务需求,以前通过任务调度定时跑批从mysql同步到hive存储,这种方式时效性为T+1,也就是说今天的日志,明天才能同步到hive,总而言之时效性不高。为了提高时效性,改为流式计算flink实时同步

  • 那么作为测试人员,我们如何保证切换同步方式后的数据正确性呢?通过对比新旧表数据是否一致显然是最简单的方法
  • 这次改动涉及600多张表,每一张表的字段数基本在千以上,甚至部分表字段数达万以上,面对如此庞大的数据量,通过人眼一个个去对比显然不太现实

探索与实践

sql_9">方案一:sql脚本
sql">SELECT column_names, COUNT(*) AS count_diff 
FROM (
	SELECT CONCAT_WS(',',A,B) FROM udc_test.s000 WHERE dt='20230814'
	UNION ALL 
	SELECT CONCAT_WS(',',A,B) FROM test.s000 WHERE dt = '20230814' and rule_log_id in (select rule_log_id from udc_test.s000) 
) AS combined
GROUP BY column_names
HAVING COUNT(column_names) = 1

select * from (
	select 'table1',A,B from udc_test.s000 WHERE dt='20230814' and rule_log_id in ('123456')
	union all 
	select 'table2',A,B from test.s000 WHERE dt='20230814' and rule_log_id in ('123456')
)a order by a.table1 asc
方案二:python脚本
from pyhive import hive
from datetime import datetime

if __name__ == '__main__':
    #换成生产的连接
    conn = hive.Connection(host="xxx", port='xxx', auth="xxx", database='xxx', username='xxx',password='xxx')

    #这里换成需要比较的表名
    tableName1 = 'test.ssc_python_compare_fields1'
    tableName2 = 'test.ssc_python_compare_fields2'

    current_time = datetime.now()
    hash_code = str(hash(current_time))
    # 获取表结构
    query1 = 'desc ' + tableName1
    query2 = 'desc ' + tableName2
    cursor = conn.cursor()
    cursor.execute(query1)
    columns1 = [row[0] for row in cursor.fetchall()]
    cursor.execute(query2)
    columns2 = [row[0] for row in cursor.fetchall()]

    # 去除掉不需要比较的字段
    columns1.remove('# Partition Information')
    columns1.remove('# col_name')
    columns1.remove('dt')

    columns2.remove('# Partition Information')
    columns2.remove('# col_name')
    columns2.remove('dt')

    set1 = set(columns1)
    set2 = set(columns2)
    # 取出来表1特有的字段,可以保存到文件
    diffrence1 = set1 - set2
    print(diffrence1)
    # 取出来表2特有的字段,可以保存到文件
    diffrence2 = set2 - set1
    print(diffrence2)

    # 取表1和表2共有的字段,用于比较差异
    intersection = set1 & set2

    # 生成比较的sql
    sql = 'select  '
    for element in intersection:
        sql = sql + 'if( nvl(t1.' + element + ',' + hash_code + ' )!= nvl( t2.' + element + ',' + hash_code + ') , \'no\',\'yes\') as ' + element + ' , '
    #print(sql)
    sql = sql[:-2]
    #print(sql)
    #sql中的dt可以改成具体需要比较的日期
    sql = sql + ' from ' + tableName1 + ' as t1 left join  ' + tableName2 \
          + ' as t2  on  t1.rule_log_id=t2.rule_log_id ' \
            ' and t1.dt= \'20230815\' and t2.dt = \'20230815\'  and t1.apply_type=t2.apply_type   where  '
    for element in intersection:
        sql = sql + ' t1.' + element + '!=t2.' + element + ' or '

    sql = sql[:-3]
    print(sql)

    sql = sql + ' limit 1 '

    # 执行sql,获取到结果,如果两列不相等的话,值为no,相等的话值为yes
    cursor.execute(sql)
    result = cursor.fetchone()
    # print(result)

    # 获取上述sql的元数据信息
    metadatas = cursor.description
    print('============================================================')
    # 遍历结果集,查找出比较结果不相同的数据,拿到列名
    index = 0
    while index < len(metadatas):
        if (result[index] != 'yes'):
            print(metadatas[index][0])
        index += 1
    print('============================================================')


http://www.niftyadmin.cn/n/5108230.html

相关文章

CUDA编程- __syncthreads()函数

基本概念 __syncthreads() 是CUDA编程中非常关键的一个同步原语。它的功能是确保在某个线程块中的所有线程在执行到这个函数之前都已完成它们之前的所有指令。一旦所有线程都到达这个同步点&#xff0c;它们才可以继续执行__syncthreads()之后的指令。这个函数只能在设备代码&…

电脑删除的视频怎么恢复?可尝试着3钟恢复办法!

无论是为了工作还是生活&#xff0c;我们都有可能在电脑上保存重要的视频&#xff0c;如宣传视频、回忆录视频等。这些视频通常包含了制作者的心血&#xff0c;要是被我们误删除了&#xff0c;很难重新拍摄&#xff0c;那么电脑删除的视频怎么恢复&#xff1f; 能。通常&#…

X32位汇编和X64位区别无参函数分析(一)

前言 一、X32汇编函数无参无返回分析 二、X64汇编函数无参无返回分析 总结 前言 提示&#xff1a;以下是个人学习总结&#xff1a;如有错误请大神指出来&#xff0c;只供学习参考&#xff0c;本内容使用使用VS2017开发工具&#xff1a;语言是C&#xff0c;需要一些常见的汇编指…

JavaSE入门---认识类和对象

文章目录 什么是面向对象&#xff1f;认识类类的定义格式类的实例化 理解this引用对象的构造及初始化什么是构造方法&#xff1f;如何进行初始化&#xff1f;默认初始化就地初始化 认识staticstatic修饰成员变量static修饰成员方法 认识代码块普通代码块构造代码块静态代码块同…

大数据之LibrA数据库系统概览

实时监控 “实时监控”页面如图1所示&#xff0c;用户可单击刷新按钮手动刷新当前页面&#xff0c;也可在点刷新按钮前选择自动刷新时长&#xff0c;刷新时长包括&#xff1a;每30秒刷新一次、每60秒刷新一次、停止刷新。 实时监控数据&#xff08;监控时间轴产生的新曲线&am…

用python的zerorpc写一个验证码的rpc服务

一、目的 最近在研究分布式系统&#xff0c;将部分服务拆分出去&#xff0c;只会python&#xff0c;所以用python的zerorpc写服务二、代码 1.查找字体的函数 想指定pillow生成图片的文字大小&#xff0c;就要一起指定文字的字体&#xff0c;默认只搜索系统的字体&#xff0c…

搞一个生成modbus报文的CRC校验码的可视化工具

用python搞个可视化界面&#xff1a; # -*- coding: utf-8 -*- import sys from PyQt5.QtWidgets import QApplication, QMainWindow, QLabel, QLineEdit, QPushButton, QMessageBox# 生成 Modbus 格式的 CRC 校验码 def crc16_modbus(data):crc 0xFFFFfor byte in data:crc …

TSINGSEE风电场可视化智能视频集控监管系统,助力风电场无人值守监管新模式

一、方案背景 风能作为一种清洁的可再生能源&#xff0c;对于我国实现“双碳”目标尤为重要。风电场一般地处偏远地区&#xff0c;占地广、面积大&#xff0c;并且风机分布区域广泛、现场运行设备巡视难度大、及时性差。原有的监管系统智能化水平低&#xff0c;满足不了日常的…