查看建表语句
1
| SHOW CREATE TABLE my_table
|
关闭动态分区
1 2 3
| ALTER TABLE my_table SET ( "dynamic_partition.enable" = "false" );
|
1 2 3
| ALTER TABLE my_table SET ( "dynamic_partition.enable" = "true" );
|
删除分区
1
| ALTER TABLE my_table DROP PARTITION p202309;
|
添加分区(顺便设置副本数)
1
| ALTER TABLE my_table ADD PARTITION p1 VALUES LESS THAN ("2015-01-01") ("replication_num"="1");
|
查看分区
1
| SHOW [TEMPORARY] PARTITIONS FROM [db_name.]table_name [WHERE] [ORDER BY] [LIMIT];
|
删除分区内的数据
1
| TRUNCATE TABLE my_table PARTITION(part01);
|
调整分区的副本数
1
| ALTER TABLE example_db.my_table MODIFY PARTITION p1 SET("replication_num"="1");
|
查看分片的副本信息
1
| SHOW TABLETS from my_table;
|
查看分片的副本状态
1
| ADMIN DIAGNOSE TABLET your_tablet_id;
|
查看分片里的副本具体信息
1 2 3 4 5 6 7 8
| SHOW TABLET tabletid
## 该语句返回结果中,找到`detailCmd`字段 如下 ↓
SHOW PROC '/dbs/10003/1790279/partitions/1790278/4404968/4405353';
## 该语句返回字段中,有url链接,可以查看详细的分片信息 ## 该分片返回多少条,就代表有多少副本
|
查看副本修复的进度
1
| SHOW PROC '/cluster_balance';
|
查看集群的副本状态
1 2 3 4
| SHOW PROC '/cluster_health/tablet_health';
SHOW PROC '/cluster_health/tablet_health/13402'; ## 其中 13402 是副本的id
|
查看表里面指定分区的副本状态
1 2 3
| ADMIN SHOW REPLICA STATUS FROM tbl1 PARTITION (p1, p2) WHERE STATUS = "OK";
## 其中可以关注isBad那一字段,可以看到副本的状态
|
查看副本的集群分布
1
| ADMIN SHOW REPLICA DISTRIBUTION FROM tbl1;
|
查看等待被调度的任务
1
| SHOW PROC '/cluster_balance/pending_tablets';
|
修复副本的思路
总体来讲,当我们需要将集群快速恢复到正常状态时,可以考虑按照以下思路处理:
1.找到导致高优任务报错的tablet,将有问题的副本置为bad。
2.通过admin repair语句高优修复某些表。
3.停止副本均衡逻辑以避免占用集群资源,等集群恢复后,再开启即可。
4.使用更保守的策略触发修复任务,以应对BE频繁宕机导致的雪崩效应。
5.按需关闭colocation表的调度任务,集中集群资源修复其他他高优数据。
设置副本的状态为 bad
1 2
| ADMIN SET REPLICA STATUS PROPERTIES("tablet_id" = "4405353", "backend_id" = "10010", "status" = "bad"); ## 分片的id,be的id 需要在上面的语句执行结果中进行查找
|
- 设置为bad之后,Doris会自动进行修复
- 使用下面的语句可以查看Doris的修复进度
1
| SHOW PROC '/cluster_balance';
|
- 修复完成后,可以使用下面的语句查看集群整体的副本的健康情况
1
| SHOW PROC '/cluster_health/tablet_health';
|
1
| ADMIN REPAIR TABLE tbl [PARTITION (p1, p2, ...)];
|
1
| ADMIN CANCEL REPAIR TABLE tbl [PARTITION (p1, p2, ...)];
|
尝试从回收站中修复tablet
http 请求方式
BE 中提供单个 tablet 数据恢复的 http 接口,接口如下:
1
| curl -X POST "http://be_host:be_webserver_port/api/restore_tablet?tablet_id=11111\&schema_hash=12345"
|
成功的结果如下:
1
| {"status": "Success", "msg": "OK"}
|
失败的话,会返回相应的失败原因,一种可能的结果如下:
1
| {"status": "Failed", "msg": "create link path failed"}
|
脚本方式
<font style="color:rgb(76, 87, 108);background-color:rgb(237, 242, 250);">restore_tablet_tool.sh</font>
可用来实现单 tablet 数据恢复的功能。
1 2
| sh tools/restore_tablet_tool.sh -b "http://127.0.0.1:8040" -t 12345 -s 11111 sh tools/restore_tablet_tool.sh --backend "http://127.0.0.1:8040" --tablet_id 12345 --schema_hash 11111
|
修复缺失或损坏的 Tablet
查看 Master FE 日志 <font style="color:rgb(76, 87, 108);background-color:rgb(237, 242, 250);">fe.log</font>
如果出现数据丢失的情况,则日志中会有类似如下日志:
1
| backend [10001] invalid situation. tablet[20000] has few replica[1], replica num setting is [3]
|
这个日志表示,Tablet 20000 的所有副本已损坏或丢失。
使用空白副本填补缺失副本
当确认数据已经无法恢复后,可以通过执行以下命令,生成空白副本。
1
| ADMIN SET FRONTEND CONFIG ("recover_with_empty_tablet" = "true");
|
- <font style="color:rgb(42, 47, 52);">注:可以先通过</font><font style="color:rgb(42, 47, 52);"> </font>`<font style="color:rgb(76, 87, 108);background-color:rgb(237, 242, 250);">SHOW FRONTEND CONFIG;</font>`<font style="color:rgb(42, 47, 52);"> </font><font style="color:rgb(42, 47, 52);">命令查看当前版本是否支持该参数。</font>
设置完成几分钟后,应该会在 Master FE 日志 <font style="color:rgb(76, 87, 108);background-color:rgb(237, 242, 250);">fe.log</font>
中看到如下日志:
1
| tablet 20000 has only one replica 20001 on backend 10001 and it is lost. create an empty replica to recover it.
|
该日志表示系统已经创建了一个空白 Tablet 用于填补缺失副本。
通过查询来判断是否已经修复成功。
全部修复成功后,通过以下命令关闭 <font style="color:rgb(76, 87, 108);background-color:rgb(237, 242, 250);">recover_with_empty_tablet</font>
参数:
1
| ADMIN SET FRONTEND CONFIG ("recover_with_empty_tablet" = "false");
|
如果使用以上方法进行副本修复,还未成功,或者是Mater FE 显示报错日志则需要进行删除数据,重新写入数据
原因为该分区里面只有一个副本,无法将该副本重新填充覆盖
publish version failed for transaction TransactionState. transaction id: 67607743, label: yfzaFUlqpNhvdrY76Dq-4000, db id: 10003, table id list: 1790279, callback id: -1, coordinator: BE: xxx.xxx.xxx.xxx, transaction status: COMMITTED, error replicas num: 0, replica ids: , prepare time: 1729052940470, commit time: 1729052947271, finish time: -1, reason: on tablet tabletId=4405353, with only 0 replicas less than quorum 1