Flink自定义TableSource/TableSink Job

时隔两年再次发一篇Blog,记录一下这个Flink测试过程中遇到各种问题,一个简单的Job竟然耗费了6个小时才完成。Job要求如下: 自定义 TableSource,从标准输入中按行读取数据,每行按逗号分隔字段。表的 schema 为 (id int, name string, age int) 自定义 TableSink,将 Table 数据写到标准输

异常解决:org.apache.avro.AvroRuntimeException: Malformed data. Length is negative: -40

标题中这个错误是在apache nifi中使用avro序列化后结果发送到kafka中,然后从kafka中反序列化数据时出现的异常错误。通过各种调试,发现是由于Avro序列化后把schema信息也包含在datafile中,因此需要在发送数据之前将schema去掉,在Nifi中可以利用SplitAvro Processor将with schema选项置为fa

Oracle GoldenGate配置过程中的一点问题总结

Oracle GoldenGate(简称OGG) 是一个实现异构 IT 环境间数据实时数据集成和复制的综合软件包。目前我的使用场景是将现有的系统数据库中的实时数据(主要是Insert数据)发送到的Kafka中,来实现即时数据比对。当然OGG还支持除Oracle之外的其他主流数据库,同时OGG For Big Data组件也支持实时数据发布到除Kafka之

[问题解决]Stderr: u’/usr/bin/cinder-rootwrap: Executable not found: tgtadm (filter match = tgtadm)\n’

近期又开始折腾Openstack,按照官网安装完成最小测试集群后。开始使用后,使用cinder创建卷成功以后,无法将卷挂载到实例上。查看错误日志,出现提示如下:Stderr: u’/usr/bin/cinder-rootwrap: Executable not found: tgtadm (filter match = tgtadm)\n’ 安装环境 C

“DNS反向解析“导致的网络服务连接慢

近期在项目过程中出现了Linux下很多服务远程连接慢的问题,连接延迟的时间在10秒左右,主要体现在SSH,MySQL,Zookeeper,Jetty等服务连接慢,一旦连接成功后,其他操作不受影响。 解决过程 我通过对网络链路,交换机配置,操作系统网络配置等方面进行查看,均没有发现异常问题,SCP跨主机传输文件,主要是在链接时耗时长,而一旦SSH链接建立之

Solr跨Collection查询

在使用Solr过程中,有时候为了对数据进行分别管理,我们要创建多个collection以及多个shard来管理索引数据。但是问题随之而来,如何跨collection查询数据?在发现Collection API中的CREATEALIAS之前,我们想过采用程序自己去实现分布式查询路由。最近看Solr官方文档过程中,发现采用CREATEALIAS可以对多个co

神器!!!Wayback Machine网页时光机-Ps:我丢失的博客日志终于可以看到了

14年的大概9月份,正是来到这个人生地不熟的地方出差的日子里,就在那段时间原来博客所在的VPS遭遇灭顶之灾。所有数据全部丢失。其他网站都有备份恢复,偏偏博客没有备份用于恢复。只好重新开始于2014年的程序员节,也就是现在这个博客。 近期,扒拉出过去三年的四五块硬盘、移动硬盘,还有各种网盘,总想找出过去博客的备份来恢复一下,持续了近一个月时间,一直成为心病