此文档源于在2018年2月做Apache NiFi大数据处理和分发系统培训整理的文档。培训版本基于Nifi1.5,同时附有Nifi安装配置和常用Processor使用的PDF文档。 nifi配置及操作 常见的组件使用 1.NiFi功能概述、原理和架构 1.1 NiFi的功能概述 Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发
如何解决 IDEA 2020.2 reading pom.xml 卡死
新购买的笔记本安装IDEA2020.2以后导入工程会卡死在reading…pom.xml的过程,此时如果操作setting或者其他配置都无法操作,无法退出,只能通过任务管理器杀死进程。 问题发现 参考了很多文章比如删除.mvn文件夹,或者在 C:\Users{你的用户名}.m2\wrapper\dists\apache-maven-
Flink自定义TableSource/TableSink Job
时隔两年再次发一篇Blog,记录一下这个Flink测试过程中遇到各种问题,一个简单的Job竟然耗费了6个小时才完成。Job要求如下: 自定义 TableSource,从标准输入中按行读取数据,每行按逗号分隔字段。表的 schema 为 (id int, name string, age int) 自定义 TableSink,将 Table 数据写到标准输
异常解决:org.apache.avro.AvroRuntimeException: Malformed data. Length is negative: -40
标题中这个错误是在apache nifi中使用avro序列化后结果发送到kafka中,然后从kafka中反序列化数据时出现的异常错误。通过各种调试,发现是由于Avro序列化后把schema信息也包含在datafile中,因此需要在发送数据之前将schema去掉,在Nifi中可以利用SplitAvro Processor将with schema选项置为fa
Oracle GoldenGate配置过程中的一点问题总结
Oracle GoldenGate(简称OGG) 是一个实现异构 IT 环境间数据实时数据集成和复制的综合软件包。目前我的使用场景是将现有的系统数据库中的实时数据(主要是Insert数据)发送到的Kafka中,来实现即时数据比对。当然OGG还支持除Oracle之外的其他主流数据库,同时OGG For Big Data组件也支持实时数据发布到除Kafka之
[问题解决]Stderr: u’/usr/bin/cinder-rootwrap: Executable not found: tgtadm (filter match = tgtadm)\n’
近期又开始折腾Openstack,按照官网安装完成最小测试集群后。开始使用后,使用cinder创建卷成功以后,无法将卷挂载到实例上。查看错误日志,出现提示如下:Stderr: u’/usr/bin/cinder-rootwrap: Executable not found: tgtadm (filter match = tgtadm)\n’ 安装环境 C
“DNS反向解析“导致的网络服务连接慢
近期在项目过程中出现了Linux下很多服务远程连接慢的问题,连接延迟的时间在10秒左右,主要体现在SSH,MySQL,Zookeeper,Jetty等服务连接慢,一旦连接成功后,其他操作不受影响。 解决过程 我通过对网络链路,交换机配置,操作系统网络配置等方面进行查看,均没有发现异常问题,SCP跨主机传输文件,主要是在链接时耗时长,而一旦SSH链接建立之
Java NIO的transferTo/transferFrom与read/write方式文件网络数据传输测试对比
测试环境 两台RedHat6.5 64位虚拟机 JDK版本:1.7.0_21 测试文件大小:212MB NIO发送测试 1.服务端代码 public static void main(String[] args) { if(args.length != 1){ System.out.println(“Usage : java -jar ServerTcp
Solr跨Collection查询
在使用Solr过程中,有时候为了对数据进行分别管理,我们要创建多个collection以及多个shard来管理索引数据。但是问题随之而来,如何跨collection查询数据?在发现Collection API中的CREATEALIAS之前,我们想过采用程序自己去实现分布式查询路由。最近看Solr官方文档过程中,发现采用CREATEALIAS可以对多个co
神器!!!Wayback Machine网页时光机-Ps:我丢失的博客日志终于可以看到了
14年的大概9月份,正是来到这个人生地不熟的地方出差的日子里,就在那段时间原来博客所在的VPS遭遇灭顶之灾。所有数据全部丢失。其他网站都有备份恢复,偏偏博客没有备份用于恢复。只好重新开始于2014年的程序员节,也就是现在这个博客。 近期,扒拉出过去三年的四五块硬盘、移动硬盘,还有各种网盘,总想找出过去博客的备份来恢复一下,持续了近一个月时间,一直成为心病