Apache NiFi大数据处理和分发系统

此文档源于在2018年2月做Apache NiFi大数据处理和分发系统培训整理的文档。培训版本基于Nifi1.5,同时附有Nifi安装配置和常用Processor使用的PDF文档。 nifi配置及操作 常见的组件使用 1.NiFi功能概述、原理和架构 1.1 NiFi的功能概述 ​ Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发

Flink自定义TableSource/TableSink Job

时隔两年再次发一篇Blog,记录一下这个Flink测试过程中遇到各种问题,一个简单的Job竟然耗费了6个小时才完成。Job要求如下: 自定义 TableSource,从标准输入中按行读取数据,每行按逗号分隔字段。表的 schema 为 (id int, name string, age int) 自定义 TableSink,将 Table 数据写到标准输

异常解决:org.apache.avro.AvroRuntimeException: Malformed data. Length is negative: -40

标题中这个错误是在apache nifi中使用avro序列化后结果发送到kafka中,然后从kafka中反序列化数据时出现的异常错误。通过各种调试,发现是由于Avro序列化后把schema信息也包含在datafile中,因此需要在发送数据之前将schema去掉,在Nifi中可以利用SplitAvro Processor将with schema选项置为fa

Oracle GoldenGate配置过程中的一点问题总结

Oracle GoldenGate(简称OGG) 是一个实现异构 IT 环境间数据实时数据集成和复制的综合软件包。目前我的使用场景是将现有的系统数据库中的实时数据(主要是Insert数据)发送到的Kafka中,来实现即时数据比对。当然OGG还支持除Oracle之外的其他主流数据库,同时OGG For Big Data组件也支持实时数据发布到除Kafka之

[问题解决]Stderr: u’/usr/bin/cinder-rootwrap: Executable not found: tgtadm (filter match = tgtadm)\n’

近期又开始折腾Openstack,按照官网安装完成最小测试集群后。开始使用后,使用cinder创建卷成功以后,无法将卷挂载到实例上。查看错误日志,出现提示如下:Stderr: u’/usr/bin/cinder-rootwrap: Executable not found: tgtadm (filter match = tgtadm)\n’ 安装环境 C

“DNS反向解析“导致的网络服务连接慢

近期在项目过程中出现了Linux下很多服务远程连接慢的问题,连接延迟的时间在10秒左右,主要体现在SSH,MySQL,Zookeeper,Jetty等服务连接慢,一旦连接成功后,其他操作不受影响。 解决过程 我通过对网络链路,交换机配置,操作系统网络配置等方面进行查看,均没有发现异常问题,SCP跨主机传输文件,主要是在链接时耗时长,而一旦SSH链接建立之

Solr跨Collection查询

在使用Solr过程中,有时候为了对数据进行分别管理,我们要创建多个collection以及多个shard来管理索引数据。但是问题随之而来,如何跨collection查询数据?在发现Collection API中的CREATEALIAS之前,我们想过采用程序自己去实现分布式查询路由。最近看Solr官方文档过程中,发现采用CREATEALIAS可以对多个co