python爬取hbase信息,python读取hbase

本文目录一览：

for key, data in graph_table.scan(filter="SingleColumnValueFilter('cf', 'id', q", 1000)): print key, data 这个语句是查询id

下载mysql.connector库然后把爬虫爬到的数据通过mysql里面的insert语句查到数据库，当然也可以建表，一般我没用python建表是先建好再写数据的 import mysql.connectorconn

#导入thrift和habse包

from thrift import Thrift

from thrift.transport import TSocket

from thrift.transport import TTransport

from thrift.protocol import TBinaryProtocol

from hbase import Hbase

from hbase.ttypes import *

#此处可以修改地址和端口

host = '192.168.1.1'

#默认端口为9090

port = 9090

#要查询的表名

table = 'table_name'

#定义一个过滤器，此为关键步骤

filter = "RowFilter(=,'regexstring:.3333.')" #此行原创：）

# Make socket

transport = TSocket.TSocket(host, port)

# Buffering is critical. Raw sockets are very slow

# 还可以用TFramedTransport,也是高效传输方式

transport = TTransport.TBufferedTransport(transport)

# Wrap in a protocol

#传输协议和传输过程是分离的，可以支持多协议

protocol = TBinaryProtocol.TBinaryProtocol(transport)

#客户端代表一个用户

client = Hbase.Client(protocol)

#打开连接

try:

transport.open()

scan.filterString=filter

scanner = client.scannerOpenWithScan(table, scan)

except Exception:

finally:

client.scannerClose(scan)

transport.close()

连接代码网上一搜一大堆，非原创，来源已不可考，非本人研究成果；

关键就是这个："RowFilter(=,'regexstring:.3333.')"

这个过滤器要写对，hbase有十几种内置的过滤器方法，有几种比较运算符和比较器，上面这个是正则方式，即'regexstring:.3333.'；

过滤器整个双引号里面的内容会通过thrift传给hbase服务端处理，下划线这部分正则要支持java的正则要求不然会报错

HBase-thrift项目是对HBase Thrift接口的封装，屏蔽底层的细节，使用户可以方便地通过HBase Thrift接口访问HBase集群，python通过thrift访问HBase。