读取邮件的协议是什么,python读取pdf

最近由于工作需要，对参会的代表发给我的姓名、电话、公司、行程车次等信息进行统计处理形成联系单，我的思路是：可以Python利用POP协议自动收取邮件，Numpy+Pandas对发来的数据进行处理并导出至Excel / MySQL数据库。

收取邮件就是编写一个MUA作为客户端，从MDA把邮件获取到用户的电脑或者手机上。收取邮件最常用的协议是POP协议，目前版本号是3，俗称POP3。

POP3协议收取的不是一个已经可以阅读的邮件本身，而是邮件的原始文本，这和SMTP协议很像，SMTP发送的也是经过编码后的一大段文本。

要把POP3收取的文本变成可以阅读的邮件，还需要用email模块提供的各种类来解析原始文本，变成可阅读的邮件对象。
所以，用Python的poplib模块收取邮件分两步：第一步是用POP3协议把邮件获取到本地，第二步是用email模块把原始邮件解析为Message对象，然后，用适当的形式把邮件内容展示给用户。

收取邮件
import poplib
import email
import sys
from email.parser import Parser
from email.header import decode_header
from email.utils import parseaddr

def decode_str(s):
value, charset = decode_header(s)[0]
if charset:
value = value.decode(charset)
return value

def guess_charset(msg):
# 先从msg对象获取编码:
charset = msg.get_charset()
if charset is None:
# 如果获取不到，再从Content-Type字段获取:
content_type = msg.get('Content-Type', '').lower()
pos = content_type.find('charset=')
if pos >= 0:
charset = content_type[pos + 8:].strip()
return charset

def get_email_headers(msg):
# 邮件的From, To, Subject存在于根对象上:
headers = {}
for header in ['From', 'To', 'Subject', 'Date']:
value = msg.get(header, '')
if value:
if header == 'Date':
headers['date'] = value
if header == 'Subject':
# 需要解码Subject字符串:
subject = decode_str(value)
headers['subject'] = subject
else:
# 需要解码Email地址:
hdr, addr = parseaddr(value)
name = decode_str(hdr)
value = u'%s <%s>' % (name, addr)
if header == 'From':
from_address = value
headers['from'] = from_address
else:
to_address = value
headers['to'] = to_address
content_type = msg.get_content_type()
print 'head content_type: ', content_type
return headers

# indent用于缩进显示:
def get_email_cntent(message, base_save_path):
j = 0
content = ''
attachment_files = []
for part in message.walk():
j = j + 1
file_name = part.get_filename()
contentType = part.get_content_type()
# 保存附件
if file_name: # Attachment
# Decode filename
h = email.Header.Header(file_name)
dh = email.Header.decode_header(h)
filename = dh[0][0]
if dh[0][1]: # 如果包含编码的格式，则按照该格式解码
filename = unicode(filename, dh[0][1])
filename = filename.encode("utf-8")
data = part.get_payload(decode=True)
att_file = open(base_save_path + filename, 'wb')
attachment_files.append(filename)
att_file.write(data)
att_file.close()
elif contentType == 'text/plain' or contentType == 'text/html':
# 保存正文
data = part.get_payload(decode=True)
charset = guess_charset(part)
if charset:
charset = charset.strip().split(';')[0]
print 'charset:', charset
data = data.decode(charset)
content = data
return content, attachment_files

if __name__ == '__main__':
# 输入邮件地址, 口令和POP3服务器地址:
emailaddress = '邮箱地址'
# 注意使用开通POP，SMTP等的授权码
password = '密码'
pop3_server = 'pop.163.com'

# 连接到POP3服务器:
server = poplib.POP3(pop3_server)
# 可以打开或关闭调试信息:
# server.set_debuglevel(1)
# POP3服务器的欢迎文字:
print server.getwelcome()
# 身份认证:
server.user(emailaddress)
server.pass_(password)
# stat()返回邮件数量和占用空间:
messagesCount, messagesSize = server.stat()
print 'messagesCount:', messagesCount
print 'messagesSize:', messagesSize
'''
# list()返回所有邮件的编号:
resp, mails, octets = server.list()
print '------ resp ------'
print resp # +OK 46 964346 响应的状态邮件数量邮件占用的空间大小
print '------ mails ------'
print mails # 所有邮件的编号及大小的编号list，['1 2211', '2 29908', ...]
print '------ octets ------'
print octets
# 获取最新一封邮件, 注意索引号从1开始:
length = len(mails)
for i in range(length):
resp, lines, octets = server.retr(i + 1)
'''

# 获取最新一封邮件, 注意索引号从1开始:
#length = len(mails)
#for i in range(length):
for i in range(messagesCount, -1, -1):
resp, lines, octets = server.retr(i)
#resp, lines, octets = server.retr(messagesCount)
# lines存储了邮件的原始文本的每一行,
# 可以获得整个邮件的原始文本:
msg_content = 'n'.join(lines)
# 把邮件内容解析为Message对象：
msg = Parser().parsestr(msg_content)

# 但是这个Message对象本身可能是一个MIMEMultipart对象，即包含嵌套的其他MIMEBase对象，
# 嵌套可能还不止一层。所以我们要递归地打印出Message对象的层次结构：
print '---------- 解析之后 ----------'
base_save_path = '/etc/cron.d/'
msg_headers = get_email_headers(msg)
#print 'subject:', msg_headers['subject']
#print 'from_address:', msg_headers['from']
#print 'to_address:', msg_headers['to']
#print 'date:', msg_headers['date']
print 'argv[i]', sys.argv[1]
if msg_headers['subject'] == sys.argv[1] :
content, attachment_files = get_email_cntent(msg, base_save_path)
break
#print 'content:', content
#print 'attachment_files: ', attachment_files
#delete

# server.dele(1)
# 关闭连接:
server.quit()