python爬虫入门封装函数,python封装成函数

本文目录一览：

1、如何入门 Python 爬虫
2、python 函数如何封装？
3、如何入门 Python 爬虫?
4、python如何封装函数
5、如何用Python封装C语言的字符串处理函数
6、怎么把下面的Python代码封装成函数

如何入门 Python 爬虫

个人觉得：

新手学习python爬取网页先用下面4个库就够了：（第4个是实在搞不定用的，当然某些特殊情况它也可能搞不定）

1. 打开网页，下载文件：urllib

2. 解析网页：BeautifulSoup，熟悉JQuery的可以用Pyquery

3. 使用Requests来提交各种类型的请求，支持重定向，cookies等。

4. 使用Selenium，模拟浏览器提交类似用户的操作，处理js动态产生的网页

这几个库有它们各自的功能。配合起来就可以完成爬取各种网页并分析的功能。具体的用法可以查他们的官网手册(上面有链接)。

做事情是要有驱动的，如果你没什么特别想抓取的，新手学习可以从这个闯关网站开始

，目前更新到第五关，闯过前四关，你应该就掌握了这些库的基本操作。

实在闯不过去，再到这里看题解吧，第四关会用到并行编程。（串行编程完成第四关会很费时间哦），第四，五关只出了题，还没发布题解。。。

学完这些基础，再去学习scrapy这个强大的爬虫框架会更顺些。这里有它的中文介绍。

这是我在知乎的回答，直接转过来有些链接没有生效，可以到这里看原版，

python 函数如何封装？

不是不可以，只是这样做没有意义，另外变量作用域的问题，会使得操作变得很复杂

如何入门 Python 爬虫?

“入门”是良好的动机，但是可能作用缓慢。如果你手里或者脑子里有一个项目，那么实践起来你会被目标驱动，而不会像学习模块一样慢慢学习。

如果你想要入门Python爬虫，你需要做很多准备。首先是熟悉python编程；其次是了解HTML；

还要了解网络爬虫的基本原理；最后是学习使用python爬虫库。

如果你不懂python，那么需要先学习python这门非常easy的语言。编程语言基础语法无非是数据类型、数据结构、运算符、逻辑结构、函数、文件IO、错误处理这些，学起来会显枯燥但并不难。

刚开始入门爬虫，你甚至不需要去学习python的类、多线程、模块之类的略难内容。找一个面向初学者的教材或者网络教程，花个十几天功夫，就能对python基础有个三四分的认识了。

网络爬虫的含义：

网络爬虫，其实也可以叫做网络数据采集更容易理解。就是通过编程向网络服务器请求数据（HTML表单），然后解析HTML，提取出自己想要的数据。

这会涉及到数据库、网络服务器、HTTP协议、HTML、数据科学、网络安全、图像处理等非常多的内容。但对于初学者而言，并不需要掌握这么多。

python如何封装函数

可以定义一个类，类里定义很多函数(主要用它做什么)或直接定义函数在一个py文件中

在另一个文件中导入这个那个py包，调用类和方法

就是封装了

如何用Python封装C语言的字符串处理函数

在C语言中，字符串处理是每天都要面对的问题。我们都知道C语言中其实并没有一种原生的字符串类型，‘字符串’在C语言里只是一种特殊的以''结尾的字符数组。因此，如何将C语言与更高层次的Python语言在‘字符串’处理这个问题上对接是一个有难度的问题。所幸有swig这种强大的工具。

如何封装一个函数，它修改参数字符串的内容

假如有这样一个C语言的函数，

!-- lang: cpp --

void FillZero(char* pc,size_t * piLen)

{

size_t i=0;

while(i++*piLen/2 )

*pc++ = '0';

*pc = 0;

*piLen = i+1;

}

这个函数的功能是把字符串变成n个0。不过我们更关注函数的形式。这样的函数，表面上看char* pc是函数的参数，可是实际上它才是函数的返回值和执行的结果。piLen这个参数既是pc的最大长度，也是新的字符串的长度。我们直接用python封装，看看运行结果。

Type "help", "copyright", "credits" or "license" for more information.

import cchar

s='123456'

cchar.FillZero(s,6)

Traceback (most recent call last):

File "stdin", line 1, in module

TypeError: in method 'FillZero', argument 2 of type 'size_t *'

结果差强人意，不是我们想要得到的结果。函数的第二个参数为size_t* 我们很难用python来表示，而且python中也不存在既是输入，也是输出的参数。

swig有一个标准库，其中有一个cstring.i文件就是用来解决C语言字符串类型的问题。

我们在.i文件中加入这样几行

!-- lang: cpp --

%include "cstring.i"

%cstring_output_withsize(char* pc,size_t* pi)

void FillZero(char* pc, size_t* pi);

然后运行看结果

Type "help", "copyright", "credits" or "license" for more information.

import cchar

cchar.FillZero(10)

'00000x00'

s=cchar.FillZero(10)

print s

00000

我们看函数的变化。首先在python里， FillZero变成了只有一个参数的函数。然后函数的返回值变成了一个字符串。其实cstring_output_size其实是一个宏，通过这个宏的定义改变了函数的形式，直接在Python中得到我们想要的结果。

其实类似cstring_output_size的宏还有好几个，我列举一下:

cstring_output_allocate(char *s,free($1));

第一个参数是指向字符串地址的指针，第二个参数为释放空间的方法。

大家考虑这一下这样的函数：

void foo(char* s)

{

s = (char*)malloc(10);

memcpy(s,"123456789",9);

}

s这个参数表面上看是输入，实际上是函数真正的输出。函数中真正改变的东西是chars指向的字符串的值。而且char这个类型,

python或者其他脚本语言里应该都没有对应的类型。那么我们用cstring_output_allocate将这个函数转换成另外一个形式的python或者其他脚本语言的函数。转换后的函数其实是这样的，以python为例str

foo()。

!-- lang: cpp --

%module a

%include "cstring.i"

void foo(char* s);

%cstring_output_allocate(char *s, free(*$1));

void foo(char *s);

在python中的调用：

!-- lang: python --

import a

a.foo()

'123456789'

cstring_output_maxsize(char *path, int maxpath);

第一个参数也是可以改变的字符串首地址，第二个参数为字符串的最大长度。在Python中调用的时候，只有maxpath这个参数，返回字符串。

cstring_output_allocate(char *s, free($1));

第一个参数为指向字符串首地址的指针，第二个参数为释放指针的方法。这个宏主要是封装一种直接在函数内部malloc空间的函数。在Python中调用时没有参数，直接返回字符串。

cstring_output_allocate_size(char *s, int slen, free(*$1));

这个相当于前面两个函数的组合。在函数内部malloc空间，然后将字符串长度通过slen返回。其实在调用的时候非常简单，没有参数，直接返回字符串。

如何处理c++的std::string

std::string是C++标准类库STL中常见的类。在平时工作中大家肯定是没少用。在python中如何封装std::string? swig提供了标准库

例如函数:

!-- lang: cpp --

string Repeat(const string s)

{

return s+s;

}

只要在swig中加入这样几行：

!-- lang: cpp --

%include "std_string.i"

using namespace std;

string Repeat(const string s);

运行结果：

Python 2.6.6 (r266:84292, Dec 27 2010, 00:02:40)

[GCC 4.4.5] on linux2

Type "help", "copyright", "credits" or "license" for more information.

import cchar

cchar.Repeat('123')

'123123'

使用起来很方便，但需要注意的是，假如函数的参数的内容是可以被修改，就不能用这种方式封装。

例如:

!-- lang: cpp --

void repeat(string s)

{

s+=s;

}

这样的函数直接使用 'std_string.i' 就是无效的。遇到这种函数，只能用C语言封装成 void repeat(chars, int maxsize), 再用swig调用 'cstring_output_withsize' 这个宏再封装一次了。

怎么把下面的Python代码封装成函数

Python：常用函数封装：

def is_chinese(uchar):

"""判断一个unicode是否是汉字"""

if uchar = u'u4e00' and uchar=u'u9fa5':

return True

else:

return False

def is_number(uchar):

"""判断一个unicode是否是数字"""

if uchar = u'u0030' and uchar=u'u0039':

return True

else:

return False

def is_alphabet(uchar):

"""判断一个unicode是否是英文字母"""

if (uchar = u'u0041' and uchar=u'u005a') or (uchar = u'u0061' and uchar=u'u007a'):

return True

else:

return False

def is_other(uchar):

"""判断是否非汉字，数字和英文字符"""

if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)):

return True

else:

return False

def B2Q(uchar):

"""半角转全角"""

inside_code=ord(uchar)

if inside_code0x0020 or inside_code0x7e: #不是半角字符就返回原来的字符

return uchar

if inside_code==0x0020: #除了空格其他的全角半角的公式为:半角=全角-0xfee0

inside_code=0x3000

else:

inside_code+=0xfee0

return unichr(inside_code)

def Q2B(uchar):

"""全角转半角"""

inside_code=ord(uchar)

if inside_code==0x3000:

inside_code=0x0020

else:

inside_code-=0xfee0

if inside_code0x0020 or inside_code0x7e: #转完之后不是半角字符返回原来的字符

return uchar

return unichr(inside_code)

def stringQ2B(ustring):

"""把字符串全角转半角"""

return "".join([Q2B(uchar) for uchar in ustring])

def uniform(ustring):

"""格式化字符串，完成全角转半角，大写转小写的工作"""

return stringQ2B(ustring).lower()

def string2List(ustring):

"""将ustring按照中文，字母，数字分开"""

retList=[]

utmp=[]

for uchar in ustring:

if is_other(uchar):

if len(utmp)==0:

continue

else:

retList.append("".join(utmp))

utmp=[]

else:

utmp.append(uchar)

if len(utmp)!=0:

retList.append("".join(utmp))

return retList