大数组上的python内存错误,python内存一直增加

本文目录一览：

1、python 出现这个错误是什么原因
2、python为何会内存超限，应该怎么改？
3、python 合并上百个文件 memory error
4、Python:MemoryError
5、python读取文件存入数组，内存怎么超了，不应该呀？麻烦帮忙看看

python 出现这个错误是什么原因

要把代码发现来才知道，以下是常见的错误

下面终于要讲到当你用到更多的Python的功能（数据类型，函数，模块，类等等）时可能碰到的问题了。由于篇幅有限，这里尽量精简，尤其是对一些高级的概念。要想了解更多的细节，敬请阅读Learning Python, 2nd Edition的“小贴士”以及“Gotchas”章节。

打开文件的调用不使用模块搜索路径

当你在Python中调用open()来访问一个外部的文件时，Python不会使用模块搜索路径来定位这个目标文件。它会使用你提供的绝对路径，或者假定这个文件是在当前工作目录中。模块搜索路径仅仅为模块加载服务的。

不同的类型对应的方法也不同

列表的方法是不能用在字符串上的，反之亦然。通常情况下，方法的调用是和数据类型有关的，但是内部函数通常在很多类型上都可以使用。举个例子来说，列表的reverse方法仅仅对列表有用，但是len函数对任何具有长度的对象都适用

不能直接改变不可变数据类型

记住你没法直接的改变一个不可变的对象（例如，元组，字符串）：

T = (1, 2, 3)

T[2] = 4 # 错误

用切片，联接等构建一个新的对象，并根据需求将原来变量的值赋给它。因为Python会自动回收没有用的内存，因此这没有看起来那么浪费：

T = T[:2] + (4,) # 没问题了: T 变成了 (1, 2, 4)

使用简单的for循环而不是while或者range

当你要从左到右遍历一个有序的对象的所有元素时，用简单的for循环（例如，for x in seq:）相比于基于while-或者range-的计数循环而言会更容易写，通常运行起来也更快。除非你一定需要，尽量避免在一个for循环里使用range：让Python来替你解决标号的问题。在下面的例子中三个循环结构都没有问题，但是第一个通常来说更好；在Python里，简单至上。

S = "lumberjack"

for c in S: print c # 最简单

for i in range(len(S)): print S[i] # 太多了

i = 0 # 太多了

while i len(S): print S[i]; i += 1

不要试图从那些会改变对象的函数得到结果

诸如像方法list.append()和list.sort()一类的直接改变操作会改变一个对象，但不会将它们改变的对象返回出来（它们会返回None）；正确的做法是直接调用它们而不要将结果赋值。经常会看见初学者会写诸如此类的代码：

mylist = mylist.append(X)

目的是要得到append的结果，但是事实上这样做会将None赋值给mylist，而不是改变后的列表。更加特别的一个例子是想通过用排序后的键值来遍历一个字典里的各个元素，请看下面的例子：

D = {...}

for k in D.keys().sort(): print D[k]

差一点儿就成功了——keys方法会创建一个keys的列表，然后用sort方法来将这个列表排序——但是因为sort方法会返回None，这个循环会失败，因为它实际上是要遍历None（这可不是一个序列）。要改正这段代码，将方法的调用分离出来，放在不同的语句中，如下：

Ks = D.keys()

Ks.sort()

for k in Ks: print D[k]

只有在数字类型中才存在类型转换

在Python中，一个诸如123+3.145的表达式是可以工作的——它会自动将整数型转换为浮点型，然后用浮点运算。但是下面的代码就会出错了：

S = "42"

I = 1

X = S + I # 类型错误

这同样也是有意而为的，因为这是不明确的：究竟是将字符串转换为数字（进行相加）呢，还是将数字转换为字符串（进行联接）呢？在Python中，我们认为“明确比含糊好”（即，EIBTI（Explicit is better than implicit）），因此你得手动转换类型：

X = int(S) + I # 做加法: 43

X = S + str(I) # 字符串联接: "421"

循环的数据结构会导致循环

尽管这在实际情况中很少见，但是如果一个对象的集合包含了到它自己的引用，这被称为循环对象（cyclic object）。如果在一个对象中发现一个循环，Python会输出一个[…]，以避免在无限循环中卡住：

L = ['grail'] # 在 L中又引用L自身会

L.append(L) # 在对象中创造一个循环

['grail', [...]]

除了知道这三个点在对象中表示循环以外，这个例子也是很值得借鉴的。因为你可能无意间在你的代码中出现这样的循环的结构而导致你的代码出错。如果有必要的话，维护一个列表或者字典来表示已经访问过的对象，然后通过检查它来确认你是否碰到了循环。

赋值语句不会创建对象的副本，仅仅创建引用

这是Python的一个核心理念，有时候当行为不对时会带来错误。在下面的例子中，一个列表对象被赋给了名为L的变量，然后L又在列表M中被引用。内部改变L的话，同时也会改变M所引用的对象，因为它们俩都指向同一个对象。

L = [1, 2, 3] # 共用的列表对象

M = ['X', L, 'Y'] # 嵌入一个到L的引用

['X', [1, 2, 3], 'Y']

L[1] = 0 # 也改变了M

['X', [1, 0, 3], 'Y']

通常情况下只有在稍大一点的程序里这就显得很重要了，而且这些共用的引用通常确实是你需要的。如果不是的话，你可以明确的给他们创建一个副本来避免共用的引用；对于列表来说，你可以通过使用一个空列表的切片来创建一个顶层的副本：

L = [1, 2, 3]

M = ['X', L[:], 'Y'] # 嵌入一个L的副本

L[1] = 0 # 仅仅改变了L，但是不影响M

[1, 0, 3]

['X', [1, 2, 3], 'Y']

切片的范围起始从默认的0到被切片的序列的最大长度。如果两者都省略掉了，那么切片会抽取该序列中的所有元素，并创造一个顶层的副本（一个新的，不被公用的对象）。对于字典来说，使用字典的dict.copy()方法。

静态识别本地域的变量名

Python默认将一个函数中赋值的变量名视作是本地域的，它们存在于该函数的作用域中并且仅仅在函数运行的时候才存在。从技术上讲，Python是在编译def代码时，去静态的识别本地变量，而不是在运行时碰到赋值的时候才识别到的。如果不理解这点的话，会引起人们的误解。比如，看看下面的例子，当你在一个引用之后给一个变量赋值会怎么样：

X = 99

def func():

... print X # 这个时候还不存在

... X = 88 # 在整个def中将X视作本地变量

...

func( ) # 出错了！

你会得到一个“未定义变量名”的错误，但是其原因是很微妙的。当编译这则代码时，Python碰到给X赋值的语句时认为在这个函数中的任何地方X会被视作一个本地变量名。但是之后当真正运行这个函数时，执行print语句的时候，赋值语句还没有发生，这样Python便会报告一个“未定义变量名”的错误。

事实上，之前的这个例子想要做的事情是很模糊的：你是想要先输出那个全局的X，然后创建一个本地的X呢，还是说这是个程序的错误？如果你真的是想要输出这个全局的X，你需要将它在一个全局语句中声明它，或者通过包络模块的名字来引用它。

默认参数和可变对象

在执行def语句时，默认参数的值只被解析并保存一次，而不是每次在调用函数的时候。这通常是你想要的那样，但是因为默认值需要在每次调用时都保持同样对象，你在试图改变可变的默认值（mutable defaults）的时候可要小心了。例如，下面的函数中使用一个空的列表作为默认值，然后在之后每一次函数调用的时候改变它的值：

def saver(x=[]): # 保存一个列表对象

... x.append(1) # 并每次调用的时候

... print x # 改变它的值

...

saver([2]) # 未使用默认值

[2, 1]

saver() # 使用默认值

[1]

saver() # 每次调用都会增加！

[1, 1]

saver()

[1, 1, 1]

有的人将这个视作Python的一个特点——因为可变的默认参数在每次函数调用时保持了它们的状态，它们能提供像C语言中静态本地函数变量的类似的一些功能。但是，当你第一次碰到它时会觉得这很奇怪，并且在Python中有更加简单的办法来在不同的调用之间保存状态（比如说类）。

要摆脱这样的行为，在函数开始的地方用切片或者方法来创建默认参数的副本，或者将默认值的表达式移到函数里面；只要每次函数调用时这些值在函数里，就会每次都得到一个新的对象：

def saver(x=None):

... if x is None: x = [] # 没有传入参数？

... x.append(1) # 改变新的列表

... print x

...

saver([2]) # 没有使用默认值

[2, 1]

saver() # 这次不会变了

[1]

saver()

[1]

其他常见的编程陷阱

下面列举了其他的一些在这里没法详述的陷阱：

在顶层文件中语句的顺序是有讲究的：因为运行或者加载一个文件会从上到下运行它的语句，所以请确保将你未嵌套的函数调用或者类的调用放在函数或者类的定义之后。

reload不影响用from加载的名字：reload最好和import语句一起使用。如果你使用from语句，记得在reload之后重新运行一遍from，否则你仍然使用之前老的名字。

在多重继承中混合的顺序是有讲究的：这是因为对superclass的搜索是从左到右的，在类定义的头部，在多重superclass中如果出现重复的名字，则以最左边的类名为准。

在try语句中空的except子句可能会比你预想的捕捉到更多的错误。在try语句中空的except子句表示捕捉所有的错误，即便是真正的程序错误，和sys.exit()调用，也会被捕捉到。望采纳

python为何会内存超限，应该怎么改？

分区表错误是硬盘的严重错误，不同错误的程度会造成不同的损失。如果是没有活动分区标志，则计算机无法启动。但从软区或光区引导系统后可对硬盘读写，可通过fdisk重置活动分区进行修复。如果是某一分区类型错误，可造成某一分区的丢失。分区表的第四个字节为分区类型值，正常的可引导的大于32mb的基本DOS分区值为06，而扩展的DOS分区值是05。如果把基本DOS分区类型改为05则无法启动系统，并且不能读写其中的数据。如果把06改为DOS不识别的类型如efh，则DOS认为改分区不是 DOS分区，当然无法读写。很多人利用此类型值实现单个分区的加密技术，恢复原来的正确类型值即可使该分区恢复正常。分区表中还有其他数据用于纪录分区的起始或终止地址。这些数据的损坏将造成该分区的混乱或丢失，一般无法进行手工恢复，唯一的方法是用备份的分区表数据重新写回，或者从其他的相同类型的并且分区状况相同的硬盘上获取分区表数据，否则将导致其他的数据永久的丢失。在对主引导扇区进行操作时，可采用nu等工具软件，操作非常的方便，可直接对硬盘主引导扇区进行读写或编辑。当然也可采用de

python 合并上百个文件 memory error

通常不会遇到这个问题。python解决小问题不会有memory error

可能是使用了大对象也可能是使用了递归。没有合适规划临时或者是堆栈数据的数量。

那么有问题大部分是因为dict或者是list太大了。解决办法是使用优化过的数据结构，比如blist，或者是直接使用numpy的数组，array数据结构等等。

解决办法多。还可以使用64位版本。其实意义不大。python自己不需要管理大内存。也不需要大内存操作。

所以要用分布式架构解决问题。把问题分解成500MB以下的小问题，这样即使是32位的python也可以轻松完成。

内存管理的事情还是交给 C， C++这样的程序比较合适。2GB以下可以使用共享内存。如果超过了，比如8，16， 96gb等。可以考虑使用数据库去管理。

如果你一定要用大对象也没有关系，其实效率也是挺高的。只是算法要优化。

Python:MemoryError

要破这个东西，要先破你的算法。先别说破这个词了。

梳理你的算法，避免三重循环，避免大量使用字典的多次嵌套。

显然你的数据量巨大。还用这么耗内存，耗CPU的算法。只有算法改良了才能解决这个问题。即使给你C语编程，你都能把内存用光了。你把矩阵放在字典里，内存肯定吃不消。顺便说一下，你用的python应该是32位的。如果是64位的会好些。

在python里，大数据处理一定要减少字典使用。如果字典项超过一定值比为2万，就要小心。字典主要是用来统计用，不用来计算。建议你考虑numpy.array做。如果不想用它就用Array，如果还不想可以用blist(第三方包），最差也要用list。字典虽然查找比list快，但是它耗更多内存。

比如你这个问题，你可以先考虑两步走。不要把算法放在一起，虽然效率高，但是后期维护成本高。

第一步计算“浏览过每种物品的人数”，这个可以用字典。但是因为要做人与物品的关联，所以，应该是说错了。应该是“计算某个浏览过某个物品”。

你这里与时间没有关系。算法应该没有计算“时间”加权。

我理解你的算法应该是用户浏览”两个物品时”，则累加两个物品同时浏览次数。

并将次数除以，用户分别浏览i,j次数乘积的开根方。这本来是一个很简单的算法。你弄太复杂了。

建议你这样。你使用两个字典，分别这样

items_browsed_by_user[userid][product_id]

items_browsed_cross [userid][[product_id_i, product_id_j]]

记着在给items_browsed_cross [userid][(product_id_i, product_id_j)]赋值时。保证product_id_i product_id_j

这样你只需要一半的内存就可以存i*j矩阵。因为先浏览i, 再j和先j再i，结果是一样的。

最理想的办法是给userid编写一个编号，从0到number of users，这样直接用数组就可以存放。不需要字典。再给product_id编号用顺序号代替。这样内存占用更少。只需要一个二维数组就可以存贮数据。

如果内存还不足够，就要引入稀疏矩阵。

如果还不足够，也可以的。每次计算，只计算一行。然后存贮到硬盘上。按行按列分别计算。这在大数据环境里很容易就做到了。

python读取文件存入数组，内存怎么超了，不应该呀？麻烦帮忙看看

没有必要全部读入内存，

python中的整数都是以2个字节为单位增长的可变长整型。通常都大于“134341”这种文本数字的6个字节。每个内存中的整数都有冗余overhead的内存占用，所以不要全读成py的内存数字。

根据所需要进行的操作，读取其中一部分，比如100MB为单位处理，就可以了。

想想阿波罗登月的时候几K内存就可以处理整个导航数据了，用了3G还不够的情况一般属于误用了。