os模块 函数/变量描述os.environ包含环境变量的映射os.sep路径中使用的分隔符(如windows是\\)os.pathsep分隔不同路径的分隔符os.linesep行分隔符os.system(command)在子shell中执行操作系统命令
fileinput 模块 函数/变量描述fileinput.input([file[,inplace[,backup]]])迭代多个输入流中的行fileinput.filename()返回当前文件名称fileinput.lineno()返回累计的当前行号fileinput.filelineno()返回当前文件中的行号fileinput.isfirstline()检查当前行是否是文件第一行fileinput.nextfile()关闭当前文件并移到下一个fileinput.close()关闭
heapq(堆) 模块 函数/变量描述heapq.heappush(heap,x)将x压入堆中heapq.heappop(heap)从堆中弹出最下的元素heapq.heapify(heap)让列表具有堆的特征heapq.heapreplace(heap,x)弹出最小的元素,并将x压入堆中heapq.nlargest(n,iter)返回iter中n个最大的元素heapq.nsmallest(n,iter)返回iter中n个最小的元素
time 模块 日期元组中的字段 索引字段值0年如2000,20011月1-122日1-313时0-234分0-595秒0-616星期0-6,0是星期一7儒略日1-3668夏令时0,1,-1 函数 函数/变量描述time.asctime([tuple])将时间元组转换为字符串time.localtime([secs])将秒数转换为表示当地时间的日期元组time.mktime(tuple)将时间元组转换为当地时间time.sleep(secs)休眠secs秒time.strptime{string[,format])将字符串转换为时间元组time.time()当前时间
6. random 模块
函数/变量描述random.random()返回一个0-1的随机实数random.getrandbits(b)以长整数方式返回n个随机的二进制位random.uniform(a,b)返回一个a-b的随机实数random.randrange([start],stop,[step])random.choice(seq)random.shuffle(seq[,random])random.sample(seq,n)7. re 模块(正则表达式)
函数/方法描述re.compile(pattern[,flags])将用字符串表达的正则表达式转换为模式对象re.search(pattern.string[,flags])在字符串中查找对应的模式re.match(pattern.string[,flags])在字符串开头匹配模式re.split(pattern,string[maxsplit=0])根据模式分割字符串re.findall(pattern,string)返回一个列表,包含字符串中所有与模式匹配的字符串re.sub(pat,repl,string[,count=0])将字符串中与模式匹配的字符串换成replre.escape(string)转义字符串在所有正则表达式的特殊字符object1.group([group1,…])通常先用match方法进行,返回与模式中给定编组匹配的子串,没有指定在默认为0object1.start([group])返回与给定编组匹配的字符串的起始索引object1.end([group])返回与给定编组匹配的字符串的结束索引+1object1.span([group])返回与给定编组匹配的字符串的起始索引和结束索引+18. operator 模块(运算符) 9. math 模块
其他:numpy库的其他介绍. 2. Pandas模块(分析复杂的数据)
创建数据框(简称pandas为pd) import pandas as pd df=pd.DataFrame(数据集名,columns=['a','b'],index=list2) #DataFrame不能小写,数据集一般为字典或NumPy数组 df['a'] #获取数据框某一列 创建系列与向量化操作 df=pd.Series(数据集名,name) #Series不能小写,数据集一般为字典或NumPy数组 df['a']或df[:3] #获取数据框某一或几列 import numpy as np print(np.sqrt(df)) df['d']=df['a']>1 #数据框的增 常用方法 方法描述pd.read_csv()将.csv文件中的数据读入内存,快速构建数据框pd.concat()按横向或纵向合并两个Pandas数据结构pd.get_dummies将类别变量转变为独热编码Series.isnull判断系列中所有值是否含有空值Series.is_unique判断系列中所有值是否重复Series.value_counts()统计系列中所有取值的出现次数DataFrame.mean()按行或列分别计算平均值DataFrame.dropna()删除所有缺失数据的行或列DataFrame.drop_duplicates()删除所有重复的行DataFrame.head()默认返回数据框中的前五行DataFrame.tail()默认返回数据框中的后五行3. scikit-learn模块(机器学习) 4. Matplotlib模块(绘图)
import matplotlib.pyplot as plt plt.scatter(x, y,s=shapesize,c=color,marker="散点的形状") plt.title("标题") plt.xlabel("行标题") plt.ylabel("列标题") plt.savefig("路径")#存图路径 plt.show()