1、2021/11/21 下午5:15 5-4-1file:/C:/Users/sgl/Downloads/5-4-1 (1).html 1/2In:import pandas as pd pd.set_option(display.unicode.east_asian_width, True)#解决数据输出时列名不对齐的问题 df=pd.read_excel(豆瓣.xlsx) #读取数据 5.4.1数据预处理In:df.info() In:df.head() In:items= for str in df出版信息: item= infos=str.split(/) if len(infos)=5
2、: item.append(infos0) item.append(infos1) item.append(infos2) item.append(infos3) item.append(infos4) elif(len(infos)=4): item.append(infos0) item.append() item.append(infos1) item.append(infos2) item.append(infos3) else: item.append() item.append() item.append(infos0) item.append(infos1) item.appen
3、d(infos2) items.append(item) In:items:5 In:infoT=作者,译作者,出版社,出版时间,定价 dfinfo=pd.DataFrame(items,columns=infoT) dfinfo.head() In:df=df.join(dfinfo) 2021/11/21 下午5:15 5-4-1file:/C:/Users/sgl/Downloads/5-4-1 (1).html 2/2In:df.head() In:df评价人数=df评价人数.str.replace(人评价, ) In:df定价=df定价.str.extract(r(d+.d+) In:df.head() In:df.drop(labels=出版信息,axis=1,inplace=True) In:df.drop(labels=Unnamed: 0,axis=1,inplace=True) In:df.head() In:df.info() In:df评价人数=df评价人数.astype(float64) df定价=df定价.astype(float64) In:df.to_excel(douban250.xlsx) In:dfs=df书名,评分,评价人数,作者,译作者,出版社,出版时间,定价 In:dfs.head() In: