我欲封天耳根小说零,小说阅读网站,完美的世界 1993 电影

Python Selenium爬取數(shù)據(jù)

作者：風(fēng)雨byt 發(fā)布時(shí)間：[ 2016/12/22 14:28:05 ] 推薦標(biāo)簽：功能測(cè)試 Selenium

　　近公司有一項(xiàng)爬取數(shù)據(jù)的工作，借鑒以往的代碼將爬蟲(chóng)重新更新并整理
　　將現(xiàn)有爬蟲(chóng)分成幾部分
　　0.文件讀取器
　　其實(shí)文件讀取和4中的文件存儲(chǔ)是在一個(gè)部分的
　　這里簡(jiǎn)單介紹下xls的讀取
def deal_xls_col(name，sheet_name):
body = xlrd.open_workbook(name)
try:
sh = body.sheet_by_name(sheet_name)
except:
print "EORR"
return sh.col_values(0)格式請(qǐng)忽略
　　這里讀取了一豎行的xls的數(shù)據(jù)
　　返回的格式為list
　　1.總調(diào)度器
　　這里主要是寫(xiě)邏輯，及0234的順序。
　　2.網(wǎng)頁(yè)下載器
　　網(wǎng)頁(yè)下載器主要是來(lái)模擬瀏覽器訪問(wèn)對(duì)應(yīng)url
　　一個(gè)簡(jiǎn)單的例子
class HtmlDownloader(object):
def download(self，url):
if url is None:
return None
response = urllib2.urlopen(url，timeout=300)
if response.getcode() != 200:
return None
return response.read()
　　例子只是去訪問(wèn)url并沒(méi)有對(duì)cookie等相關(guān)限制信息做處理（需要請(qǐng)自行添加）
　　3.網(wǎng)頁(yè)分析器
　　網(wǎng)頁(yè)分析器其實(shí)是來(lái)處理下載器返回的html的源碼，比如用selenium來(lái)處理的話則有
　　company_info_text = driver.find_element_by_class_name('company_info_text')
　　company_text = driver.find_element_by_class_name('row b-c-white company-content')
　　是用selenium的一些方法來(lái)獲取你需要的數(shù)據(jù)而已
　　4.文件存儲(chǔ)器
　　這里以xls為例：
def creat_xls_6(xls_name):
styleBoldRed = xlwt.easyxf('font:color-index red， bold on')
headerStye = styleBoldRed wb = xlwt.Workbook()
ws = wb.add_sheet(xls_name)
ws.write(0， 0， "name"， headerStye)
ws.write(0， 1， "oper_name"， headerStye)
ws.write(0， 2， "start_date"， headerStye)
ws.write(0， 3， "xfsSearchStatus"， headerStye)
wb.save(xls_name)
　　創(chuàng)建xls表格
def insert_xls_6(xls_name，id， name， oper_name， start_date，xfsSearchStatus):
oldWb = xlrd.open_workbook(xls_name)
newWb = copy(oldWb)
newWs = newWb.get_sheet(0)
newWs.write(id， 0， name)
newWs.write(id， 1， oper_name)
newWs.write(id， 2， start_date)
newWs.write(id， 3， xfsSearchStatus)
newWb.save(xls_name)
　　插入數(shù)據(jù)到表格
　　這里面沒(méi)有什么高深的秘密，只要你封裝好自己的函數(shù)好了
　　上面的例子還不是好的版本，因?yàn)槊看问褂枚家匦滦薷模瑧?yīng)該傳入一個(gè)數(shù)據(jù)來(lái)代替那些變量，這樣可以適配各種數(shù)據(jù)的表格創(chuàng)建和添加了
　　還有要說(shuō)的是：一些網(wǎng)站會(huì)限制你爬取數(shù)據(jù)，但是大多數(shù)網(wǎng)站都是友好的，但是這并不表示你可以肆無(wú)忌憚的毫無(wú)限制的去爬取。爬取的時(shí)間好設(shè)置成晚上或者。。。。
　　還有是不要對(duì)目標(biāo)網(wǎng)站造成不必要的‘傷害’。

關(guān)鍵詞閱讀

測(cè)試熱點(diǎn)文章

技術(shù)專(zhuān)題

活動(dòng)專(zhuān)題

【獲獎(jiǎng)名單公布】加入Alltesting眾測(cè)免費(fèi)領(lǐng)取新發(fā)行測(cè)試書(shū)籍
加入Alltesting眾測(cè)免費(fèi)領(lǐng)取新發(fā)行書(shū)籍《京東質(zhì)量團(tuán)隊(duì)轉(zhuǎn)型實(shí)踐從測(cè)試到測(cè)試開(kāi)發(fā)的蛻變》
【Alltesting眾測(cè)2典】0元測(cè)試體驗(yàn)+100元現(xiàn)金券+免費(fèi)性能測(cè)試
先測(cè)試后付費(fèi)-Alltesting眾測(cè)超級(jí)福利
2000元性能測(cè)試服務(wù)，安全生產(chǎn)，穩(wěn)定運(yùn)行，為您的系統(tǒng)保駕護(hù)航！！！
在線性能測(cè)試工具（WebPR）培訓(xùn)與技術(shù)交流（第二期）
Alltesting眾測(cè)平臺(tái)全新功能已開(kāi)啟！！
生命周期管理軟件ALM-本地安裝版本正式發(fā)布！！！

亚洲好骚综合-亚洲黄色录像-亚洲黄色网址-亚洲黄色网址大全-99久久99久久-99久久99久久精品国产