源码介绍
源码介绍
PHP盘搜搜在线网盘搜索源码是一个搜集网盘数据,并提供在线搜索资源的一个项目,方便了那些苦于资源难寻,其他网站都是广告的朋友,本项目提供简单的关键词搜索,简洁的页面一目了然,同时对于web应用安全有做充分得过滤,保障在线服务的安全稳定。
源码使用说明
环境需求:1.PHP version > 5.4,2.MYSQL Database,3.python version 3.x
1、在本地搭建PHP环境,比如使用XAMPP、phpstudy即可快速搭建,导入下方的lanzou.sql(附件下载)到Mysql数据库,配置好前端中的api.php中的api地址为自己的即可。
2、前端搜索需要配置后数据库连接,在data/dblink.php中填写好数据库连接信息
3、同理可搭建到在线服务上~
爬虫数据抓取:
这里就直接粘贴爬虫源码,注释也很清楚了,需要注意的是:
之前做爬虫项目爬了蓝走网盘160w+的网盘资源,某些原因只能公开部分数据(大约36w+)给大家了。
蓝奏网盘在我做网盘爬虫这个项目的时候,恰好关闭了接口,增加了反爬虫机制,以至于大多数的什么网盘扫描器不能使用,包括本爬虫,开源只是为了给大家一个参考,若有独到见解,还望指导一二。
#抓取蓝奏网盘资源+链接#作者:DYBOY小东#时间:2017-09-15#verion:1.1#description:抓取蓝奏网盘的数据并存入数据库,便于数据的查找,后续将开发WEB端,进行网盘资源的搜索!importrequestsimportpymysqlimportreimportsysfrombs4importBeautifulSoup#以上作为基本引用#连接数据库try:db=pymysql.connect(host='127.0.0.1',port=3306,user='root',passwd='',db='pan',charset='utf8')print('连接数据库成功')exceptExceptionase:print(e);cursor=db.cursor()#基础索引全局变量id_num=0main_url='https://pan.lanzou.com/'#循环获取数据#fornuminrange(670000,849604):fornuminrange(20630,849604):url=main_url+'1'+str(num)header={'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/50.0.2661.102Safari/537.36'}#尝试获取网页数据try:res=requests.get(url,headers=header,timeout=5)exceptExceptionase:print('获取网页出错,跳过获取下一个...')res.encoding='utf-8'#编码转换ifres.status_code==200:soup=BeautifulSoup(res.text,'html.parser')title=soup.select('title')[0].text[:-8]iflen(title)>0:url_now=urlid_num=id_num+1#正则匹配文件大小guize=r'<spanclass="p7">文件大小:</span>(.*?)<br>'try:filesize=re.findall(guize,res.text)[0]exceptExceptionase:filesize='未知大小'print(e)print('erro2')#构造sql语句sql="insertintolanzou4(name,link,size)values('%s','%s','%s');"%(title,url_now,filesize)#尝试写入数据库try:cursor.execute(sql)db.commit()exceptExceptionase:print(e)num=num+1#print(id_num)if(num%5000==0):print('已经抓取5000条数据')print('ok!!!共抓取'+str(id_num)+'个资源')
源码下载地址
下载即代表您已阅读并同意以下条款:
1、所有资源仅供学习与参考,请学习后自行删除。本站不提供任何技术支持。
2、本站不保证资源的完整性、可用性、安全性。(单独付费源码除外)
3、如有侵犯您的版权,请及时联系我们,我们将下架处理。
1、所有资源仅供学习与参考,请学习后自行删除。本站不提供任何技术支持。
2、本站不保证资源的完整性、可用性、安全性。(单独付费源码除外)
3、如有侵犯您的版权,请及时联系我们,我们将下架处理。