首页 / 技术 / 正文

初试手动编写PHP抓取程序-开发笔记

2015年03月30日 4 条评论 ... 技术

大部分企事业单位甚至于高校的官方网站都停留在了表格结构的 web2.0 时代,在飞速发展的网页技术的大背景下,越发显得一副陈旧与落后。不过原因我也是了解的,官方网站为了保证安全都会使用旧的技术,包括后台的 CMS 系统,因为越老越可靠;另外,由于技术更新快,企事业单位如果一味追求赶上技术,开发和维护的成本也是很高的。不过,令人欣喜的是,还是有不少的企业和机关意识到了糟糕的网页给访问者带来的糟糕的体验,越来越多的单位开始着手更新网站,所以前端开发职业也是非常火热的。

前端开发的职业是光明而有前途的。

我的大学,也是有着一个典型的保守网站,因为在大一的时候为党委宣传部做过网站,现在回想起来,对这个 CMS 系统也是耿耿于怀。网站使用的是 Webplus 据说是中国移动为学校花大钱购置的,但是实际看起来也就是那么回事。不过问题在于,我们现在做的学校官方的微信,需要在菜单上放官网的新闻,从前是直接放上链接,用户手机打开之后,显示的依然是顽固的固定宽度的表格,毫无用户体验而言。所以,一则为了练练手,二则为了手机浏览,所以翻遍了搜索引擎,假期期间做了一部分,上周周六一天做的也差不多。第一次尝试着搞了 PHP 网页抓取的程序。

首页展示

其实前端页面,我是没有花很大心思的,依然使用我喜欢的天蓝色的页面。重点在于后台,由于是在固定的网站上抓取固定的网页,所以我做成了一键采集,无需参数。其实在做之前感觉会很难,但是实际上使用的关键技术是:

获取网页文件:PHP 文件操作;

清理数据,获取有效的部分:PHP 字符串操作和正则匹配;

按照需要获取作者时间等信息:由于网页格式固定,所以使用 PHP strpos() 函数几次抠出来了;

保存数据库:MySQL 的 INSERT 操作。

 

不晓得方式对不对,不知道真正的 PHP 大牛是不是这样做采集程序的。不过经过我的测试,确实获取成功了。

做这次网站本身想使用传说中的“妹子UI ”—— Amaze UI ,但是还是因为庞大的300K的身躯和各种实例化云云的给放弃了,但是抠出来一部分样式用了用,感觉确实挺清新的。

后台

其实最想吐槽的是 Dreamweaver ,早有耳闻 Dreamweaver 可以无代码操作制作一个 PHP+MySQL 网站,结果试了,确实很方便,但是自动生成的代码,简直是——太!啰!嗦!不过考虑到网站的各种意外情况,考虑的多一点也是无可厚非的,但是整个页面都用 require_once() 函数引入文件的方式也是醉了。require()require_once() 之间的区别不大,除了 require_once() 效率更低一些,更不被推荐使用。

所以,下次是坚决不用 Dreamweaver 做东西了,但作为 IDE 用却显得臃肿了些。所以最后把 Dreamweaver 闲置下来了。

程序是纯用 PHP 做的,没用框架,所以安全性和稳定性完全不敢保证,PHP 还是要继续进修努力了。

4 条评论

Loading...
  1. 忘想

    我写PHP只用editplus, 让我想想,应该差不多有5年多没有用到Dreamweaver 了。虽然很少用PHP

    2015-03-31 [回复]
  2. 瑾瑜

    好多CSS框架或者字体,只用到很少一部分,却要全部引用,很少有人把不用的清理掉,确实浪费~

    2015-04-1 [回复]
  3. 小乐丫中文网

    Dreamweaver只是最初级的设计,很多东西要靠自己写的了

    2015-04-3 [回复]
  4. oneone

    :razz: 楼主,求分享源码,我们学校也是webplus :mrgreen:

    2015-12-24 [回复]

发布评论