蜘蛛程序(什么是蜘蛛池程序)( 二 )


2、网站编码问题,特别是正则表达式的编码要和网页编码相一致(特别是re搜索中文的时候);
3、连接并打开网页是否成功?不成功应当怎么处理?
4、有一些网页内容可能是通过ajax动态加载的,这可能就需要额外的解决方案了(比如selenimum, phantomJS等等) 。
5、有时为了提高抓取效率需要进行多线程扩充,这就涉及到Queue、multithreading等许多额外的库了 。