使用Python和xml.etree.ElementTree解析xml文件
使用Python解析xml文件的文章很多,确实也很简单,但是当文件中含有命名空间名的时候,许多文章中给出的例子就无法工作了,其实解决这一问题也很简单,只需加上一行正则就可以了!欢迎给出意见和批评!程序代码:#!/usr/bin/pythonimportsysimportreimportxml.etr... « 阅读全文
第15章 正则表达式(2)
15.3正则表达式战Python发言15.3.1re模块:种饱函数战格式正在情势婚配之前,正则表达式必须先被编译成regex工具。因为正则表达式正在真止进程中北次用于比较,所以猛烈发起对它做预编译,而窃冬既然正则表达式的编译是必须的,那操做预编译去提降真止性能无疑是明智之举。re.compile(... « 阅读全文
C语言正则表达式的使用
1.intregcomp(regex_t*compiled,constchar*pattern,intcflags)这个函数把指定的规则表达式pattern编译成一种特定的数据格式compiled,这样可以使匹配更有效。函数regexec会使用这个数据在目标文本串中进行模式匹配。执行成功返回0。re... « 阅读全文
python正则表达式中的分组 group
组是通过"("和")"元字符来标识的。"("和")"有很多在数学表达式中相同的意思;它们一起把在它们里面的表达式组成一组。举个例子,你可以用重复限制符,象*,+, ?,和{m,n},来重复组里的内容,比如说(ab)*将匹配零或更多个重复的"ab"。例子:如果不引入括号,增个表达式作为一个组,是gro... « 阅读全文
最近写了个Python爬虫,记录一下学到的东西
urllib2 是针对文本的 urllib 是针对二进制文件的下载文件最简单的写法urllib.urlretrieve(url, filePath + fileName)如果需要访问非英文页面文字,自行 decode html.decode('euc-jp').encode('utf-8')使用 BeautifulSoup 处理 html 非常方便,但是在 Jython 下速度超级慢!可以直接使用正则在 BeautifulSoup 中查找需要的标签 links = sou... « 阅读全文
python正则表达式提取中文字符串
作者:yemuda 时间:2010-07-20因为想留作以后研究python中文编码用,貌似不完整,以后如果研究透彻,会加以补充,转贴如下:=========================================要做国际化的版本,需要把中文字符串都提取出来翻译,写了这个python脚本。#... « 阅读全文
VB.Net正则表达式大全3
作者:lzmtw 来源:VB.Net论坛[csdn] 10.选择符正则表达式中“¦”表示选择。你可以用选择符匹配多个可能的正则表达式中的一个。如果你想搜索文字“cat”或“dog”,你可以用<<cat¦dog>>。如果你想有更多的选择,你只要扩展列表<<c... « 阅读全文
Python: 用正则表达式判断一个url是否是
# -*- coding: utf-8 -*-'''Created on 2009-8-27@author: 最魔鬼这个脚本用来判断一个url是否是新浪博客的地址。参考文档: dive into python 正则表达式一章中提到的那两个文档'''import rehref = 'http://blog.sina.com.cn/atom629'# 新浪博客url的命名规则# 个性域名: http://blog.sina.com.cn/# 3到24个字符,可以是小写字母、数... « 阅读全文
python多线程抓取网页(未成型)
import queue,threading,random,timeimport urllib.parseimport urllib.request,re#----------------#添加队列#----------------class pr(threading.Thread): def __init__(self,thread_name,url,queue): threading.Thread.__init__(self,name=thread_name) #创建一个... « 阅读全文
好久没有来qq空间python笔记(1)
下班空余时间开始学python 。给自己监督下,再此留下学习记录由于C,matlab的熟悉。对python 语法方面看一下,基本能入门。配置好vim和安装python 后,开始练习。直接学习urllib 模块。网上搜来一个最简单的下载图片之类代码import urllib url = r"http://bbs.ledcax.com/templates/im286/images/logo.gif" path = r"c:/logo.gif" data = urllib.u... « 阅读全文

