Python 研究(Dive Into Python)

lastwinner · 发表于 2006-7-15 20:08

8.6. 基于 dictionary 的字符串格式化
为什么学习 locals 和 globals? 因为接下来就可以学习关于基于 dictionary 的字符串格式化。或许您还能记起, 字符串格式化提供了一种将值插入字符串中的一种便捷的方法。值被列在一个 tuple 中, 按照顺序插入到字符串中每个格式化标记所在的位置上。尽管这种做法效率高，但还不是最容易阅读的代码，特别是当插入多个值的时候。仅用眼看一遍字符串，您不能马上就明白结果是什么；您需要经常地在字符串和值的 tuple 之间进行反复查看。

有另外一种字符串格式化的形式，它使用 dictionary 而不是值的 tuple。

lastwinner · 发表于 2006-7-15 20:09

例 8.13. 基于 dictionary 的字符串格式化介绍
>>> params = {"server":"mpilgrim", "database":"master", "uid":"sa", "pwd":"secret"}
>>> "%(pwd)s" % params
'secret'
>>> "%(pwd)s is not a good password for %(uid)s" % params
'secret is not a good password for sa'
>>> "%(database)s of mind, %(database)s of body" % params
'master of mind, master of body'  这种字符串格式化形式不用显示的值的 tuple，而是使用一个 dictionary，params。并且标记也不是在字符串中的一个简单 %s，而是包含了一个用括号包围起来的名字。这个名字是 params dictionary 中的一个键字，并且将 %(pwd)s 标记所在的地方替换成相应的值 secret。
  基于 dictionary 的字符串格式化可用于任意数量的有名的键字。每个键字必须在一个给定的 dictionary 中存在，否则这个格式化操作将失败并引发一个 KeyError 的异常。
  您甚至可以两次指定同一键字，每个键字发生之处将被同一个值所替换。

那么为什么您偏要使用基于 dictionary 的字符串格式化呢？好，在下面一行中，仅为了进行字符串格式化就需要创建一个有键字和值的 dictionary 看上去的确有些小题大作。它的真正最大用处是当您碰巧已经有了象 locals 一样的有意义的键字和值的 dictionary 的时候。

lastwinner · 发表于 2006-7-15 20:09

例 8.14. BaseHTMLProcessor.py 中的基于 dictionary 的字符串格式化
def handle_comment(self, text):
      self.pieces.append("" % locals())
  使用内置的 locals 函数是最普通的基于 dictionary 的字符串格式化的应用。这就是说您可以在您的字符串 (本例中是 text，它作为一个参数传递给类方法) 中使用局部变量的名字，并且每个命名的变量将会被它的值替换。如果 text 是 'Begin page footer'，字符串格式化 "" % locals() 将得到字符串 ''。

lastwinner · 发表于 2006-7-15 20:09

例 8.15. 基于 dictionary 的字符串格式化的更多内容
def unknown_starttag(self, tag, attrs):
      strattrs = "".join([' %s="%s"' % (key, value) for key, value in attrs])
      self.pieces.append("<%(tag)s%(strattrs)s>" % locals())
  当这个模块被调用时，attrs 是一个键/值 tuple 的 list，就象一个 dictionary 的 items。这就意味着我们可以使用多变量赋值来遍历它。到现在这将是一种熟悉的模式，但是这里有很多东西，让我们分开来看:
假设 attrs 是 [('href', 'index.html'), ('title', 'Go to home page')]。
在这个列表理解的第一轮循环中，key 将为 'href'，value 将为 'index.html'。
字符串格式化 ' %s="%s"' % (key, value) 将生成 ' href="index.html"'。这个字符串就作为这个列表理解返回值的第一个元素。
在第二轮中，key 将为 'title'，value 将为 'Go to home page'。
字符串格式化将生成 ' title="Go to home page"'。
这个 list 理解返回两个生成的字符串 list，并且 strattrs 将把这个 list 的两个元素连接在一起形成 ' href="index.html" title="Go to home page"'。

  现在，使用基于 dictionary 的字符串格式化，我们将 tag 和 strattrs 的值插入到一个字符串中。所以，如果 tag 是 'a'，最终的结果会是 '<a href="index.html" title="Go to home page">'，并且这就是追加到 self.pieces 后面的东西。

使用 locals 来应用基于 dictionary 的字符串格式化是一种方便的作法，它可以使复杂的字符串格式化表达式更易读。但它需要花费一定的代价。在调用 locals 方面有一点性能上的问题，这是由于 locals 创建了局部名字空间的一个拷贝引起的。

lastwinner · 发表于 2006-7-15 20:09

8.7. 给属性值加引号
在 comp.lang.python 上的一个常见问题是 “我有一些 HTML 文档，属性值没有用引号括起来，并且我想将它们全部括起来，我怎么才能实现它呢？” [4] (一般这种事情的出现是由于一个项目经理加入到一个大的项目中来，而他又抱着 HTML 是一种标记语言的教条，要求所有的页面必须能够通过 HTML 校验器的验证。而属性值没有被引号括起来是一种常见的对 HTML 规范的违反。) 不管什么原因，未括起来的属性值通过将 HTML 送进 BaseHTMLProcessor 可以容易地修复。

BaseHTMLProcessor 消费 (consume) HTML (因为它是从 SGMLParser 派生来的) 并生成等价的 HTML。但是这个 HTML 输出与输入的并不一样。标记和属性名最终会转化为小写字母，即使它们可能以大写字母开始或是大小写的混和形式。属性值将被双引号引起来，即使它们原来可能是用单引号括起来的或根本没有括起来。这就是最后我们可以受益的边际效应。

lastwinner · 发表于 2006-7-15 20:09

例 8.16. Quoting attribute values
>>> htmlSource = """
...    <html>
...    <head>
...    <title>Test page</title>
...    </head>
...    <body>
...    <ul>
...    <li><a href=index.html>Home</a></li>
...    <li><a href=toc.html>Table of contents</a></li>
...    <li><a href=history.html>Revision history</a></li>
...    </body>
...    </html>
...    """
>>> from BaseHTMLProcessor import BaseHTMLProcessor
>>> parser = BaseHTMLProcessor()
>>> parser.feed(htmlSource)
>>> print parser.output()
<html>
<head>
<title>Test page</title>
</head>
<body>
<ul>
<li><a href="index.html">Home</a></li>
<li><a href="toc.html">Table of contents</a></li>
<li><a href="history.html">Revision history</a></li>
</body>
</html>  请注意，在 <a> 标记中的 href 属性值没有被适当的括起来 (还要注意，除了文档字符串之外，我们还将三重引号用到了 doc string 之外的其它地方，并且是不会少于直接在 IDE 中的使用。它们非常有用。)
  装填分析器。
  使用定义在 BaseHTMLProcessor 中的 output 函数，我们得到单个字符串的输出，并且属性值被完全括起来了。让我们想一下这里实际上发生了多少事: SGMLParser 分析整个 HTML 文档，将其分解为一片片的标记、引用、数据等等。BaseHTMLProcessor 使用这些元素来重新构造 HTML 的片段 (如果您想查看的话它们仍然保存在 parser.pieces 中) 。最后，我们调用 parser.output，它将所有的 HTML 片段连接成一个字符串。

lastwinner · 发表于 2006-7-15 20:10

Footnotes
[4] 好吧，其实并不是那么普通的一个问题。在那不都是问 “我应该用何种编辑器来写 Python 代码？” (回答: Emacs) 或 “Python 比 Perl 是好还是坏？” (回答: “Perl 比 Python 差，因为人们想让它差的。” -Larry Wall，1998年10月14日) 但是关于 HTML 处理的问题，或者这种提法或者另一种提法，大约一个月就要出现一次，在这些问题之中，这个问题是最常见的一个。

lastwinner · 发表于 2006-7-15 20:10

8.8. dialect.py 介绍
Dialectizer 是 BaseHTMLProcessor 的简单 (和拙劣) 的派生类。它通过一系列的替换对文本块进行了处理，但是它确保在 <pre>...</pre> 块之间的任何东西不被修改地通过。

为了处理 <pre> 块，我们在 Dialectizer 中定义了两个方法: start_pre 和 end_pre。

例 8.17. 处理特别标记
def start_pre(self, attrs):
      self.verbatim += 1
      self.unknown_starttag("pre", attrs)

def end_pre(self):
      self.unknown_endtag("pre"

      self.verbatim -= 1                   每次 SGMLParser 在 HTML 源代码中发现一个 <pre> 时，都会调用 start_pre。 (马上我们就会确切地看到它是如何发生的。) 这个方法使用单个参数: attrs，这个参数会包含标记的属性 (如果存在的话) 。 attrs 是一个键/值 tuple 的 list，就象 unknown_starttag 中所使用的。
  在 reset 方法中，我们初始化了一个数据属性，它作为 <pre> 标记的一个计数器。每次我们找到一个 <pre> 标记，我们增加计数器的值；每次我们找到一个 </pre> 标记，我们将减少计数器的值。 (我们可以将它作为一个标志，并且把它设为 1 或重置为 0，但是这样做只是为了方便，并且这样做可以处理古怪 (但有可能) 的 <pre> 标记嵌套的情况。) 马上我们将会看到这个计数器是多么的好用。
  不错，这就是我们对 <pre> 标记所做的唯一的特殊处理。现在我们将属性列表传给 unknown_starttag，由它来进行缺省的处理。
  每次 SGMLParser 找到一个 </pre> 标记时会调用 end_pre。因为结束标记不能包含属性，因此这个方法没有参数。
  首先我们要进行缺省处理，就象其它结束标记做的一样。
  其次我们将计数器减少，标记这个 <pre> 块已经被关闭了。

到了这个地方，有必要对 SGMLParser 更深入一层。我已经多次声明 (到目前为止您应已经把它做为信条了) ，就是 SGMLParser 查找每一个标记并且如果存在特定的方法就调用它们。例如: 我们刚刚看到处理 <pre> 和 </pre> 的 start_pre 和 end_pre 的定义。但这是如何发生的呢？嗯，也没什么神奇的，只不过是出色的 Python 编码。

lastwinner · 发表于 2006-7-15 20:10

例 8.18. SGMLParser
def finish_starttag(self, tag, attrs):
      try:
         method = getattr(self, 'start_' + tag)
      except AttributeError:
         try:
            method = getattr(self, 'do_' + tag)
         except AttributeError:
            self.unknown_starttag(tag, attrs)
            return -1
         else:
            self.handle_starttag(tag, method, attrs)
            return 0
      else:
         self.stack.append(tag)
         self.handle_starttag(tag, method, attrs)
         return 1

def handle_starttag(self, tag, method, attrs):
      method(attrs)                                     此处，SGMLParser 已经找到了一个开始标记，并且分析出属性列表。唯一要做的事情就是找到对于这个标记是否存在一个特别的处理方法，或者是否我们应该求助于缺省方法 (unknown_starttag) 。
  SGMLParser 的 “神奇” 之处除了我们的老朋友 getattr 之外就没有什么了。您以前可能还没注意到的是 getattr 将查找定义在一个对象的继承者中或对象自身的方法。这里对象是 self，即当前实例。所以，如果 tag 是 'pre'，这里对 getattr 的调用将会在当前实例 (它是 Dialectizer 类的一个实例) 中查找一个名为 start_pre 的方法。
  如果 getattr 所查找的方法在对象或它的任何继承者中不存在的话，它会引发一个 AttributeError 的异常。但没有关系，因为我们把对 getattr 的调用包装到一个 try...except 块中了，并且显示地捕捉 AttributeError 异常。
  因为我们没有找到一个 start_xxx 方法，在放弃之前，我们将还要查找一个 do_xxx 方法。这个可替换的命名模式一般用于单独的标记，如 <br>，这些标记没有相应的结束标记。但是您可以使用任何一种模式，正如您看一的，SGMLParser 对每个标记尝试两次。 (您不应该对相同的标记同时定义 start_xxx 和 do_xxx 处理方法，因为这样的话只有 start_xxx 方法会被调用。)
  另一个 AttributeError 异常，它是说用 do_xxx 来调用 getattr 实败了。因为对同一个标记我们既没有找到 start_xxx 也没有找到 do_xxx 处理方法，这样我们捕捉到了异常并且求助于缺省方法: unknown_starttag。
  记得吗？try...except 块可以有一个 else 子句，当在 try...except 块中没有异常被引发时，它将被调用。逻辑上，意味着我们确实找到了这个标记的 do_xxx 方法，所以我们将要调用它。
  顺便说, 不要为这些不同的返回值而担心; 理论上他们有意义, 但实际上它们没有任何用处。也不要担心 self.stack.append(tag) ; SGMLParser 内部会知晓您的开始标记是否有合适的结束标记与之匹配, 但是它不会对这些信息做任何操作。理论上, 您能使用这个模块校验您的标记是否完全匹配, 但是这或许没有多大价值, 并且这样的内容已经超出了本章所要讨论的范畴。现在有您更需要担心的问题。
  start_xxx 和 do_xxx 方法并不被直接调用，标记名、方法和属性被传给 handle_starttag 这个方法，以便继承者可以覆盖它，并改变全部开始标记分发的方式。我们不需要控制层，所以我们只让这个方法做它自已的事，就是用属性属性的 list 来调用方法 (start_xxx 或 do_xxx) 。记住 method 是一个从 getattr 返回的函数，还有函数是对象。 (我知道您已经听腻了，我发誓，一旦我们停止寻找新的使用方法来为我们服务时，我就决不再提它了。) 这时，函数对象作为一个参数传入这个分发方法，这个方法反过来再调用这个函数。在这里，我们不需要知道函数是什么，叫什么名字，或是在哪时定义的；我们只需要知道用一个参数 attrs 调用它。

现在回到我们已经计划好的程序: Dialectizer。当我们跑题时，我们正在定义特别的处理方法来处理 <pre> 和 </pre> 标记。还有一件事没有做，那就是用我们预定义的替换处理来处理文本块。为了实现它，我们需要覆盖 handle_data 方法。

lastwinner · 发表于 2006-7-15 20:10

例 8.19. 覆盖 handle_data 方法
def handle_data(self, text):
      self.pieces.append(self.verbatim and text or self.process(text)) handle_data 在调用时只使用一个参数: 要处理的文本。
  在祖先类 BaseHTMLProcessor 中，handle_data 方法只是将文本追加到输出缓冲区 self.pieces 之后。这里的逻辑稍微有点复杂。如果我们处于 <pre>...</pre> 块的中间，self.verbatim 将是大于 0 的某个值，接着我们想要将文本不作改动地传入输出缓冲区。否则，我们将调用另一个单独的方法来进行替换处理，然后将处理结果放入输出缓冲区中。在 Python 中，这是一个一行代码，它使用了and-or 技巧。

我们已经接近了对 Dialectizer 的全面理解。唯一缺少的一个环节是文本替换的特性。如果您知道点 Perl，您就会知道当需要复杂的文本替换时，唯一有效的解决方法就是正则表达式。在 dialect.py 文件后面的几个类中定义了一连串的正则表达式来操作 HTML 标记中的文本。我们已经学习过了正则表达式中的所有字符。我们不必重复学习正则表达式的艰难历程了, 不是吗？上帝知道我反正不需要。我想现在这章您已经学得差不多了。

[参考文档] Python 研究(Dive Into Python)

浏览过的版块