“python”标签相关文章 »

十月 17

www.python.org/download/ 被墙,麻木的我有点出离愤怒了。。。

国内与民生息息相关的诸多资源“被外资化”,而我们的“公仆”除了不作为之外,却尽心尽力阻断技术的革新和发展,到底为的哪般?

写完这几句话,我都有点担心这个 Blog 是否会被墙掉。

人,怎么可能这么活着。。。

dirk 发表于 2009-10-17 星期六
八月 23

Django 为字符编码的转换提供了非常简洁的方法:

django.utils.encoding.smart_unicode
django.utils.encoding.smart_str

我们在需要将用户提交的数据转换为 Unicode 的时候,可以使用 smart_unicode,而在需要将程序中字符输出到非 Unicode 环境(比如 HTTP 协议数据)时可以使用 smart_str 方法。拿 DDlog 来说,也有不少地方用到了这两个方法。

1、smart_unicode 在 DDlog 中的使用

Blog 的标签(Tag)一般多少会有中文,对于服务器环境来说,不会安装系统级的 UTF-8 环境,那么浏览器请求的 URL 中包含的中文会作为经过 urllib.quote 编码转换后的 UTF-8 字符串(注意,这种情况下,Django 不会自动转换为 Unicode),这里,我们在使用这个数据之前,需要进行一定的转换。

比较原始的方法类似如下:

def post_via_tag(request, tag):
    from urllib import unquote
    key = unquote(unicode(tag).encode('UTF-8'))
    tag_as = Tag.objects.select_related().get(tag__iexact = key)

而如果使用 Django 的 smart_unicode,明显简洁得多(也更符合 DRY 原则):

def post_via_tag(request, tag):
    from django.utils.encoding import smart_unicode
    tag_as = Tag.objects.select_related().get(tag__iexact = smart_unicode(tag))
    # ... other code

2、smart_str 在 DDlog 中的使用

DDlog 在接受评论的时候,会将评论者的姓名和邮件地址保存到 Cookie 中,以便该用户下次发表评论的时候自动显示相关信息。而评论者的姓名有可能是中文的,如果直接把中文字符串放到 Cookie 中,会引发 UnicodeEncodeError 异常。

这里需要进行去 Unicode 编码:

def post_comment(request, slug):
    # ... other prepare code
    response.set_cookie('COMMENT_AS_NAME', smart_str(comment_user.name), expired_at)

就这么简单便捷!

dirk 发表于 2009-08-23 星期日
八月 15

为 DDLog 增加了代码高亮功能,使用的是 SyntaxHighlighter 这个 JS 写的开源代码。

除了字体大小在 shCore.css 强制设置了比默认更大的尺寸之外,其他的部分集成起来很顺利。

哈!最后,贴一段 Python 代码看看:

class FirstClass:                # define a class object
    def setdata(self, value):    # define class methods
        self.data = value        # self is the instance
    def display(self):
        print self.data          # self.data: per instance

class SecondClass(FirstClass):     # inherits setdata
    def display(self):             # changes display
        print 'Current value = "%s"' % self.data

z = SecondClass()
z.setdata(42)        # setdata found in FirstClass
z.display()          # finds overridden method in SecondClass
dirk 发表于 2009-08-15 星期六
八月 01

我的新 blog 系统,ddlog 最新发布。

从 2008 年服务器故障开始,原来基于 Rails 的 Blog 系统基本不再维护,一来工作和生活很忙,二来也确实想找一个真正能让我愿意长期深入维护的框架。最终选择了 Django 这个基于 Python 的开发框架,更多的考虑是我最喜欢 Python 这们语言的缘故。

当然 Python 下也有很多开发框架,这个选择标准就像我当初选择 FreeBSD 一样(提升到一种哲学?),希望能有一个核心团队对整个框架有完全的控制,而不象 TurboGears 一样,使用了很多外部包,对长期性的开发、运营项目来说,这种“阳春白雪”的特性多少有点不利影响。

当前 DDlog 0.1 基于:

dirk 发表于 2009-08-01 星期六
七月 31

一直以来, Perl 都是以特强的文字处理功能著称,其实 Python 在这方面也相当不错。最近在项目中用到不少Python可圈可点的东西,在这里大概列一下,权当自己的Python Tips。

1、如何获取邮件地址?

我们分析邮件的时候,从From和To头信息中会提取到类似“DIrk Ye ”的邮件地址,如果我们需要只保留完整的EMail地址,可能需要正则表达式来提取,由于邮件格式的多样性,可能比较麻烦。Python提供了一个工具函数,可以方便的使用:

import email.Utils

def getCleanMailAddress(strAddr):
    emails = email.Utils.parseaddr(strAddr.lower())
    return emails[1]

2、利用Mimetypes确定文件的扩展名:

在邮件分析中,经常会碰到没有指定文件名或者扩展名的附件,我们可以根据附件的MimeType来猜测其应有的扩展名:

import mimetypes

def getFileExtension(strContentType):
    guessmimes = mimetypes.guess_all_extensions(strContentType)
    if guessmimes:
        return guessmimes[-1]
    else:
        return ''

另外,mimetypes.types_map中包含了所有运行系统可识别的MimeType,如果没有你期望的类型,可以通过mimetypes.add_type(‘audio/midi’, ’.mid’)方法来添加自己的东西,甚至可以作出修改。

3、使用正则表达式从字符串中提取指定的模式: Python的正则表达式也是非常强大的,有搜索、匹配、抽取等。有时候抽取是有点麻烦但非常有用的功能。假设我们会有大量的文本类似:

abcd@mypdx.com
aaaa@mypdx.com
n234f@mypdx.com

其中前半部分的名称都是数字和字母的组合,现在我们使用正则表达式抽取名字部分:

import re

def getUserName(strAddr):
    addr_re = re.compile('^([0-9a-z]+)@(.*)')
    unames = addr_re.search(strAddr)
    if unames is not None:
        return mptos.group(1)
    else:
        return ''

Python在文字处理方面还有很多特点,我只能把用到的东西列一下。有不少专门讲解Python相关东西的书籍,有的还是免费的;比如专门讲解Python文本处理的 Text Processing in Python ,实用而精彩,而另外一本 Python Cookbook 也是相当不错的读物,现在已经有第二版了,覆盖了Python2.3、2.4的新特性;去Python主站看看有什么适合你的书: http://wiki.python.org/moin/PythonBooks

Python Cookbook相关的两篇文章:

dirk 发表于 2009-07-31 星期五