Anaconda 5.0 版本发布

今天才注意到,原来 Anaconda 5.0 已经发布了:

We’re thrilled to announce the release of Anaconda Distribution 5.0! With over 4.5 million active users, Anaconda Distribution is the world’s most popular and trusted distribution for data science. It allows you to easily install 1,000+ Python and R data science packages and manage your packages, dependencies, and environments—all with the single click of a button.

作为 Python 开发最强的第三方包管理以及综合增强工具,Anaconda 下载已经有了四百五十万活跃用户。

可以用下面的办法来安装和升级 Anaconda:

You can now download and install Anaconda Distribution 5.0, or update your current Anaconda Distribution installation to version 5.0 by using conda update conda followed by conda install anaconda=5.0 .

Anaconda 5.0有以下的主要功能:

  • Over 100 packages have been updated or added to the distribution. JupyterLab alpha preview 0.27.0 is now included, and MKL has been updated to 2018.0.0.
  • The new version features all new compilers on macOS and Linux, providing substantial security and performance improvements.
  • Where possible, all build recipes are now using conda-forge as a base, via https://github.com/AnacondaRecipes.
  • A new channel, pkgs/main, has been added to defaults. The new channel is given top priority within defaultsand holds packages built with the new compiler stack.
  • The new version of Anaconda Distribution now features more flexible dependency pinning of NumPy packages, providing wider ranges of compatibility.

看来这次大版本号的更新还是有不少东西的,JupyterLab alpha 不知道使用起来到底怎么样。

 

写书的烦恼与快乐

和几位同事一起在写一本 Python 机器学习的书,将我们这两年的 Python 实践付诸于文字。过程本身也是对基本概念、思路、实践方法一个很好的回顾和总结,以及提升。

很多东西觉得自己挺懂的,但是要写得出来,让别人看能看懂,就不是那么容易的事情了。

从5月立项,7月开始,到现在,差不多写了三个月,花费了不少时间。今年夏天,又恰逢上海史上最热的季节,着实煎熬。还好我基本上是宅男,并且目前对于各类聚会没有太大兴趣,在忙碌的工作之余挤出一些时间。

也庆幸现在有 git、jupyter 之类工具都可以帮助提高效率,几个人的文稿可以通过 git 上传组织、编辑修订,不会弄错,几台电脑这里写点,那里写点,也都很容易。很多年前,随身必须带着软盘、U 盘,非常不方便,还容易弄错。

Python 的 jupyter的确是学习神奇,在其中很方便的组织文字、写代码、运行等,都可以一起完成,不用在开发环境和 word 中来回切换,也还好之前已经习惯了使用 Markdown 语法,带来一些便利。

昨天,同事计算了一下,差不多这本书目前可以有380页左右,我们一算,也挺厚的了,超过了我原来的估算。希望年底前可以顺利出版。我们也不是什么大牛大神,只是希望自己的很多经验可以分享,有一些概念和问题可以说透。总觉得在中国,程序员之间的分享虽然有好转,但还是一般,原创的内容较少,回答问题的意愿也一般,其实技术这个东西始终在进步,没有太多好藏藏掖掖的。

于我自己,主要还是发现这个过程提升了不少水平,我负责的是整个书的章节编排,以及 Python 一些不那么基础的编程概念的解释,比如列表生成式、多线程、异步队列等,还有开发方法这些。对于 Python 的理解略微上了一个层次,也越发喜欢这门不那么年轻,但是仍然充满了活力的语言。

为了20年后的梦想

1995年-1996年,写了一本 Visual Basic 3-4的书,想必当时过于年轻,自以为是的文字很幼稚,文字不够代码来凑,其实也不是很负责。也缺乏持续更新的能力和勇气,当时我的编程经验全部来源于自学,做过的项目有几个,但不多,也不复杂。最关键是,对于 Visual Basic 本身的认识还是比较肤浅的。

想起来那时的确是充满了热情,白天也是完全没有办法写作,每天上班前,下班后,周末,几乎一年,花费在上。虽然作品不满意,还算是完成了。

20年后,又开始这样的梦想,前些年,比较空的时候到时也有想过,却不太了解行情,原来,现在出版行业也早就市场化运作了,只是要出书并不是那么难。

和同事们选择了自己相对还比较擅长和有独到体会的 Python 和其用在机器学习方面作为主题。因为外面 Python 的书其实也很多了,实在不想写一本简单的入门级,无疑,这个定位在中等水平的目标,让我们一方面提高很多,一方面也是绞尽脑汁,受累。

而今年工作的忙碌,到了这个岁数的种种事情,都耗用了很多时间和精力。不知道多少个晚上和周末,在看资料、写 demo 程序、组织文字、review 其他同事写的书稿,或许这就是梦想,这就是有梦想的力量吧!

记录一下,也有一些颓废的时候,作为鼓励。

python flask 写 api 如何返回自定义错误

在 python 开发中,利用 flask 写 restful api 函数的时候,除了标准的400、500等这些返回码通过 abort() 返回以外,怎么另外返回自定义的错误代码和信息呢?

我们碰到的业务场景是对于api 输入参数的各类校验以及在业务逻辑执行的时候,都会返回统一的400代码,同时也会返回我们约定的描述详细错误的代码以及描述字符串,提供给调用方来处理,这样可以让其用户体验做得更好,同时详细错误代码和描述字符串也会自动打印在 log 日志中。

flask 的官方文档中告诉我们:

默认情况下,错误代码会显示一个黑白的错误页面。如果你要定制错误页面, 可以使用 errorhandler() 装饰器

在写 restful api 的时候,并没有页面可以返回,我们可以在 flask 提供的代码基础上稍加改造如下。

在你的初始化 flask app 的相关代码中加入下面两个函数:

@app.errorhandler(CustomFlaskErr)
def handle_flask_error(error):

    # response 的 json 内容为自定义错误代码和错误信息
    response = jsonify(error.to_dict())

    # response 返回 error 发生时定义的标准错误代码
    response.status_code = error.status_code

    return response
class CustomFlaskErr(Exception):

    # 默认的返回码
    status_code = 400

    # 自己定义了一个 return_code,作为更细颗粒度的错误代码
    def __init__(self, return_code=None, status_code=None, payload=None):
        Exception.__init__(self)
        self.return_code = return_code
        if status_code is not None:
            self.status_code = status_code
        self.payload = payload

    # 构造要返回的错误代码和错误信息的 dict
    def to_dict(self):
        rv = dict(self.payload or ())

        # 增加 dict key: return code
        rv['return_code'] = self.return_code

        # 增加 dict key: message, 具体内容由常量定义文件中通过 return_code 转化而来
        rv['message'] = J_MSG[self.return_code]

        # 日志打印
        logger.warning(J_MSG[self.return_code])

        return rv

CustomFlaskErr 是我们自己写的处理错误的类,然后通过 @app.errorhandler(CustomFlaskErr) 这个装饰器在 flask 中注册。

具体功能在注释里基本都写了,我们看一下怎么使用这个自定义错误处理器。

# 用户名输入为空
if user_name is None:
    raise CustomFlaskErr(USER_NAME_ILLEGAL, status_code=400)

当需要处理某个错误的时候,rasie 刚才的 CustomFlaskErr,传递另外定义好的自己的错误代码,以及标准的返回代码;

上面说的常量定义文件可以参考如下:

USER_ALREADY_EXISTS = 20001  # 用户已经存在
J_MSG = {USER_ALREADY_EXISTS: 'user already exists'}

通过这样的机制,就做到了在具体 restful api 的业务逻辑代码中简单的进行各类自定义错误的处理,所有的错误处理是集中的,细颗粒度的错误代码和消息也是集中维护,便于扩展。

flask 官方文档和一些网上的资料都说比较简单,实践中摸索了这样的实现方式供参考。

python 中使用装饰器来统一检查 flask 用户权限

最近在一个项目中,需要判断 restful 接口函数传入的时候,是否之前已经登录状态是某个特定用户,以及该用户有没有指定的权限。检查下来如果没有的话,立刻返回错误,中断功能。

遮掩的场景虽然也可以通过标准的调用函数来操作,但都不如用装饰器来得简单。都知道装饰器好用不好写,废话不说,先来看看这个场景怎么实现,还是有一定的通用性的。

def validate_current_is_admin(f):
    @functools.wraps(f)
    def decorated_function(*args, **kws):
        # 需要在登录状态调用, 检查是否为有admin权限的用户登录,
        # 如果不是,返回错误码;
        if g.user.user_name != 'admin':
            raise CustomFlaskErr(USER_MUST_HAS_ADMIN_PRIVILEGE, status_code=401)

        # 验证权限是否为 admin, 不是的话,返回401错误
        if g.user.role_id != Permission.ADMIN:
            raise CustomFlaskErr(USER_MUST_HAS_ADMIN_PRIVILEGE, status_code=401)

        return f(*args, **kws)

    return decorated_function

这是一个标准的装饰器的写法,如果你要写一个简单的装饰器,整个框架可以参考。

装饰器调用举例:

@app.route('/api/create_user', methods=['POST'])
@auth.login_required
@validate_current_is_admin
def create_user():

    # 获得参数
    user_name = request.json.get('user_name')
    password = request.json.get('password')
......

 

核心代码的业务逻辑也不复杂,根据 flask 的 g 对象中预存的用户 user 进行检查处理,flask 的这些定义非常灵活,flask.g 怎么使用可以查看 flask 的文档。

这里的 user 以及相关的属性属于具体业务逻辑,就不展开解释了,可以望文生义。

因为不对 args 和 kws 这些参数进行解析和处理,所处理的是 flask 全局对象。最后将参数都原路打包返回即可,没有问题的话交给使用装饰器的代码继续处理。

这个例子比较简单,主要还是熟悉装饰器的基本用法。

python 之前因后果

如果你英语阅读还可以的话,推荐这个网站:The History of Python

2013年11月后就不再更新了,一共31篇 blog,讲的是 python 语言设计中的一些来龙去脉。我在搜索研究列表生成式的时候偶然看到了这个网站。

挺有趣的。

它更新的最后一篇文章是 The history of bool, True and False

或许你也像我一样被 python 的布尔值稍稍困惑过,我们可以看看当年这些天才的程序语言设计者到底是怎么想的。

python 单元测试中使用参数化测试技巧(parameterisation)

这篇文章介绍了在 python 的单元测试中如何使用参数化测试(parameterisation) 技巧来做到将测试数据和测试逻辑分离。Improve Python testing with parameterisation

的确,我们在应用程序中对于业务逻辑和数据的分离会做很好的考虑,但是在自动化测试,在单元测试中有时候会忽略这一点,我发现我也有这个问题,所以写出来的单元测试类似这样:

# test_prime.py
import unittest

from prime import is_prime


class TestIsPrime(unittest.TestCase):

    def test_x_negative(self):
        self.assertEqual(is_prime(-1), False)

    def test_x_zero(self):
        self.assertEqual(is_prime(0), False)

    def test_x_one(self):
        self.assertEqual(is_prime(1), False)

    def test_x_two(self):
        self.assertEqual(is_prime(2), True)

    def test_x_three(self):
        self.assertEqual(is_prime(3), True)

    def test_x_ten(self):
        self.assertEqual(is_prime(10), False)

    def test_x_fifty_three(self):
        self.assertEqual(is_prime(53), True)


if __name__ == "__main__":
    unittest.main()

而这篇文章中建议我们应该这样:

import unittest

from prime import is_prime


class TestIsPrime(unittest.TestCase):

    def test_is_prime(self):
        test_cases = [
            (-1, False),
            (0, False),
            (1, False),
            (2, True),
            (3, True),
            (10, True),
            (53, True),
        ]
        for x, output in test_cases:
            with self.subTest(name=str(x)):
                self.assertEqual(is_prime(x), output)


if __name__ == "__main__":
    unittest.main()

好处不言而喻。

python 3.x 的线程池模式实现多线程

之前发布在简书,我觉得简书还是一个做得非常好的写作平台,也有一定的互动,我现在比较纠结的就是在受众的广度、受众的亲疏、自己可以掌握的自由度、维护成本这些变量之间。

比如问题之一,简书虽然有很好的写作平台,但是我就是喜欢在 wordpress 里面自己折腾主题等等,怎么办。哎。

先从简书这里搬一些自己的文章过来。


看了不少书和资料,自认为对于 python 中的线程、进程、协程等略知一二了。

想实现一个多线程池的模型,但是也不想用 queue 甚至是 celery 这些,查了很多资料,国内的原创的不多,并且基本都是停留在 python 2.7 的时代,而且国内的文章即便用 google 搜索,大部分文章也是互相转载。国外的资料比较好的还是在 stackoverflow,国内的简书上好文章不少。

搜了半天,在 python 的官方文档上赫然有着一个例子:

The concurrent.futures module provides a high-level interface for asynchronously executing callables.
The asynchronous execution can be performed with threads, using ThreadPoolExecutor, or separate processes, using ProcessPoolExecutor. Both implement the same interface, which is defined by the abstract Executor class.

用 concurrent.futures 即可,然后

ThreadPoolExecutor is an Executor subclass that uses a pool of threads to execute calls asynchronously.

找了好久差点想自己实现(担心自己写的很烂)的线程池就在这里,例子如下:

import urllib.request

URLS = ['http://www.foxnews.com/',
        'http://www.cnn.com/',
        'http://europe.wsj.com/',
        'http://www.bbc.co.uk/',
        'http://some-made-up-domain.com/']

# Retrieve a single page and report the URL and contents
def load_url(url, timeout):
    with urllib.request.urlopen(url, timeout=timeout) as conn:
        return conn.read()

# We can use a with statement to ensure threads are cleaned up promptly
with concurrent.futures.ThreadPoolExecutor(max_workers=5) as executor:
    # Start the load operations and mark each future with its URL
    future_to_url = {executor.submit(load_url, url, 60): url for url in URLS}
    for future in concurrent.futures.as_completed(future_to_url):
        url = future_to_url[future]
        try:
            data = future.result()
        except Exception as exc:
            print('%r generated an exception: %s' % (url, exc))
        else:
            print('%r page is %d bytes' % (url, len(data)))

这个例子写得很清楚,可以直接运行,不过建议把那些网址换掉,因为 g*w 的关系。

没想到 python 的官方文档做的这么好,我准备从头到底先通读一遍。

从学习角度这个代码是够了,当然如果要用在真正的应用里面,还要考虑更多的事情哦!

学习 python 的可爱的孩子们

又是一个学期,时间真快,自己也不容易,这个学期14节课,风里来雨里去,来回就要1个多小时,坚持下来。今天终于是最后一节课,欢乐的考试时光。

还是希望现在这些条件越来越好的孩子们,可以好好学习电脑,学习编程,成为未来的栋梁之才!

小时候自己主要在中学和少科站,至今不能忘记当年格致中学的励幼娣、周柏生老师,少科站的曹文浩老师,谢谢他们的悉心指点,当年的我也有点像现在这些孩子,聪明、贪玩。很多道理都是后来才懂。

开源内部培训的 python 教程

这几年,作为布道者,始终在探索一些新的知识点,在 python 以及其应用的 restful api、数据统计、机器学习等领域算是略有斩获吧,也更加理解,作为初学者来说,如今的编程领域的确功能强大,但是门槛其实并不低。

在公司内部做了一段时间 python 培训,所以逐步将这些内部培训材料公开出来,目前是最基本的 python basic,也就是 python 的入门教材。

https://github.com/chinapnr/python_study

拙作,欢迎拍砖。希望之后有能力和时间继续各类 python 专题,特别是机器学习、NLP、flask、pandas 和 numpy 等,都非常有趣和功能强大,python 和 js、java 一样,几乎可以胜任任何领域的开发。