386c9e16337f5c9d781ae56e8efe6c0e
Python中import机制的实现原理(一)

Python中import机制的实现原理(一)

提起python,不得不提的就是它丰富的生态。不仅有内置的模块,如sys,也有强大的业界扩展,如scikit或者numpy。而这些强大的工具能力,仅仅需要通过import xxx这样简单的语句即可开箱即用,真是令人赞叹!而import背后流程究竟是如何实现的,是我们今天要探寻的重点。

之前在Python的模块实现机制,我们提到了模块对应的数据结构PyModuleObject,这个结构体描述了一个模块对象的构成,但是在运行过程中,模块对于我们程序的意义就是暴露出来的符号,无论符号背后对应的是变量还是方法。

如下代码示例显示了默认启动后创建的内置模块:__builtins__对应的符号:

 dir(__builtins__)
['ArithmeticError', 'AssertionError', 'AttributeError', 'BaseException', 'BufferError', 'BytesWarning', 'DeprecationWarning', 'EOFError', 'Ellipsis', 'EnvironmentError', 'Exception', 'False', 'FloatingPointError', 'FutureWarning', 'GeneratorExit', 'IOError', 'ImportError', 'ImportWarning', 'IndentationError', 'IndexError', 'KeyError', 'KeyboardInterrupt', 'LookupError', 'MemoryError', 'NameError', 'None', 'NotImplemented', 'NotImplementedError', 'OSError', 'OverflowError', 'PendingDeprecationWarning', 'ReferenceError', 'RuntimeError', 'RuntimeWarning', 'StandardError', 'StopIteration', 'SyntaxError', 'SyntaxWarning', 'SystemError', 'SystemExit', 'TabError', 'True', 'TypeError', 'UnboundLocalError', 'UnicodeDecodeError', 'UnicodeEncodeError', 'UnicodeError', 'UnicodeTranslateError', 'UnicodeWarning', 'UserWarning', 'ValueError', 'Warning', 'ZeroDivisionError', '_', '__debug__', '__doc__', '__import__', '__name__', '__package__', 'abs', 'all', 'any', 'apply', 'basestring', 'bin', 'bool', 'buffer', 'bytearray', 'bytes', 'callable', 'chr', 'classmethod', 'cmp', 'coerce', 'compile', 'complex', 'copyright', 'credits', 'delattr', 'dict', 'dir', 'divmod', 'enumerate', 'eval', 'execfile', 'exit', 'file', 'filter', 'float', 'format', 'frozenset', 'getattr', 'globals', 'hasattr', 'hash', 'help', 'hex', 'id', 'input', 'int', 'intern', 'isinstance', 'issubclass', 'iter', 'len', 'license', 'list', 'locals', 'long', 'map', 'max', 'memoryview', 'min', 'next', 'object', 'oct', 'open', 'ord', 'pow', 'print', 'property', 'quit', 'range', 'raw_input', 'reduce', 'reload', 'repr', 'reversed', 'round', 'set', 'setattr', 'slice', 'sorted', 'staticmethod', 'str', 'sum', 'super', 'tuple', 'type', 'unichr', 'unicode', 'vars', 'xrange', 'zip']

这些属于默认你即可使用的符号,而像sys这样的模块,则需要通过单独的import sys才能将模块内的符号暴露出来,比如sys.setrecursionlimit

好,既然提到了符号暴露,我们就要思考,这些符号是如何通过import来达到这一目的的,符号究竟暴露给了哪?

万变不离其宗,还是从字节码入手,简单来说,import最重要的几点就是import_name以及store_fast,前者用于加载,后者将加载出来的东西暴露给命名空间使用。(这块会在后文提及)

  0 LOAD_CONST               1 (-1)
  3 LOAD_CONST               0 (None)
  6 IMPORT_NAME              0 (sys)
  9 STORE_FAST               0 (sys)

我们从ceval.c来看看import_name对应的解释执行流程:

TARGET(IMPORT_NAME)
        {
            long res;
            w = GETITEM(names, oparg);
            x = WeDict_GetItemString(f->f_builtins, "__import__");
            if (x == NULL) {
                WeErr_SetString(WeExc_ImportError,
                                "__import__ not found");
                break;
            }
            Py_INCREF(x);
            v = POP();
            u = TOP();
            res = WeInt_AsLong(u);
            if (res != -1 || WeErr_Occurred()) {
                if (res == -1) {
                    assert(WeErr_Occurred());
                    WeErr_Clear();
                }
                w = WeTuple_Pack(5,
                            w,
                            f->f_globals,
                            f->f_locals == NULL ?
                                  Py_None : f->f_locals,
                            v,
                            u);
            }
            else
                w = WeTuple_Pack(4,
                            w,
                            f->f_globals,
                            f->f_locals == NULL ?
                                  Py_None : f->f_locals,
                            v);
            Py_DECREF(v);
            Py_DECREF(u);
            if (w == NULL) {
                u = POP();
                Py_DECREF(x);
                x = NULL;
                break;
            }
            READ_TIMESTAMP(intr0);
            v = x;
            x = PyEval_CallObject(v, w);
            Py_DECREF(v);
            READ_TIMESTAMP(intr1);
            Py_DECREF(w);
            SET_TOP(x);
            if (x != NULL) DISPATCH();
            break;
        }

这段代码是不是有点懵逼,我们来逐部分解析:

  • 获取内置的import函数,通过x = WeDict_GetItemString(f->f_builtins, "__import__");,从默认内置模块,读取__import__符号,而这个符号是什么呢?对应的如下的一个内置函数builtin___import__

    {"__import__",      (PyCFunction)builtin___import__, METH_VARARGS | METH_KEYWORDS, import_doc},

    换句话说,一个模块的引入,就从builtin___import__开始。

  • 将需要import的名字,以及当前的名字空间(后文会介绍)等一起打包,进行装包,用于后续调用。

  • import成功的返回的模块暴露到可见空间中。

从虚拟机的角度来看,import的整体核心关键还是在于bulitin__import__,让我们一起来看看吧。

核心入口探究

首先先大致看一下,builtin___import__做了什么,其实现如下:

static PyObject *
builtin___import__(PyObject *self, PyObject *args, PyObject *kwds)
{
    static char *kwlist[] = {"name", "globals", "locals", "fromlist",
                             "level", 0};
    char *name;
    PyObject *globals = NULL;
    PyObject *locals = NULL;
    PyObject *fromlist = NULL;
    int level = -1;

    // 拆包
    if (!PyArg_ParseTupleAndKeywords(args, kwds, "s|OOOi:__import__",
                    kwlist, &name, &globals, &locals, &fromlist, &level))
top Created with Sketch.