柯家凯,深度学习、自然语言处理领域专家。他曾率领的Google Brain小组在机器翻译、语言理解等方向做出多项重要贡献。
目前,我们习惯上把机器学习研究中的任务分为监督式任务和无监督式任务。在监督式任务中,训练数据包括输入(即问题)和与之对应的输出(即答案),通过训练让系统学习输入与输出之间的映射关系,从而使其在新的输入数据上能够做出正确的分类或预测。在无监督式任务中,训练数据只包括输入数据,没有输出数据,我们期望通过训练发现数据的内在结构。这种方法可以用在无标注数据的聚类、降维等场景下。
然而,仅靠监督和无监督这两种方式,我们可能无法把所有的人类语言现象都模拟出来。所以在未来,我们还需要实现另一种学习方式,叫做“自监督学习”,也就是让计算机从大量不同的文本中学习一些基础的语言知识,然后进行更深层次的推理或是理解。
柯家凯认为,未来,人的语言模型会变得无处不在。以及Web搜索、广告、社交媒体、智能音箱、移动设备等各种产品,都会用到语言模型,帮助人们更好地交流和了解信息。