天天射综合网

TTIC青年研究员研讨会系列以博士演讲为特色。 其研究受到计算机科学界广泛关注的学生和博士后。 该系列文章为从事早期职业的研究人员提供了向TTIC和附近大学的学生和教师介绍最新工作并与他们见面的机会。

研讨会通常在星期三上午10:30在TTIC 526室举行。

要接收有关研讨会系列的公告,请订阅邮件列表

有关更多信息,请联系Matthew Walter(mwalter@guiyanggangguankoujian.com)

标题: 深度学习中的优化前景

日期: 2019年11月6日

演讲者: 麻省理工学院川口健治

主持人:内森· 斯雷布 (Nathan Srebro )( nati@guiyanggangguankoujian.com

摘要:深度学习已在各种应用程序中提供了影响很大的数据驱动方法。 但是,深度学习的理论保证往往会提供过于悲观的见解,与实际观察相差甚远,这通常是由于隐藏的特殊属性所致。 识别此类特殊属性可以提供新颖的理论见解,并且可能有助于理解和设计实用方法。 在本演讲中,我将讨论深度神经网络的非凸优化景观的特殊属性,以及它们对梯度下降方法的影响以及在实际应用中的一些结果。


标题: 探索学习神经网络的替代损失

日期: 2019年12月4日

演讲者: 德州大学Surbhi Goel

主持人:内森· 斯雷布 (Nathan Srebro )( nati@guiyanggangguankoujian.com

摘要:开发可证明有效的算法来学习常用的神经网络体系结构仍然是机器学习中的核心挑战。 潜在的困难来自神经网络带来的优化问题的高度非凸性。 在本演讲中,我将讨论凸代理替代损失对解决这种潜在的非凸性的影响。 我将重点介绍ReLU回归的设置,并展示凸替代代理如何使我们在具有挑战性的不可知论模型中获得近似保证。 我将进一步展示这些技术如何为简单的卷积和完全连接的体系结构带来积极的成果。


标题: 待定

日期: 2020年2月19日

演讲者: 麻省理工学院的Dylan Foster


标题: 待定

日期: 2020年4月22日

演讲者: Becca Roelofs



标题: 从次优数据中学习

日期: 2019年5月1日

演讲者: 多伦多大学的Bradly Statie

主持人: Gregory Shakhnarovich( gregory@guiyanggangguankoujian.com

摘要:学习算法通常假定其输入数据具有良好的性质。 如果有人获取了这些输入数据并用它训练了一个代理,那么该代理应该在给定足够的时间和计算能力的情况下,最终学会如何解决预期的任务。 但这并不总是现实的期望。 有时,提供给业务代表的数据有缺陷或无法完全传达出正确的问题。 换句话说,输入数据不是最佳的。 在本次演讲中,我们将讨论克服次优数据的两个最新进展。

首先,我们从次优示范中考虑模仿学习的问题。 在这种情况下,机器人会收到失败或有缺陷的任务演示。 它必须学会仅从这些失败的演示中推断并随后完成预期的任务。 提出了有关各种机器人技术问题的结果,例如开门,取放。

其次,我们考虑从次优奖励函数中学习的问题。 通常,通过组合低级原语(例如代理位置和速度)来提供提供给强化学习代理的奖励函数。 例如,机器人学习走路的奖励可能是其前进速度加上其头部位置。 这些奖励功能首先是要供人类使用,而不是供RL算法使用。 因此,可能有可能学习到更好的内在奖励函数,从而使RL算法更容易针对其进行优化。 我们提供了一种学习这种内在奖励函数的新算法。 与针对原始手工设计的奖励功能进行优化相比,针对这些学习到的内在奖励进行优化可以带来更好的整体业务代表绩效。 至关重要的是,这些奖励功能可以在不花费大量额外计算成本的情况下即时学习。 给出了各种MuJoCo任务和一些困难的机器人技术问题(如块堆叠)的结果。


标题: 多项式的非交互协议和降维

日期: 2019年5月8日

演讲者: 麻省理工学院Pritish Kamath

主持人:内森· 斯雷布 (Nathan Srebro )( nati@guiyanggangguankoujian.com

摘要:利用和随机工作的能力一直是信息论和理论计算机科学的核心。 这次演讲特别有趣的是,在地理上分散的一组参与者使用随机性。 例如,随机性可以使此类各方生成并共享秘密。

由联合分布P(x,y)和目标字母大小k指定的“非交互式协议蒸馏”问题定义如下:两个玩家观察序列(X_1,…,X_n)和(Y_1,…,分别从P(x,y)绘制{{X_i,Y_i)}的情况下得出Y_n)。 两位玩家都查看他们的随机性份额,并输出[k]元素。 他们的目标是最大程度地提高其产出相同的可能性,同时确保其产出略微统一。

给定P(x,y)和k,玩家可以实现的最大相关性(同意概率)是多少? 事实证明,即使在某些动机良好的特殊情况下,也无法很好地理解此值。 先验地,这个值甚至都不是“可计算的”,因为玩家为了达到最佳可能的关联而需要抽取的样本数量没有上限。

本演讲将描述最近的工作线,该工作线获得了使ε接近最大可实现相关度所需的样本数量的明确界限。 结果的核心是一种称为“多项式降维”的新技术。 可以将其视为著名的Johnson-Lindenstrauss引理的推广,在这种情况下,它对应于1级多项式的特殊情况。 我们相信这项技术可能会引起广泛的兴趣。

本讲座将讨论该问题的动机方面,其与理论计算机科学中其他问题的道德和技术联系,并将主要关注“多项式的维数约简”技术。

基于与Badih Ghazi,Prasad Raghavendra和Madhu Sudan的合作作品。 [ arXiv:1607.04322arXiv:1708.03808 ]


标题: 待定

日期: 2019年5月13日

演讲者: Richard Zhang,Adobe

主持人: Gregory Shakhnarovich( gregory@guiyanggangguankoujian.com

摘要:近年来,深度卷积网络已被证明非常擅长区分性标签任务。 网络不仅可以解决直接任务,而且还可以学习视觉世界的有效,一般表示形式。 我们探索使用深层网络进行图像生成或合成。 生成具有挑战性,因为很难表征图像的感知质量,并且通常存在多个“正确”答案。 但是,我们证明了网络确实可以执行图像生成的图形任务,并且这样做可以了解视觉世界的表示方式,甚至不需要手工绘制的标签。

我们提出了BicycleGAN,这是一个用于图像到图像翻译问题的通用系统,其特定目的是捕获输出空间的多峰性质。 我们将进一步研究图像着色并开发自动和用户指导的方法。 此外,着色以及一般的跨通道预测是用于自我监督表示学习的简单但功能强大的借口任务。 我们展示了向高级语义任务(如图像分类)和低级人类感知相似性判断的强大转移。 对于后者,我们收集了人类判断的大规模数据集,发现我们的方法优于传统指标(例如PSNR和SSIM)。 我们还发现,许多无监督和自我监督的表示形式都具有很强的传递能力,甚至可以与完全监督的方法相提并论。 尽管深度卷积表示法具有很强的传递性能,但令人惊讶地缺少基本的低层属性-移位不变性。 我们建议将经典但被忽视的信号处理技术(低通滤波)纳入现代深度网络体系结构。


标题: 对深度表示及其在医疗保健中的应用的见解

日期: 2018年10月17日

演讲者: 康奈尔大学(Maitra Raghu),康奈尔(Cornell)

主持人:内森· 斯雷布 (Nathan Srebro )( nati@guiyanggangguankoujian.com

摘要:过去几年,在从语音识别到医疗保健的各个领域中应用深度神经网络取得了巨大的成功。 但是,随着这些模型变得越来越复杂并同时用于更敏感的应用程序,更好地理解和理解深度表示的属性变得越来越重要。 在本次演讲中,我概述了规范相关分析(SVCCA)的发展,该研究是研究和比较由深度神经网络学习的潜在表示的工具。 结果提供了关于学习动态的见解,有助于确定在何处学习不同的概念,并能够测量概括和记忆网络的相似性。 我通过预测医疗保健环境中医生分歧的任务证明了模型设计中代表性考量的重要性。


标题: 从声音中学习视线

日期: 2018年3月28日

演讲者: 安德鲁·欧文斯(Andrew Owens)

主持人: Gregory Shakhnarovich( gregory@guiyanggangguankoujian.com

摘要:从杯子上的碰杯到繁忙的咖啡馆的喧嚣,我们的时代充满了视觉体验,并伴随着独特的声音。 在本次演讲中,我们展示了这些声音可以为学习视觉模型提供丰富的训练信号。 首先,我们提出了预测物体撞击时发出的声音的任务,作为研究视觉场景中物理相互作用的一种方法。 我们通过训练一种算法为视频产生合理的音轨,以证明人们在其中用鼓槌敲打和刮擦物体,从而证明了这一想法。 其次,我们证明环境音频(例如,海浪,人群中的讲话)也可以用于学习视觉模型。 我们训练一个卷积神经网络来预测场景中发生的声音的统计摘要,并且我们证明了学习到的视觉表示传达了有关对象和场景的信息。 最后,我们提出了一种无监督学习方法,用于训练融合音频和视频数据的多模态网络,并将学到的表示形式应用于许多视听学习任务。


标题: 深度机器人学习中的泛化和自我监督

日期: 2018年2月28日

演讲者: 切尔西·芬恩

主持人: Matthew Walter( mwalter@guiyanggangguankoujian.com

摘要:机器学习算法的主要优势是可以让工程师首先将问题简化为特定功能(例如图像分类器),然后为该功能收集大量带标签的输入输出对。 与之形成鲜明对比的是,人类能够以最少的外部指令从原始感官数据流中学习。 在本次演讲中,我将争辩说,为了构建像人类一样强大的智能系统,不应在一种特定应用程序的背景下训练机器学习模型。 相反,我们应该设计一种通用的系统,可以在无结构的环境中学习而无需提供人工提供的详细标签,并且可以在处理高维感官输入的同时完成许多任务。 为此,这些系统必须能够主动探索和试验,自己收集数据,而不是依靠详细的人为标签。

我的演讲将重点关注该目标的两个关键方面:多功能性和自我监督。 首先,我将展示如何通过使机器人学习高容量模型(例如深度网络)来从原始像素代表复杂技能的方式来摆脱针对机器人环境的手工设计,针对特定任务的表示。 我还将介绍一种算法,该算法学习可快速适应不同对象,新视觉概念或变化环境的深度模型,从而导致多种行为。 除通用性之外,人类智能的标志是自我监督学习。 我将讨论如何允许机器人在没有任何人工监督的情况下通过与环境中的物体一起玩耍来学习。 通过这种经验,机器人可以获取物理世界的视觉预测模型,该模型可用于将许多不同的对象操纵到不同的目标。 在所有情况下,我们在模拟和真实机器人平台上进行的实验都证明了可以将具有新颖对象的复杂,基于视觉的技能扩展的能力。


标题: 看,听和说:与自然语言交流的视觉系统

日期: 2018年2月14日

演讲者: 丽莎·安妮·亨德里克斯

摘要:在深层卷积网络和大规模视觉数据集的支持下,现代视觉系统能够准确识别数千种视觉类别。 但是,图像和视频包含的内容远远超过分类标签:它们包含有关对象位于何处(在森林还是厨房中?),对象具有什么属性(红色或蓝色?)以及对象如何与其他对象交互的信息。场景中的物体(孩子是坐在沙发上还是在野外奔跑?)。 自然语言为视觉系统提供了一种有效且直观的方式来传达有关视觉场景的重要信息。 在本演讲中,我将首先讨论“看和说”的视觉系统。 特别是,我将考虑如何通过集成外部数据源来创建更具可扩展性的图像字幕系统。 然后,我将讨论“听和看”的视觉系统。 我将用自然语言在视频中介绍片刻本地化的任务,并详细说明我为此工作收集的大规模数据集的工作。 最后,自然语言为视觉系统提供了一种不仅讨论场景中的内容,而且还讨论图像中的对象和属性如何支持决策(例如分类决策)的方式。 我将讨论视觉系统,这些视觉系统不仅仅可以命名场景中的对象,还可以生成视觉解释,以证明神经网络决策的合理性。


标题: 学习对象和场景的单视图3D重建

日期: 2018年1月24日

演讲者: Shubham Tulsiani

主持人: Gregory Shakhnarovich( gregory@guiyanggangguankoujian.com

摘要:在本次演讲中,我将讨论推断图像基础的3D结构的任务,特别着重于两个问题-a)我们如何合理地获得此任务的监督信号,以及b)我们应采用哪种形式的表示形式。 首先,我将展示我们可以通过使用几何作为学习系统和可用间接监督之间的桥梁,利用基于图像的监督来学习单视图3D预测。 我们将看到,这种方法可以跨各种设置学习3D结构,例如预测对象的可变形模型或体积3D,或推断场景的分层深度图像。 然后,我将主张推断可解释和合成的3D表示的情况。 我将提出一种方法,该方法通过尝试使用体积图元组装形状以无监督的方式发现对象之间的连贯构图结构,然后演示预测复杂场景的相似分解3D表示的优势。


标题: 优化算法的动态视图

日期: 2017年10月25日

演讲者: Ashia Wilson

主持人:内森· 斯雷布 (Nathan Srebro )( nati@guiyanggangguankoujian.com

摘要:优化是统计,机器学习和数据分析中的核心原语。 在这些领域中,现代数据集的规模和复杂性迅速增长,导致人们将注意力集中在两类算法上:梯度法和动量法(也称为加速法)。 内斯特罗夫(Nesterov)于1983年首次提出的动量法比梯度法具有更快的收敛速度。 但是,与梯度方法不同,它们不是下降方法,提供可靠的性能保证仍然是一个挑战。 在欧几里得的环境中,动量法可以理解为对阻尼谐波振荡器的动力学建模。 然而,要使这种直觉变得精确,并将其推广到其他几何形状一直很困难。 此外,动量方法的推导不是基于单一的基本原理,而是倾向于使用特定案例的代数,而代数是使用一种称为估计序列的技术(被许多人认为是深奥的)

我们的工作的第一部分介绍了一个可变的,连续时间的框架,用于理解动量方法。 我们表明存在一个拉格朗日函数族,我们称为Bregman拉格朗日函数,该函数在连续时间内生成与动量方法相对应的动力学。 特别地,动量方法可以理解为源自应用于这些连续时间动态的各种离散化技术。 我们工作的第二部分加强了这种联系。 我们演示了如何导出Lyapunov函数族,这些族可以证明连续时间动量动力学的收敛速度。 我们进一步演示了动量方法收敛性的证明如何理解为移到离散时间时李雅普诺夫函数的离散误差。 一路上,我们证明了这些Lyapunov函数族与估计序列技术之间的等效性。 以下是与Andre Wibisono,Stephen Tu,Shivaram Venkataraman,Alex Gittens,Benjamin Recht和Michael I. Jordan的合作。


标题: 面向分层多尺度递归神经网络及其应用

日期: 2017年6月7日

演讲者: 钟俊英

摘要:递归神经网络的最近兴起已导致机器翻译,语音识别,语音合成和字幕生成等各种应用中的显着进步。 但是,学习分层表示和时间表示已成为递归神经网络的长期挑战之一。 多尺度递归神经网络已被认为是解决该问题的一种有前途的方法,但是缺乏经验证据表明这种类型的模型可以通过发现序列的潜在层次结构来实际捕获时间依赖性。

在本次演讲中,我将谈论我以前在多尺度递归神经网络上的工作。 我将展示具有额外门控单元的深度循环神经网络如何以不同的时标更新其层并发现序列的底层层次结构。 分层多尺度递归神经网络具有消除标准递归神经网络固有问题的潜力。 另外,所学习的分层结构对于许多其他下游任务可能是有用的信息,例如提取用于视频理解的故事片段,自适应压缩语音识别序列以及在分层强化学习中提取子任务结构。


标题: 样本最优推断,矩方法和社区检测

日期: 2017年5月17日

演讲者: 塞缪尔·霍普金斯

主持人: Madhur Tulsiani( madhurt@guiyanggangguankoujian.com

摘要:我们为贝叶斯估计问题(即隐藏变量,潜在变量或植物问题)提出了一种简单有效的元算法。 我们的算法使用低次多项式以及新的且高度鲁棒的张量分解方法。 我们关注于一个问题:对于给定的估计问题,多项式时间算法需要多少个样本(最多低阶加性项)才能获得对隐藏变量的良好估计? 我们的元算法具有广泛的适用性,可针对许多经过充分研究的问题(包括许多先前算法高度针对问题的问题)实现统计或推测的计算样本复杂性阈值。

作为一个运行示例,我们采用了随机块模型-广泛研究的包含潜在社区结构的随机图模型族。 我们针对该模型中的部分恢复问题恢复并统一了最著名的样本复杂度范围的证明。 我们还为恒定度图中的节点结构可能同时参与许多社区的社区结构的部分恢复提供了第一个可证明的保证。 众所周知,该模型具有很高的样本复杂度阈值–样本数量少于特定数量时,就不可能恢复群落结构。 尽管以前对此现象的解释吸引了统计力学的精辟思想,但我们根据低次多项式的性质给出了一个新的简单解释。


发言题目: 基于上下文条件的生成对抗网络的半监督学习

日期: 2016年11月30日

演讲者: 艾米丽·丹顿(Emily Denton)

主持人: Greg Shakhnarovich( gregory@guiyanggangguankoujian.com

摘要:本次演讲的主要焦点将是基于对抗损失的基于绘画的新的简单的半监督学习方法。 去除了随机色块的图像会根据周围的像素呈现给生成器,生成器的任务是填充孔。 然后,将绘画的图像呈现给鉴别器网络,以判断它们是否是真实的(未经更改的训练图像)。 此任务充当鉴别器的标准监督训练的规则化器。 使用我们的方法,我们能够以半监督方式直接训练大型VGG风格的网络。 我们对STL-10和PASCAL数据集进行评估,我们的方法所获得的性能可与现有方法相比或更高。


标题: 面向任务的神经对话系统

日期: 2016年11月9日

演讲者: 温宗宪(Shawn)

主持人: Karen Livescu( klivescu@guiyanggangguankoujian.com

摘要:通过与人自然对话来完成任务的教学机器具有挑战性。 当前,开发面向任务的对话系统需要创建多个组件,通常这涉及大量的手工制作或获取昂贵的标记数据集以解决每个组件的统计学习问题。 在这项工作中,我们介绍了一种基于神经网络的文本输入,文本输出的端到端可训练的面向目标的对话系统,以及基于新颖的流水绿化向导框架收集对话数据的新方法。 这种方法使我们能够轻松地开发对话系统,而无需对当前任务进行太多假设。 结果表明,该模型可以自然地与人类受试者交谈,同时帮助他们完成餐馆搜索领域的任务。


标题: 数据分析问题的条件二次硬度

日期: 2016年10月26日

演讲者: Arturs Backurs

主持人: Yury Makarychev( yury@guiyanggangguankoujian.com

摘要: NP硬度理论在识别不太可能在多项式时间内解决的问题方面非常成功。 但是,许多其他重要问题的确有多项式时间算法,但是它们的运行时范围内的指数较大,可能会使它们在实践中效率低下。 例如,二次时间算法虽然适用于中等大小的输入,但对于涉及千兆字节或更多数据的大数据问题可能会变得效率低下。 尽管对于许多数据分析问题,尚不知道次二次时间算法,但仍然没有任何二次时间硬度的证据。

在本演讲中,我将概述旨在纠正这种情况的最新研究。 特别是,我将概述两个问题的条件硬度结果:计算两个字符串之间的编辑距离,并以高精度解决由支持向量机(带有高斯核)定义的优化问题。 具体来说,我们表明,如果对于某个常数delta> 0可以在时间O(n ^ {2-delta})中解决这两个问题中的任何一个,则具有N个变量和M个子句的合取范式公式的可满足性可以是对于常数ε> 0,在时间M ^ {O(1)} 2 ^ {(1-ε)N}中求解。 后者的结果将违反强指数时间假说,后者假设此类算法不存在。


标题: 学习文本到3D场景生成的空间先验

日期: 2016年10月19日

演讲者: 张安杰

主持人:凯文· 金珀 (Kevin Gimpel)( kgimpel@guiyanggangguankoujian.com

摘要:从自然语言形成视觉解释世界的能力对于人类交流至关重要。 能够将场景描述映射到3D几何表示形式在许多应用程序(例如机器人技术和会话助手)中很有用。 在本次演讲中,我将介绍3D场景生成中的文本任务,其中自然语言的场景描述将自动转换为合理的3D场景解释。 例如,句子“带红色沙发和电视的客厅”应生成现实的客厅布置,将电视放在沙发前,并由电视柜支撑。 这项任务位于NLP和计算机图形学的交叉点,并且需要这两种技术。

这项任务面临的主要挑战是,几何解释的空间很大,而自然语言文本通常指定得不够明确,从而忽略了有关世界的共享常识。 我将描述如何从虚拟环境中学习一组空间先验,并使用它们来推断给出自然语言描述的对象的合理排列。 我将展示虚拟3D场景和自然语言描述的平行语料库可用于提取参考与具体3D对象(例如,“ L形红色沙发”和该对象的虚拟几何表示)之间的可能耦合。 最后,我将讨论在NLP,图形以及更广泛的AI交汇处的一些令人振奋的方向。


标题: 神经网络中的记忆与通讯

日期: 2016年10月5日上午10:00

演讲者: Sainbayar Sukhbaatar

主持人: David McAllester( mcallester@guiyanggangguankoujian.com

摘要:在本次演讲中,我将谈论我最近的两篇关于为神经网络装备外部存储器和通信的著作。 在第一部分中,我将解释如何将外部存储器附加到神经网络。 存储器可以存储可变数量的项目,然后可以通过软注意机制对其进行访问。 可以通过简单的反向传播对整个模型进行端到端训练。 由于该模型可以选择读取输入的哪一部分,因此它适合于结构混乱的任务,例如阅读短篇小说后的提问。 在第二部分中,我将讨论多个神经网络如何学习相互交流以解决共同任务。 代替使用离散的符号进行通信,我们允许网络交换连续的向量,以便可以通过反向传播对其进行训练。 我将演示有关多主体强化学习任务的模型。


标题: 随着时间的推移,利用未贴标签的视频了解场景

日期: 2016年9月21日

演讲者: 卡尔·冯德里克

主持人: Gregory Shakhnarovich( gregory@guiyanggangguankoujian.com

摘要:学习对时间有深刻理解的模型是机器感知中的关键问题。 但是,对大型的,带有标签的视频数据集的需求是一个主要障碍,因为视频通常很昂贵,而且注释不明确。 在本次演讲中,我们利用了数年未标记的野生视频来训练两个时间任务(视觉预期和声音识别)的模型。 首先,我们提出了一种用于多模态回归的深层卷积网络,使我们能够对不确定性进行建模并更准确地预测人类行为。 为了支持像素级的预测,我们引入了分层的生成视频模型,以促进视频的密集外推。 其次,我们利用视频在视觉和声音之间的自然同步来学习深层的声音表示,我们的实验表明这些知识可以学习一些高级语义。 我们认为,无标签视频是感知的宝贵资源,并且会影响机器人技术,识别和预测中的许多应用。


标题: 用于基础语言学习的模块化神经架构

日期: 2016年9月28日

演讲者: 雅各布·安德里亚斯

主持人:凯文· 金珀 (Kevin Gimpel)( kgimpel@guiyanggangguankoujian.com

摘要:语言理解取决于两种能力:在自然语言话语和含义的抽象表示之间进行翻译的能力,以及将这些含义表示与感知世界相关联的能力。 在自然语言处理文献中,这些任务分别称为“语义解析”和“基础”,并已被视为本质上独立的问题。 在本次演讲中,我将介绍两种模块化的神经体系结构,用于共同学习世界上的语言基础以及其构成的原因。

我将首先描述一种使用语法信息从可组合原语动态构建神经网络的技术。 由此产生的结构称为“神经模块网络”,可用于在各种基础的问答任务上获得最新的结果。 接下来,我将介绍一个用于上下文引用表达生成的模型,在该模型中,对比行为是通过学习到的语义学和推理驱动的语用学的结合而产生的。 该模型再次得到模块化神经组件的支持-在这种情况下,是基本的听众和说话者表示。 它能够成功完成具有挑战性的参照表达生成任务,表现出务实的行为,而无需在训练时观察到这种行为。 最后,我将概述该框架在控制和计划问题上的可能应用。


标题: 从RGB-D图像中了解场景

日期: 2016年5月11日

演讲者: 伯克利的索拉布·古普塔

主持人: Greg Shakhnarovich( gregory@guiyanggangguankoujian.com

摘要:在本次演讲中,我将讨论从RGB-D图像进行的详细场景理解。 我们通过研究中央计算机视觉问题(例如自下而上的分组,对象检测,实例分割,RGB-D图像上下文中的姿势估计),最后将CAD模型与场景中的对象对齐来解决此问题。 这样产生的详细输出超出了大多数当前计算机视觉算法所产生的输出,并且对于诸如感知机器人和增强现实的现实世界应用很有用。 鉴于标记的RGB-D数据集比通常用于特征学习的标记的RGB数据集(如ImageNet)要小得多,因此这项工作中的中心问题是如何学习深度图像的良好特征。 To this end I will describe our technique called “cross-modal distillation” which allows us to leverage easily available annotations on RGB images to learn representations on depth images. In addition, I will also briefly talk about some work on vision and language that I did on an internship at Microsoft Research.


Title: Neural Dialogue Generation

Date: April 20, 2016

Speaker: Jiwei Li (Stanford University)

Host: Kevin Gimpel ( kgimpel@guiyanggangguankoujian.com )

Abstract:天天射综合网 Recent neural generation models present both new opportunities and new challenges for developing conversational agents. In this talk, I will describe how we have advanced this line of research by addressing four different issues in neural dialogue generation: (1) overcoming the overwhelming prevalence of dull responses (eg, “I don't know”) generated from neural models; (2) enforcing speaker consistency; (3) leveraging information from conversational history; and (4) applying reinforcement learning to foster sustained dialogue interactions.


Title: Initialization and Dual Expressivity of Neural Networks

Date:天天射综合网 March 9, 2016

Speaker: Roy Frostig (Stanford)

Host: Nati Srebro ( nati@guiyanggangguankoujian.com )

Abstract: Neural network learning is seeing wide empirical success as an applied machine learning tool, yet we have only a nascent theoretical understanding of its recent advances, and of the design choices made in achieving them. In turn, the tools in use are often without guarantees and without useful formalisms to guide their development.

In this talk, I will present recent work that establishes a duality between neural networks and a certain notion of compositional kernels. The connection clarifies the effective modeling capacity of networks due to their architecture. We show that the data representation induced by networks under a common random initialization scheme is rich enough to express all functions in their dual kernel space. Indeed, in this space, easily learnable functions (/img.e. those of low norm) are expressive according to a succinct graph structure underlying the network architecture. An immediate upshot is that, although the network training objective is hard to optimize in the worst case, the initial weights form a good starting point from a modeling perspective (ie in inducing features).

The talk is based on a paper (arXiv:1602.05897) from work joint with Amit Daniely and Yoram Singer.


Title: Using Motion to Understand Objects in the Real World

Date:天天射综合网 March 2, 2016

Speaker: David Held (Stanford)

Host: David McAllester ( mcallester@guiyanggangguankoujian.com )

Abstract:天天射综合网 Many robots today are confined to operate in relatively simple, controlled environments. One reason for this is that current methods for processing visual data tend to break down when faced with occlusions, viewpoint changes, poor lighting, and other challenging but common situations that occur when robots are placed in the real world. I will show that we can train robots to handle these variations by modeling the causes behind visual appearance changes. If we model how the world changes over time, we can be robust to the types of changes that objects often undergo. I demonstrate this idea in the context of autonomous driving, and I show how we can use this idea to improve performance on three different tasks: velocity estimation, segmentation, and tracking with neural networks. By modeling the causes of appearance changes over time, we can make our methods more robust to a variety of challenging situations that commonly occur in the real-world, thus enabling robots to come out of the factory and into our lives.


Title: Machine Learning for Observational Studies

Date:天天射综合网 February 17, 2016

Speaker: Uri Shalit (NYU)

Host: Nati Srebro ( nati@guiyanggangguankoujian.com )

Abstract: The proliferation of data collection in the healthcare, educational, and economic spheres, brings with it opportunities for extracting new knowledge with concrete policy implications. Examples include identifying best medical practices from electronic healthcare records, or understanding the implications of different teaching techniques from board of education surveys. Such policy decisions often hinge on understanding causal links - does medication A cause better outcomes than medication B? However, unlike randomized studies where a treatment is assigned to a random subpopulation, learning causal links from these so-called “observational studies” is difficult, because confounding factors might obscure the true causal links underlying the observed data.

天天射综合网 In this talk I will discuss observational studies from a machine learning perspective. I will then show how we use machine learning techniques to try and learn causal relationships from these studies. Specifically we will discuss two methods: one based on using integral probability metrics to optimally re-weigh the data, and the other based on learning a balanced representation, using ideas from domain adaptation.


Title: Locality-Sensitive Hashing and Beyond

Date:天天射综合网 February 10, 2016

Speaker: Ilya Razenshteyn (MIT CSAIL)

Host: Yury Makarychev ( yury@guiyanggangguankoujian.com )

Abstract: Locality-Sensitive Hashing (LSH) is a powerful technique for the approximate nearest neighbor search (ANN) in high dimensions.

In this talk I will present two recent results.

1) I will show a data structure for ANN for the Euclidean distance that provably outperforms the best possible LSH-based data structure. We proceed via designing a good data-dependent hash family.

2) I will show a practical and optimal LSH family for the cosine similarity (aka Euclidean distance on a sphere). It substantially outperforms the celebrated Hyperplane LSH family. Along the way, I will try to debunk two popular myths about LSH:

* LSH-based data structures consume too much memory and are thus impractical;

* Optimal LSH constructions are too complicated to be made practical.

The talk is based on two papers: arXiv:1501.01062 (joint with Alexandr Andoni, STOC 2015) and arXiv:1509.02897 (joint with Alexandr Andoni, Piotr Indyk, Thijs Laarhoven and Ludwig Schmidt, NIPS 2015).


Title: End-to-End Speech Recognition using Deep LSTMs, CTC Training and WFST Decoding

Date:天天射综合网 February 3, 2016

Speaker: Yajie Miao (CMU)

Host: Karen Livescu ( klivescu@guiyanggangguankoujian.com )

Abstract: Deep learning has tremendously improved the performance of automatic speech recognition (ASR). Despite this progress, developing ASR systems remains a challenging task, requiring various resources, multiple training stages and significant expertise. This talk will present Eesen, an end-to-end ASR framework which drastically simplifies the existing speech recognition paradigm. Acoustic modeling in Eesen involves learning a single deep Long Short-Term Memory (LSTM) network predicting context-independent phonemes or characters. We adopt the connectionist temporal classification (CTC) objective function to learn the alignments between speech and label sequences. A nice property of Eesen is a generalized decoding method based on weighted finite-state transducers (WFSTs), which enables the efficient incorporation of lexicons and language models into CTC decoding. With experiments on various datasets and languages, we will see that our end-to-end systems achieve comparable recognition accuracy to the state-of-the-art hybrid approach. In addition, we will present empirical analysis to shed light on how CTC training behaves under different conditions.