对话肖特特：从伯克利到PromptAI创业发明创造下一代视觉智能_智慧地灾

2025-01-11 智慧地灾

　　在计算机视觉领域，近日一位年轻学者引起了广泛关注，他就是肖特特博士，这位曾在加州大学伯克利（UC Berkeley）获得博士学位的青年才俊。肖特特博士在近日的采访中分享了他从学术界到创业的转变，以及如何在人工智能技术的前沿，推动通用视觉智能的发展。

　　随着AI技术的加速发展，特别是在语言处理方面取得的重大进展，视觉模型却显得相对滞后。为何会出现这样一种情况？肖特特认为，是因为视觉输入的多样性和复杂性远高于文本数据，机器在理解空间信息时面临更加大的挑战。“传统的学习方法需要庞大的数据量，数据标注的经济属性往往不合理，因此还没有一套统一的算法来解决计算机对空间信息的理解。”

　　令人瞩目的是，2023年Meta AI发布的“Segment Anything Model”（SAM）便是这一领域的重要突破。SAM模型可以通过交互，无需特定的类别标注，对现实世界中的动态物体进行分割，以此来实现更高效的空间信息处理和理解。功效显著的SAM获得了ICCV2023最佳论文荣誉提名，成为推动视觉智能发展的新里程碑。肖特特参与了SAM的研究，他表示：“以往我们通过增加类别来提升模型效果，而SAM放弃了过往的拘束，为CV新时代打开了一道门。”

　　不同于上一代的视觉智能，新时代的空间智能最大的应用场景在于具身智能的发展。这在某种程度上预示着有望利用AI技术让无人驾驶、机器人等设备拥有如同人类般的感知和行动能力。对此，肖特特形象化道：“智能不仅是看见，更是理解与行动的能力。”

　　谈到创业的初衷，肖特特强调了AI在帮助人类解决繁琐任务和提升生活品质方面的巨大潜力。“我们未来想要发明的是一种具有人对空间的感知能力的视觉智能模型。”

　　通过分析当前技术与利用新兴科技的结合，肖特特决定在研究生涯末期成立初创公司PromptAI，致力于打造通用视觉智能平台。“今天，我们拥有能力创造技术，也有责任去发明新的人与机器交互方式，我们年轻的创业团队就为了实现这一目标。”

　　肖特特继续深入探讨，在未来5-10年内，计算机视觉将致力于解决真实世界的复杂问题。尤其是针对视频理解能力，努力打破单帧限制，以便于从时间和空间两方面更好地观察和理解世界。这为计算机视觉的发展提出了新的标准——要像人类一样理解物体的在空间中的运动，识别远近与大小，从而在复杂环境中做出合理的决策。

　　“随着对真实世界更深入的理解，AI的推理能力将进入新境界。”肖特特指出，计算机的视觉系统要与现实环境真正互动，进而获得更深层次的智能——这一理念与“世界模型”的构建紧密相连。世界模型不仅包括逻辑推理，还关系到物体如何在时间中移动、在空间中遇上问题的预测能力。

　　在被问及AI是否能创造艺术时，肖特特表示，虽然AI在生成内容方面表现突出，但它并未具备人类所特有的经历及情感。艺术的创造不仅限于细节的展现，更是对外在和内心世界深刻理解的表达。AI目前更多扮演着工具的角色，而无法真正体验艺术带来的情感共鸣。

　　尽管如此，肖特特认为，AI在提升创作效率和丰富人类的艺术表现手段上，依然有着无法替代的作用。他提到，一些优秀的AI创作工具可以在某些特定的程度上提升这方面的工作效率，像“简单AI”这样的工具便是致力于帮助用户更轻松地进行创作与表达。

　　最后，肖特特展望了未来：“作为技术的创造者和引领者，我们这一代人需要对自己的责任有所觉悟，不仅要发展技术，更要关注其可能带来的负面影响和伦理困境。”

　　随着PromptAI的持续不断的发展，肖特特及其团队将继续在计算机视觉的前沿进行探索与创新，力争为未来的智能世界提供更全面、丰富的视觉理解能力。这不仅是一份创业的使命，更是对 AI 未来潜力的深刻思考与实践。

[上一篇] 把握底层逻辑构建AI教育体系

[下一篇] 未来5年最好工作的5个专业