综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
近日,GPT-4o的原生多模态图像生成能力引发关注。通过自回归模型,它能够快速生成包括语义分割、深度图、PBR材质在内的多种图像类型,甚至能解析复杂的伪装图像,如NASA工程师测试特斯拉自动驾驶系统时使用的“隐形墙”。这一技术突破对计算机视觉、3D渲染及设计领域带来冲击,部分从业者担忧其可能取代传统工具和专业技能。尽管有观点认为类似效果可通过Stable Diffusion结合ControlNet实现,但GPT-4o的高效性和通用性仍令人瞩目。OpenAI未公开具体技术细节,但从现有线索推测,其采用多尺度自回归机制逐步完善图像生成。此外,有研究指出解码阶段可能结合扩散模型。此技术的出现标志着基础模型扩展应用领域的潜力巨大,具体影响还需进一步观察。
原文链接
标题:十年拍立淘:一部视觉算法技术演变史
在人类历史中,技术革命往往是产业升级的关键。计算机视觉技术的工作原理与人类视觉相似,但它依赖摄像头、数据和算法在短时间内完成任务。
计算机视觉自上世纪60年代以来不断发展,从特征工程和传统机器学习方法到2012年深度学习的广泛应用,技术取得了重大突破。在淘天...
原文链接
蚂蚁集团在2024年国际计算机视觉与模式识别会议(CVPR2024)上取得显著成就,24篇论文入选,其中一篇被重点推荐。会议于6月17日在西雅图举行,蚂蚁的研究涵盖计算机视觉、深度学习等领域,如创新的视频处理方法CoDeF。SkySense多模态遥感模型已在网商银行的卫星风控系统中应用,助力精准农业评估。此外,蚂蚁技术研究院的论文展示了AI的可靠性提升和经济性优化,如通过可学习提示的视觉语言模型蒸馏技术。国内高校和企业如清华大学等也积极参与,显示中国在生成式AI领域的积极布局。
原文链接
加载更多
暂无内容