毫无疑问，人工智能在2023年掀起了波澜，在这里，我们聚焦今年最重要的故事，这些故事将塑造这个开创性行业的未来。

AI的进步

在今年人工智能进步的前景中，取得了显著进展，改进了现有技术，而不是引入类似于前一年的ChatGPT或图像生成器的突破性创新。虽然没有令人惊叹的效果，真正的通用人工智能（AGI）还很遥远，但今年标志着之前的突破和更强大的东西之间的中间阶段。为了展示这一演变，我们制作了一个视觉时间表，突出了塑造今年人工智能的最显著的人工智能进步：

图像生成

Adobe’s Firefly: Adobe’s Firefly和Generative Fill支持多种视觉内容的创作，包括插图、艺术概念和照片处理。Adobe Firefly集成到Photoshop中，使人工智能民主化，将其力量一下子扩展到广泛的用户群。文本效果功能的发布也标志着一个重大的进步，允许用户将样式或纹理应用于单词和短语。Midjourney: V.5 model 标志着图像生成的一个里程碑，展示了改进的效率、连贯性和更高的分辨率。最新的alpha版本Midjourney V.6带来了额外的增强功能，如更准确的提示跟随、增加的模型知识和少量的文本绘制能力。DALL·E 3: 基于ChatGPT，DALL·E 3简化了图像生成，消除了对复杂提示工程的需求。此外，ChatGPT还推出了一项功能，帮助用户完善提示并根据反馈进行图像调整。Shutterstock.AI: 这家股票图像巨头集成了AI功能，允许用户将提示转换为许可证图像。Shutterstock认可并奖励有贡献的艺术家，迈出了道德人工智能的第一步。

视频生成

Stability AI :Stability AI引入了Stable Video Diffusion，这是一个开创性的生成视频模型，可在GitHub上开源访问。与人工智能图像生成趋势平行，稳定视频扩散模型很可能在人工智能生成视频的很大一部分创建中发挥关键作用。HeyGen : 一家人工智能初创公司推出了一款用于语音克隆、嘴唇运动调整和视频语言翻译的工具。Runway Gen-2: Runway推出了Gen-2型号，使用户可以轻松地从文本提示、图像或其他视频中生成完整的视频。看看下面的例子就知道了。Pika and Pika 1.0: Pika的首次发布获得了50万用户，每周生成数百万视频。随后，Pika 1.0中升级的人工智能模型使用户能够创建和编辑各种风格的视频，包括3D动画、动漫、卡通和电影。Codec avatars by Meta: Meta’s Pixel Codec Avatars (PiCA) 模型使我们更接近于真实感的遥现。

文本生成

Bard and Gemini: Google’s Bard为聊天机器人增添了人性化的情感。Google’s Gemini被引入Bard聊天机器人，并在多模式数据集上进行训练，成为“最有能力”的人工智能模型，也是OpenAI的ChatGPT最接近的竞争对手。Grok: 埃隆·马斯克的初创公司xAI通过推出“Grok” —— 一个通过站台xAI承诺Grok旨在回答其他人工智能系统拒绝的挑衅性问题。OverflowAI: Stack Overflow的Overflow AI增强了知识管理，使人工智能能够在Visual Studio Code和Slack中搜索相关答案。Llama 2: Meta发布了其下一代开源大型语言模型Llama 2，展示了增强的效率。Meta经过微调的LLM也针对对话用例进行了优化，在大多数基准测试中表现优于其他开源模型。GPT-4: penAI的GPT-4现在处理图像输入，生成字幕、分类、听到并在来回对话中做出响应，并支持实时网络浏览。OpenAI还扩展了对插件的支持，形成了一个充满开源竞争对手的局面。GPT-4是OpenAI开发AGI的下一步。Mistral 7B: 今年估值约20亿美元的Mistral AI发布了Mistral 7B，这是一个挑战GPT-4和Claude 2的大型语言模型。Mistral AI强调开放的技术方法，提供了免费下载的模型。Mixtral 8x7B: Mistral AI还推出了Mixtral 8x7B，这是一种具有开放权重的高质量稀疏混合专家模型（SMoE），具有46.7B的总参数，开创了模型的开放性，增强了真实性，减少了偏差。Yi-34B llm: 李开复的初创公司01.AI今年的估值为10亿美元，发布了Yi-34B——一种开源神经网络，其参数计数显著高于竞争模型，强调了其成本效益。

其他优势：

Segment Anything Model (SAM): Meta AI提出了SAM，这是一种能够在没有额外训练的情况下“剪切”图像中的对象的分割模型，强调了其适应性。SAM是在庞大的数据集上进行训练的，展示了其在对象分割方面的强大性能。Direct Preference Optimization (DPO): DPO是一种稳定有效的方法，用于微调大规模无监督语言模型和教学文本到图像模型。它实现了精确的控制，而无需从人类反馈（RLHF）中进行复杂的强化学习。Zephyr Direct Distillation of LM Alignment: Zephyr-7B是蒸馏直接偏好优化（dDPO）的结果，为具有7B参数的聊天模型设定了基准，在没有广泛训练的情况下增强了意图比对。Autonomous AI Agents: 自主人工智能代理成为一个显著的趋势，展示了向先进和自主人工智能系统的变革。人工智能代理被认为是AGI的第一眼，因为它们可以根据用户的目标生成自我指导的任务和指令，并在实现目标之前自主工作。EvoDiff: 微软的EvoDiff是一个用于快速和节省成本的蛋白质生成的开源人工智能框架，有望在治疗和工业应用方面取得进展。Stable Audio: 稳定AI推出了一款工具，用于从简单的文本提示中生成高质量的短音频片段。GPT Store, Copyright Shield, ChatGPT Bot Constructor: OpenAI引入了GPT Store来销售自定义GPT机器人，版权盾来支付与版权侵权索赔相关的法律费用，以及用于自定义ChatGPT版本的无代码平台。Stability AI Open-Sourced its LLM: Stability AI已开源其模型StableLM Alpha和Stable Vicuna，以其在生成文本和代码方面令人印象深刻的性能而闻名。Stable Vicuna是第一个使用人类反馈强化学习（RLHF）进行训练的开源聊天机器人。此外，Stability AI推出了实时文本到图像生成模型SDXL Turbo。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 admin@ziniu.cc 举报，一经查实，本站将立刻删除。如若转载，请注明出处：http://123.ziniu.cc/321.html

2023年 – 人工智能年

AI的进步

相关推荐