前言
一、人工智能AI
1.基本概念
2.相关领域
2.1基础设施
2.2大模型
2.3大模型应用
二、大事记
2024年
2024-07-25 Openai推出SearchGPT AI搜索引擎
2024-07-24 Lamma 3.1 405B发布
2024-05-21 国内大模型大降价
2024-05-15 谷歌AI大会
2024-05-14 腾讯文生图大模型发布
2024-05-14 GPT-4o发布
2024-02-15 Sora发布
2023年
2023-03-14 GPT-4.0发布
2022年
2022-11-30 ChatGPT发布
总结
2022年11月30日openai的ChatGPT横空出世,他通过简单的自然语言交互方式,实现内容生成、知识创造、意图识别、解决问题多种功能需求,让通用人工智能(AGI)更近一步。人工智能(AI)领域开启了新的一轮火爆场面,各大厂商纷纷入局、跟进。
2024年北京时间凌晨openai发布了GPT-4o,这次让AI具备了情绪识别与表达,离真实的人类沟通更近一步。于此同时,各项性能、推理速度比GPT都要更好。很多人在看了发布会的演示视频,表示GPT-4o的表现很惊艳。
未来的某个时刻,可能那时候已经进入了更加AI的时代,再回首当时的某个时刻,会是一种什么心境呢?这个瞬间,就想把AI领域的一些大事记录一下。
持续更新…
随着科技的不断进步和数据的爆炸式增长,AI人工智能正成为当今社会的一个热门话题。而在AI领域中,大模型无疑是当前的热点之一。大模型指的是拥有庞大参数量和复杂结构的神经网络模型,这种模型能够处理更加复杂的任务,并在推理和生成方面取得更好的效果。大模型的成功离不开近年来计算能力的大幅提升和数据集的规模扩大,同时也离不开智能学习算法的不断优化和创新。
大模型的应用范围非常广泛,包括自然语言处理、计算机视觉、语音识别等各个领域。例如,在语言模型方面,大模型能够生成更加流畅、准确的文本,从而在自动写作、机器翻译等任务中发挥重要作用。在计算机视觉领域,大模型的应用可以使图像分类、目标检测等任务的准确度大幅提升。此外,大模型还能够支持更加复杂的应用场景,如推荐系统、智能问答等。
以大模型为主体,向上即大模型应用相关,向下即基础设施相关
2.1基础设施
最主要的就是算力,算力主要依赖的就是GPU,GPU又涉及到芯片
目前老美对我国高端芯片进行卡脖子,我国一众芯片厂商也在发力突破
这块GPU资源主要在各个大厂、云服务器厂商了
2.2大模型
大模型基础架构是transformer,在此基础上又有gpt(多数是gpt)、bert等
大模型又分开源、闭源
闭源大模型,以openai的GPT系列最牛、Claude实力同样强劲。
开源模型以llama为主,国内部分大模型也是基于开源模型研发的
最近一段时间以来,又有了MoE(专家混合模型)。
国内大模型实力不错也比较活跃的大模型有文心、千问、智谱、月之暗面(长上下文)、零一。其中千问、智谱、零一均有开源大模型。最新开源的MoE大模型是DeepSeek,推理速度是很快,而且价格很便宜。
从模态分还可以分为单模态、多模态
2.3大模型应用
这块东西应该是最多的,毕竟搞大模型需要的人是少数,多数还是在应用层面
大模型开发部署平台,包括大模型的数据集、训练、微调、提示词管理等功能
chat应用,每个大模型基本都有对应的chat应用,也有一些开源的chatyui支持接入不同的大模型
AI应用开发平台,像dify、coze都属于这种,智谱也有类似的,基本是每个应用有一个系统提示词,然后再配合知识库、rag、甚至agent、workflow实现复杂功能
AI应用开发编排框架,langchain、llamaindex、autogpt(agent开发)等
推理加速工具,像llama.cpp、vllm等
2024-07-25 Openai推出SearchGPT AI搜索引擎
目前还处于测试阶段,这样比较稳妥,有助于在过程中不断发现问题、改进体验
根据目前试用测试的截图,效果还是挺好的,前端可以根据不同搜索结果有不同的显示,而且速度也很快
2024-07-24 Lamma 3.1 405B发布
能力可以和最强闭源模型相媲美,也是目前参数量最大的开源模型。
2024-05-21 国内大模型大降价
上午通义千问,下午百度千帆,均宣布api降价或免费
第二天,讯飞星火也宣布api免费
大家都要努力争取用户,但是实际看呢,降费或免费的api其实level还差一些,不过免费就是好的,一起竞争吧,竞争中成长、成熟
当天零一当家的评论说,一下子大降价其实不太好,成本是慢慢下降的,不是一下子下来,他们的不跟着这么玩的,确实这么玩,没有雄厚资金的厂商会很被动。
2024-05-15 谷歌AI大会
2024年的谷歌AI大会(Google I/O 2024)发布了许多引人注目的新功能和更新。以下是一些亮点:
-
Project Astra:谷歌的AI助手技术,旨在创建一个能够理解用户环境上下文的“通用AI代理”。对标ChatGPT
-
Veo:谷歌的视频生成模型,能够生成高质量1080p分辨率的视频。对标Sora
-
Gemini 1.5 Pro:谷歌的旗舰生成性AI模型,处理上下文的能力显著提升。
-
AI在Android中的应用:谷歌计划将Gemini作为助手引入Android,作为一个覆盖层,用户无需切换应用即可使用Gemini。
-
LearnLM:一系列专为个性化学习体验设计的AI模型。
-
SynthID:一个水印工具,最初设计用于识别AI生成的图像,现在扩展到包括文本和视频内容。
-
Trillium:谷歌自定义AI加速器,张量处理单元(TPU)的第六代,是迄今为止性能最强的TPU。
-
AI Overviews:谷歌搜索中的新功能,利用Gemini模型提供搜索结果的总结和洞察。AI搜索
-
Circle to Search:AI驱动的功能,允许用户通过在手机屏幕上画圈或高亮文本来解决问题。
-
NotebookLM的音频输出:NotebookLM现在包含音频输出,利用Gemini 1.5 Pro将源材料转换为个性化的交互式音频对话。
-
Gemini Nano:谷歌将推出的最新模型,提供快速、个性化的体验,同时优先考虑用户数据的隐私。
2024-05-14 腾讯文生图大模型发布
腾讯混元大模型在2024年5月14日宣布推出一款15亿参数的开源文生图模型。这个模型采用了与OpenAI于2024年2月发布的文生视频模型Sora相同的DiT(Diffusion with Transformer)架构。这种架构结合了多用于文本的Transformer架构和多用于多模态的Diffusion架构,以实现更好的多模态理解能力和更丰富的内容生成。腾讯表示,这一模型在语义理解、画面质感和真实性方面较前代有显著提升
2024-05-14 GPT-4o发布
openai再次以行业领先的表现展现给世人。GPT-4o可以感知情绪,可以类似人类进行沟通交流,基本可以实时的语音交互,还可以插嘴。
在性能表现上,推理速度要比目前的GPT4快,但是价格降了50%。而且还可以免费使用,当然是有额度限制。
然后这一天,很多人都在尝鲜GPT-4o,openai的目的也达到了
2024-02-15 Sora发布
Sora能够根据提示词生成60s的连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度 。
着实惊艳!
2023-03-14 GPT-4.0发布
它的推理逻辑能力,比GPT3.5更上一层楼,很多复杂的问题,它都能解决。
GPT-4.0也成了国内外各个大模型追逐比拼的目标,能在某些方面的表现超越GPT4.0都是很好的宣传