在飞桨星河社区,我曾经开发过的四个应用。第一个,文心一言情感关怀之旅;第二个,一站式求职小助理,提供职业发展规划、简历生成、简历匹配和面试问题推荐等服务,为求职者带来便利,提高求职的针对性和成功率;第三和第四个应用分别是AI艺术二维码的生成和AI艺术字与logo生成,这些都应用了PPDiffusers中的Stable Diffusion和ControlNet技术,可以个性化生成个人艺术二维码以及更美观的AI艺术字和logo;此外,用户还可以加入自己的创意,打造个人独特标识。
本次主要分享“文心一言情感关怀之旅”应用的开发心得和技术路线。
1.应用介绍
“文心一言情感关怀之旅”本质是一个创新性人工智能应用,旨在通过图像信息提取、大语言模型生成和语音合成等技术为用户提供情感支持和温暖的故事体验。
在现代社会中,人们常常会感到孤独、压力和困惑。尤其是在面对工作、学习和生活中的挑战时,很多人缺乏情感上的支持和鼓励。通过人工智能技术的应用,“文心一言情感关怀之旅”应用旨在为用户提供温暖、慰藉和希望。
该应用致力于为用户提供情感支持和慰藉。通过提供温暖的故事,并以富有感情的声线读出,帮助用户减轻压力和焦虑,舒缓孤独感和抑郁情绪,保持积极的情感状态和健康的心理状态。
“文心一言情感关怀之旅”应用不仅为个体提供情感支持,还能鼓励用户之间的社交互动。用户可以通过分享故事和体验与他人交流,建立情感纽带,从而感受互助和合作的力量,增强社会联结。
“文心一言情感关怀之旅”项目在人工智能和情感关怀领域进行了技术创新。该项目通过整合图像处理、自然语言生成和语音合成等技术,为人工智能技术在情感关怀方面的应用拓展了新的可能性,为相关领域的发展做出了贡献。
该应用采用CLIP和BLIP模型进行图像关键信息提取。这两个模型能够结合图像处理和语言理解的能力,准确提取上传图片中的关键信息,包括场景、人物、物品等,为后续故事生成和语音合成提供可靠基础。
该应用通过调用ERNIE SDK,充分利用文心大模型能力,生成富有情感和温暖的故事。文心大模型具备学习和模仿文学作品风格的能力,能够根据关键信息创作出打动人心的故事,给用户以积极向上的情感支持。
情感关怀是多个维度的,多模态技术的利用可以让情感关怀拓展到视觉、听觉等多个形态,让情感关怀更加生动。该应用通过语音合成技术,将生成的故事转化为自然流畅的语流,使用户能够通过听故事的方式,沉浸式地感受AI的温暖与关怀。
https://aistudio.baidu.com/projectdetail/6688854
https://aistudio.baidu.com/application/detail/8929
在介绍具体步骤之前,我们先总体了解一下该应用是如何实现的。
首先,通过图像理解大模型CLIP和BLIP对用户输入的场景图像进行理解,获得图像中的关键信息,如场景、人物等。用户也可以手动添加关键信息,或者对模型输出的关键信息进行修正和优化。通过百度翻译API将所获得的关键信息进行翻译为中文。
接着,使用ERNIE SDK调用文心大模型能力,获得图像关键信息,生成合乎逻辑、适用于不同年龄段、不同兴趣受众的生动且正能量的精彩故事。
最后,使用长文本语音合成API完成对生成故事的语音合成,提供多种语音角色,满足不同受众需求。
总的来说,整个过程分为图片关键信息提取、故事生成和语音合成三个步骤。除此之外,凭借ERNIE SDK提供的文生图功能,还可以对用户提供的图片进行二次创作。
接下来,我们看一下这个应用的几个功能具体是怎么实现的。打开飞桨星河社区,点击项目进行Fork,就可以运行里面的代码了。
首先,需要配置项目的环境。在项目对应模块点击运行,就可以进行一键安装和配置。
第一步,对进行图像中关键信息的提取。这一步需要用到CLIP Interrogator。
运行下列这段代码,即可进行这一图像的输出。
使用CLIP Interrogator从图像中得到的关键信息是英文的,而文心大模型更擅长处理中文。因此,为了提升最终的处理效果,调用百度翻译API对英文关键词进行翻译。
大家可以根据我所罗列的一些步骤调用百度翻译API。
第二步,使用ERNIE SDK进行故事生成。文心大模型基于海量的中文数据训练,具有强大的对话问答、内容创作生成等能力。相较于其他大模型,其具有更快的响应速度和更丰富的功能。ERNIE SDK集成文心大模型能力,可用于开发各种自然语言处理应用,例如智能客服、聊天机器人、外语翻译器等。使用ERNIE SDK,开发者可以轻松地构建出高效、稳定、可靠的自然语言处理应用。
第三步,通过调用语音合成API,将文本合成为自然流畅的语音,从而为用户提供更加丰富的语音交互体验。
接下来,点击任意一个example,实现API_KEY、SECRTE_KEY和图片自动填充。
当然,也可以自主上传图片;通过选择儿童、成人或者老人等目标受众,生成相应的内容。
在此过程中,我们还可以选择想要的语音形态,包括语速、音量等,设置完毕后就可以进行睡前故事体验。
大概30秒就能生成中文或英文的故事,并以匹配的语音输出。
一键体验:https://aistudio.baidu.com/application/detail/8929
大家可以一键直达了解里面的具体内容,也可以将其集成到自己的的应用中。
用户可以通过输入图片、关键词完成故事创作,文心一言会根据图片和关键词生成一个富有创意、正能量的故事,符合所选受众的价值观以及个人情感需求。除此之外,生成的文字性内容也可以转换为语音、视频。
本文地址:http://lianchengexpo.xrbh.cn/quote/10749.html 迅博思语资讯 http://lianchengexpo.xrbh.cn/ , 查看更多