码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 突破万字长文输出瓶颈!清华大学开源 LongWriter-6k 数据集;7 个 CCF A 类顶会即将截稿


    当前的长上下文大模型虽能处理海量文本的输入,但由于长输出示例的匮乏,使其在生成长篇内容时却力不从心。为解决这个问题,清华大学的研究团队构建了 LongWriter-6k 数据集,能够将大模型的最大输出窗口大小扩展至 10,000+ 字!

    借助 LongWriter-6k 训练的模型,不仅在小说创作中可以生成情节跌宕起伏、篇幅超长的精彩小说,让读者沉浸在一个宏大的文学世界中;在学术研究方面,它还能够生成详尽的研究报告和论文综述,为科研人员提供丰富的参考资料。

    hyper.ai 官网现已上线「LongWriter-6k 长上下文输出数据集」,还支持在线使用, 下拉文章获取链接~

    8 月 19 日-8 月 23 日,hyper.ai 官网更新速览:

    • 优质公共数据集:10 个

    • 优质教程精选:2 个

    • 社区文章精选:2 篇

    • 热门百科词条:5 条

    • 9 月截稿顶会:7 个

    访问官网:hyper.ai

    公共数据集精选

    1. LongWriter-6k 长上下文输出数据集

    该数据集包含 6k 篇 SFT 数据,输出长度为 2k-32k 字(包括英文和中文),可支持训练 LLM,将其最大输出窗口大小扩展至 10,000+ 字。

    直接使用:https://go.hyper.ai/77byR

    2. EVOBC 甲骨文文字演化数据集

    该数据集包含研究人员系统地从权威文献和网站收集的 6 个历史阶段的古代文字,由代表 13,714 个不同字符类别的 229,170 张图像组成。

    直接使用:https://go.hyper.ai/oe5fU

    3. HUST-OBS 甲骨文识别数据集

    该数据集包含超 14 万幅图像,这些图像来自 3 个不同的来源,包括书籍、网站和现有数据库,是迄今为止最大的 OBS 识别和解密数据集之一。

    直接使用:https://go.hyper.ai/bXxx1

    4. Alpaca-Cleaned 指令微调数据集

    Alpaca-Cleaned 数据集是对斯坦福大学于 2024 年发布的原始 Alpaca 数据集的清理版本。该数据集解决了原始 Alpaca 中的一些问题,比如幻觉性回答、合并指令、空输出和不一致的输入字段等,从而提高了数据的质量和一致性。

    直接使用:https://go.hyper.ai/yNlAa

    5. Al Medical Chatbot 医学对话数据集

    这是一个为运行医学聊天机器人而设计的实验数据集,它包含 256,916 条患者与医生之间的对话。

    直接使用:https://go.hyper.ai/kaGzv

    6. Openstory++ 大规模图像实例数据集

    Openstory++ 专为解决现有图像生成模型在长文本上下文中,难以保持实例一致性的问题而设计。它通过结合图像和文本的实例级注释,提供了一个丰富的资源,使其能够在长文本上下文中生成具有高度一致性的图像。

    直接使用:https://go.hyper.ai/no3E7

    7. MedTrinity-25M 大规模多模态医学数据集

    MedTrinity-25M 包含了超过 2,500 万张医学图像,涵盖了 10 种成像模式,还标注了 65 种以上的疾病。此数据集不仅包含丰富的全局及局部注释,同时还在多种模态(如 CT 、 MRI、 X 光等)中整合了多层次的信息注释。该数据集将为医学图像处理、报告生成、分类和分割等多模态任务提供巨大的支持,同时推动基于医学的人工智能模型的预训练。

    直接使用:https://go.hyper.ai/JCSJP

    8. 1920 raider waite tarot 塔罗牌图像数据集

    这个数据集包含了原始 Rider-Waite Tarot Deck 中 78 张牌的图像和相关文本描述,为研究者和艺术家提供了丰富的资源进行塔罗牌艺术和象征意义的探索,可用于训练模型生成塔罗牌风格的图像。

    直接使用:https://go.hyper.ai/8bd2R

    9. Waterloo Exploration 大规模图像质量评估数据库
    该数据库包含 4,744 张原始自然图像和 94,880 张由这些原始图像创建的失真图像,可用于测试图像质量评估模型的泛化能力。
    直接使用:https://go.hyper.ai/m5mhN

    10. SWE-bench Verified 代码生成评估基准数据集

    该基准是对现有 SWE-bench 的改进版本(子集),旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。

    直接使用:https://go.hyper.ai/oxOBY

    更多公共数据集,请访问:

    https://hyper.ai/datasets

    公共教程精选

    1. ComfyUl AuraFlow 文生图工作流 Demo

    这个模型在 GenEval 上实现了最先进的结果,在文生图任务上拥有更高的处理效率,更好的细节呈现。该教程为使用 ComfyUI 部署 AuraFlow 文生图模型,模型和相关环境配置已经搭建完毕,一键克隆即可进行推理使用。

    直接使用:https://go.hyper.ai/KpI4B

    2. Whisper Web 在线语音识别工具

    Whisper 基于 ML 进行语音识别,并可通过 WebGPU 进行运行加速。支持 100 多种语言的线上/本地音频文件上传和即时录音,识别到的文本支持导出 TXT 和 JSON 两种文件格式,还可以直接翻译为英文。该教程是基于 GitHub 上的开源项目 Whisper Web,直接在浏览器中运行使用 Whisper。

    直接使用:https://go.hyper.ai/N3iwm

    社区文章精选

    1. 抗击化疗耐药性与肿瘤复发!山东大学研究团队用 AI 构筑乳腺癌干细胞的有力防线

    近日,山东大学吕海泉、孙蓉、张凯及山西医科大学梅齐,联合螺旋矩阵公司等研究团队,取得了突破性进展,运用机器学习技术,基于 mRNA 的分析,成功开发了一种评估原发性乳腺癌患者样本中癌症干细胞特性的新方法 BCSC signature。本文是对研究论文的详细解读与分享。

    查看完整报道:https://go.hyper.ai/SPAjK

    2. 上海交大周冰心博士:锚定稀缺生物数据挑战,图神经网络重塑蛋白质理解与生成

    在上海交通大学 AI for Bioengineering 暑期学校中,上海交通大学周冰心博士以「图神经网络与蛋白质结构表征」为主题,向大家分享了图神经网络的定义、优势、及其在蛋白质预测与生成等领域的前沿应用。本文是周冰心博士分享的精华实录。

    查看完整报道:https://go.hyper.ai/GjXi5

    3. 入选 ACL2024 主会 | InstructProtein:利用知识指令对齐蛋白质语言与人类语言

    浙江大学研究团队提出 InstructProtein,利用知识指令对齐蛋白质语言与人类语言,展示了将生物序列整合到大型语言模型的能力。本文是对研究论文的详细解读与分享。

    查看完整报道:https://go.hyper.ai/GjXi5

    热门百科词条精选

    1. 配对 t 检验 Paired t-Test

    2. 倒数排序融合 RRF

    3. 帕累托前沿 Pareto Front

    4. 变分自编码器 VAE

    5. 数据增强 Data Augmentation

    这里汇编了数百条 AI 相关词条,让你在这里读懂「人工智能」:

    https://go.hyper.ai/wiki

    在这里插入图片描述

    一站式追踪人工智能学术顶会:https://go.hyper.ai/event

    以上就是本周编辑精选的全部内容,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

    下周再见!

    关于 HyperAI超神经 (hyper.ai)

    HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区, 致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

    • 为 1300+ 公开数据集提供国内加速下载节点

    • 收录 400+ 经典及流行在线教程

    • 解读 100+ AI4Science 论文案例

    • 支持 500+ 相关词条查询

    • 托管国内首个完整的 Apache TVM 中文文档

    访问官网开启学习之旅:

    https://hyper.ai/

  • 相关阅读:
    外包干了10个月,技术退步明显...
    SQL注入漏洞(postgresql注入)
    shopee跨境选品工具——知虾,助您精准选品和科学运营
    探索实人认证API:保障在线交互安全的关键一步
    多语言多平台给线程增加命名
    Element UI 多选表格【翻页多选】全能版(含翻页多选数据反显、toggleRowSelection失效的原因解析和解决方案)
    【阿旭机器学习实战】【17】KMeans聚类算法中如何选择合适的聚类个数K
    Navicat只导出数据,不导出表结构方法
    数据结构-选择排序Java实现
    从单车智能到车路协同,均胜电子正在加快智能驾驶商业化进程
  • 原文地址:https://blog.csdn.net/HyperAI/article/details/141529696
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号