正在建设中,主要通过将文献中内容输入给chatGPT以生成问答对的方式生成语料库,供天文机器人iris未来的训练使用。目前作者在软件技术和硬件配置上都无法完成大型语言模型的训练,因此希望该语料库可以方便有志于制作中文天文知识机器人的同好进行fine-tune。
StarGLM已发布!这是第一个中文天文学大语言模型,快去看看吧!
XGL_3rd.txt
使用chatGPT生成的原始语料,在语言组织、准确度等方面都较差,请不要使用;
iris_AstroQnA.txt
进行增补和整理之后的语料,共4000对问答,每两行为一组。
原语料采用了chatGPT生成的基于《天文学新概论(第三版)》的问答对。之后又基于维基百科(并不是直接复制而是做了修订,因为维基百科的中文水平实在是不敢恭维)和紫金山天文台关于历法的常见名词解释和问题解答对原语料库进行了补充。最后,南哪天协水群的群友们也贡献了一定力量。
目前,iris正运行着一个基于BM25字符串距离进行回答的python程序。从运行情况上来看,iris最擅长的是解答名词解释类问题。
目前该语料库涉及的知识点还十分基础,没有任何过于专业知识储备。另外,航天领域、天体观测与摄影领域以及近几年的天文新闻是该语料库的知识空白区。不管怎么说,4000个问题还是太少了,欢迎同好继续投喂。
基于《天文学新概论(第三版)》的整理工作完结,但是跳过了较复杂的理论计算、过时的天文探测和仪器建设项目。你问我为什么不喂新版本?因为新版本都是扫描本啊......
由于chatGPT的生成结果并不总是令人满意,我会在力所能及的前提下进行勘误。但是个人能力毕竟有限,未免有疏漏之处,欢迎同好进行指正和补充。
花了几天对原来的语料库进行了整理和增补,并在iris上实装了“全应答”功能来进行天文问答。
已经将南京大学天文爱好者协会群中到目前为止投喂的语料加入,感谢各位群友。另外,本项目在StarGLM项目中被提及,不胜荣幸qaq