-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path2024-10-25_last_log.txt
135 lines (135 loc) · 35.4 KB
/
2024-10-25_last_log.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
[25.10.2024 20:13] [Experimental] Generating an image for paper Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss.
[25.10.2024 20:13] [Experimental] Image for paper Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss already exists.
[25.10.2024 20:13] [Experimental] Generating an image for paper LOGO -- Long cOntext aliGnment via efficient preference Optimization.
[25.10.2024 20:13] [Experimental] Image for paper LOGO -- Long cOntext aliGnment via efficient preference Optimization already exists.
[25.10.2024 20:13] [Experimental] Generating an image for paper Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch.
[25.10.2024 20:13] [Experimental] Image for paper Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch already exists.
[25.10.2024 20:13] [Experimental] Generating an image for paper Can Knowledge Editing Really Correct Hallucinations?.
[25.10.2024 20:13] [Experimental] Image for paper Can Knowledge Editing Really Correct Hallucinations? already exists.
[25.10.2024 22:11] Read previous papers.
[25.10.2024 22:11] Get feed.
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.17243
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18533
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.16251
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18693
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18978
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18975
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18798
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18745
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18775
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18451
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18538
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18362
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18977
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18976
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18958
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.15999
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.17779
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.15580
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18505
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18785
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18441
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18252
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18860
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18647
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18572
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.17897
[25.10.2024 22:11] Get page data from previous paper. URL: https://huggingface.co/papers/2410.18234
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 0. Contrastive loss is a powerful approach for representation learning, where larger batch sizes enhance performance by providing more negative samples to better distinguish between similar and dissimilar data. However, scaling batch sizes is constrained by the quadratic growth in GPU memory consumptio...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 1. Long-context models(LCMs) have shown great potential in processing long input sequences(even more than 100M tokens) conveniently and effectively. With significant progress, recent research has pointed out that LCMs can accurately locate token-level salient information within the context. Yet, the ge...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 2. Large Language Models (LLMs) suffer from hallucinations, referring to the non-factual information in generated content, despite their superior capacities across tasks. Meanwhile, knowledge editing has been developed as a new popular paradigm to correct the erroneous factual knowledge encoded in LLMs...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 3. The availability of high-quality data is one of the most important factors in improving the reasoning capability of LLMs. Existing works have demonstrated the effectiveness of creating more instruction data from seed questions or knowledge bases. Recent research indicates that continually scaling up...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 4. We propose Framer for interactive frame interpolation, which targets producing smoothly transitioning frames between two images as per user creativity. Concretely, besides taking the start and end frames as inputs, our approach supports customizing the transition process by tailoring the trajectory ...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 5. We introduce the concept of a generative infinite game, a video game that transcends the traditional boundaries of finite, hard-coded systems by using generative models. Inspired by James P. Carse's distinction between finite and infinite games, we leverage recent advances in generative AI to create...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 6. Solving complex chart Q&A tasks requires advanced visual reasoning abilities in multimodal large language models (MLLMs). Recent studies highlight that these abilities consist of two main parts: recognizing key information from visual inputs and conducting reasoning over it. Thus, a promising approa...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 7. Advancements in distributed training and efficient attention mechanisms have significantly expanded the context window sizes of large language models (LLMs). However, recent work reveals that the effective context lengths of open-source LLMs often fall short, typically not exceeding half of their tr...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 8. Current image watermarking methods are vulnerable to advanced image editing techniques enabled by large-scale text-to-image models. These models can distort embedded watermarks during editing, posing significant challenges to copyright protection. In this work, we introduce W-Bench, the first compre...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 9. In this report, we introduce a collection of methods to enhance reward modeling for LLMs, focusing specifically on data-centric techniques. We propose effective data selection and filtering strategies for curating high-quality open-source preference datasets, culminating in the Skywork-Reward data c...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 10. Segmenting an object in a video presents significant challenges. Each pixel must be accurately labelled, and these labels must remain consistent across frames. The difficulty increases when the segmentation is with arbitrary granularity, meaning the number of segments can vary arbitrarily, and masks...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 11. Web development involves turning UI designs into functional webpages, which can be difficult for both beginners and experienced developers due to the complexity of HTML's hierarchical structures and styles. While Large Language Models (LLMs) have shown promise in generating source code, two major ch...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 12. This research delves into the problem of interactive editing of human motion generation. Previous motion diffusion models lack explicit modeling of the word-level text-motion correspondence and good explainability, hence restricting their fine-grained editing ability. To address this issue, we propo...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 13. Recent years have witnessed a significant interest in developing large multimodal models (LMMs) capable of performing various visual reasoning and understanding tasks. This has led to the introduction of multiple LMM benchmarks to evaluate LMMs on different tasks. However, most existing LMM evaluati...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 14. Diffusion models achieve superior generation quality but suffer from slow generation speed due to the iterative nature of denoising. In contrast, consistency models, a new generative family, achieve competitive performance with significantly faster sampling. These models are trained either through c...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 15. Large language models (LLMs) can store a significant amount of factual knowledge in their parameters. However, their parametric knowledge may conflict with the information provided in the context -- this phenomenon, known as context-memory knowledge conflicts, can lead to undesirable model behaviour...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 16. Recent advancements in multimodal fusion have witnessed the remarkable success of vision-language (VL) models, which excel in various multimodal applications such as image captioning and visual question answering. However, building VL models requires substantial hardware resources, where efficiency ...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 17. Large Language Models (LLMs) are thought to struggle with arithmetic learning due to the inherent differences between language modeling and numerical computation, but concrete evidence has been lacking. This work responds to this claim through a two-side experiment. We first investigate whether LLMs...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 18. We present CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), a high-quality 500GB subset of the Chinese Corpora Internet 3.0 (CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data), developed using a novel two-stage hybrid filtering pipeline that significantly enhances data quality. To eval...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 19. Model editing has become an increasingly popular alternative for efficiently updating knowledge within language models. Current methods mainly focus on reliability, generalization, and locality, with many methods excelling across these criteria. Some recent works disclose the pitfalls of these editi...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 20. In this paper, we give an in-depth analysis on the mathematical problem formulations and the probabilistic optimization explorations for some of the key components in Transformer model [33] in the field of generative AI. We explore and discuss some potential further enhancement for current state of ...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 21. The dominant paradigm for RLHF is online and on-policy RL: synchronously generating from the large language model (LLM) policy, labelling with a reward model, and learning using feedback on the LLM's own outputs. While performant, this paradigm is computationally inefficient. Inspired by classical d...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 22. Large Language Models (LLMs) often hallucinate, producing unfaithful or factually incorrect outputs by misrepresenting the provided context or incorrectly recalling internal knowledge. Recent studies have identified specific attention heads within the Transformer architecture, known as retrieval hea...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 23. Data scaling has revolutionized fields like natural language processing and computer vision, providing models with remarkable generalization capabilities. In this paper, we investigate whether similar data scaling laws exist in robotics, particularly in robotic manipulation, and whether appropriate ...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 24. Efficient long-context language modeling remains a significant challenge in Natural Language Processing (NLP). While Transformers dominate language tasks, they struggle with long sequences due to quadratic computational complexity in training and linearly scaling memory costs during inference. Recen...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 25. Transformers can capture long-range dependencies using self-attention, allowing tokens to attend to all others directly. However, stacking multiple attention layers leads to attention concentration. One natural way to address this issue is to use cross-layer attention, allowing information from earl...
[25.10.2024 22:11] ********************************************************************************
[25.10.2024 22:11] Abstract 26. We consider multi-draft speculative sampling, where the proposal sequences are sampled independently from different draft models. At each step, a token-level draft selection scheme takes a list of valid tokens as input and produces an output token whose distribution matches that of the target model....
[25.10.2024 22:11] Read previous papers.
[25.10.2024 22:11] Generating reviews via LLM API.
[25.10.2024 22:11] Using data from previous issue: {"desc": "В статье представлен новый подход к вычислению контрастивной функции потерь, позволяющий значительно увеличить размер батча без роста потребления памяти GPU. Авторы предлагают стратегию вычислений на основе тайлинга, которая разбивает расчет контрастивной функции потерь на небольшие блоки.
[25.10.2024 22:11] Using data from previous issue: {"desc": "Эта статья представляет новый метод обучения под названием LOGO для улучшения генеративных способностей моделей с длинным контекстом (LCM). LOGO использует оптимизацию предпочтений без эталона и метод синтеза позиций для создания обучающих данных. Авторы обучили модель Llama-3-8B-Instruct-
[25.10.2024 22:11] Using data from previous issue: {"desc": "Данная статья посвящена проблеме галлюцинаций в больших языковых моделях (LLM) и методам редактирования знаний для их исправления. Авторы предлагают новый бенчмарк HalluEditBench для оценки эффективности методов редактирования знаний в исправлении реальных галлюцинаций. Бенчмарк включает м
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет ScaleQuest - новый метод синтеза данных для улучшения способностей LLM к рассуждениям. Используя небольшие модели с открытым исходным кодом, ScaleQuest генерирует вопросы с нуля без необходимости в исходных данных. С помощью этого метода был создан набор данных из 1 мил
[25.10.2024 22:11] Using data from previous issue: {"desc": "Предложен метод Framer для интерактивной интерполяции кадров, позволяющий создавать плавные переходы между двумя изображениями с учетом пользовательских предпочтений. Система поддерживает настройку процесса перехода путем задания траектории выбранных ключевых точек, что обеспечивает более
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет концепцию генеративной бесконечной игры, которая использует генеративные модели для создания видеоигры, выходящей за рамки традиционных конечных систем. Авторы разработали игру Unbounded - симулятор жизни персонажа, полностью основанный на генеративных моделях. В игре и
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет новый метод Code-as-Intermediary Translation (CIT) для улучшения визуальных рассуждений в мультимодальных больших языковых моделях (MLLM). Метод использует код как посредник для перевода визуальных представлений графиков в текстовые, что позволяет LLM понимать межмодаль
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет новый метод под названием STRING (ShifTed Rotray position embeddING) для улучшения эффективной длины контекста больших языковых моделей (LLM). Авторы обнаружили, что существующие LLM часто не могут эффективно использовать весь заявленный контекст из-за особенностей расп
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет новый бенчмарк W-Bench для оценки устойчивости методов водяных знаков к современным техникам редактирования изображений. Авторы предлагают метод VINE, который значительно повышает робастность водяных знаков, сохраняя высокое качество изображений. VINE использует анализ
[25.10.2024 22:11] Using data from previous issue: {"desc": "В этой работе представлен набор методов для улучшения моделирования вознаграждений для больших языковых моделей (LLM), с акцентом на техники, ориентированные на данные. Авторы предлагают эффективные стратегии отбора и фильтрации данных для курирования высококачественных открытых наборов да
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья посвящена проблеме сегментации объектов в видео с произвольной гранулярностью. Авторы предлагают использовать предобученную диффузионную модель для перехода от текста к изображению, дополненную механизмом отслеживания. Этот подход позволяет эффективно справляться с различными сценар
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет новую стратегию тонкой настройки моделей для генерации HTML-кода из UI-дизайнов. Метод Waffle использует механизм внимания, учитывающий структуру HTML, и контрастивное обучение для улучшения понимания моделями связи между изображениями UI и HTML-кодом. Эксперименты пока
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет MotionCLR - модель диффузии движения на основе механизмов внимания для интерактивного редактирования генерации движений человека. Модель использует самовнимание для измерения последовательного сходства между кадрами и кросс-внимание для нахождения детальных соответствий
[25.10.2024 22:11] Using data from previous issue: {"desc": "В статье представлен новый бенчмарк CAMEL-Bench для оценки мультимодальных языковых моделей (LMM) на арабском языке. Бенчмарк охватывает 8 разнообразных областей и 38 подобластей, включая понимание нескольких изображений, сложное визуальное восприятие и анализ видео. CAMEL-Bench содержит о
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет новый подход к пониманию моделей согласованности, рассматривая процесс шумоподавления как марковский процесс принятия решений. Авторы предлагают метод Stable Consistency Tuning (SCT), который использует обучение с временной разницей и снижение дисперсии для улучшения пр
[25.10.2024 22:11] Using data from previous issue: {"desc": "Данная статья посвящена проблеме конфликтов знаний в больших языковых моделях (LLM). Авторы предлагают метод SpARE, использующий предобученные разреженные автоэнкодеры для управления выбором знаний в LLM. SpARE идентифицирует функциональные особенности, контролирующие выбор знаний, и приме
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет ADEM-VL - эффективный метод для моделей зрения-языка, основанный на предобученных больших языковых моделях (LLM). Он использует механизм кросс-внимания без параметров для измерения сходства в мультимодальном слиянии, что значительно сокращает количество обучаемых параме
[25.10.2024 22:11] Using data from previous issue: {"desc": "Это исследование посвящено изучению способностей больших языковых моделей (LLM) к обучению арифметике. Авторы обнаружили, что хотя LLM могут идентифицировать частичные произведения после обучения, они не способны использовать их для арифметических задач. Исследование также показало, что LL
[25.10.2024 22:11] Using data from previous issue: {"desc": "Представлен CCI3.0-HQ - высококачественный набор данных объемом 500 ГБ, полученный из Chinese Corpora Internet 3.0. Для его создания использовался новый двухэтапный гибридный конвейер фильтрации, значительно улучшающий качество данных. Модель с 0.5 миллиардами параметров, обученная на этом
[25.10.2024 22:11] Using data from previous issue: {"desc": "В статье рассматривается влияние методов редактирования на общие способности языковых моделей. Исследование показывает, что существующие методы редактирования приводят к неизбежному ухудшению производительности на общих бенчмарках, особенно при большом количестве правок. Модели, настроенны
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет глубокий анализ математических формулировок и вероятностных оптимизаций ключевых компонентов модели Transformer в области генеративного ИИ. Авторы предлагают оптимальное решение для кодирования подслов (SWE), основанное на алгоритме byte-pair encoding (BPE) и подходе Wo
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья предлагает новый подход к обучению с подкреплением по обратной связи человека (RLHF) для больших языковых моделей. Авторы предлагают разделить процессы генерации и обучения, что позволяет асинхронно генерировать новые образцы и одновременно обучаться на старых. Исследование показыва
[25.10.2024 22:11] Using data from previous issue: {"desc": "Исследователи предложили новый метод декодирования под названием DeCoRe для уменьшения галлюцинаций в больших языковых моделях (LLM). Метод основан на маскировании определенных голов внимания в архитектуре Transformer, отвечающих за извлечение контекстной информации. DeCoRe сравнивает выхо
[25.10.2024 22:11] Using data from previous issue: {"desc": "Исследователи изучают возможность применения принципов масштабирования данных в робототехнике, в частности, в манипуляциях роботов. Они провели масштабное эмпирическое исследование, собрав более 40 000 демонстраций и выполнив более 15 000 реальных запусков роботов. Результаты показали, что
[25.10.2024 22:11] Using data from previous issue: {"desc": "Исследователи представили Taipan - гибридную архитектуру, сочетающую Mamba-2 с селективными слоями внимания для эффективной обработки длинных последовательностей в языковом моделировании. Taipan идентифицирует важные токены, требующие взаимодействия на большом расстоянии, и усиливает их пр
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья представляет новый подход к улучшению работы трансформеров под названием ResFormer. Он решает проблему концентрации внимания в глубоких слоях путем добавления остаточного соединения от значений первого слоя ко всем последующим. Предложенная модификация SVFormer использует одинаковые
[25.10.2024 22:11] Using data from previous issue: {"desc": "Статья рассматривает мультимодельное спекулятивное сэмплирование в контексте языковых моделей. Авторы предлагают оптимальную двухэтапную схему выбора токенов, использующую важностную выборку. Для случая двух идентичных черновых моделей установлены условия для 100% вероятности принятия и по
[25.10.2024 22:11] Loading Chinese text from previous data.
[25.10.2024 22:11] Renaming data file.
[25.10.2024 22:11] Renaming previous data. hf_papers.json to ./d/2024-10-25.json
[25.10.2024 22:11] Saving new data file.
[25.10.2024 22:11] Generating page.
[25.10.2024 22:11] Renaming previous page.
[25.10.2024 22:11] Renaming previous data. index.html to ./d/2024-10-25.html
[25.10.2024 22:11] [Experimental] Generating Chinese page for reading.
[25.10.2024 22:11] Chinese vocab [{'word': '讨论', 'pinyin': 'tǎo lùn', 'trans': 'discuss'}, {'word': '对比', 'pinyin': 'duì bǐ', 'trans': 'contrast'}, {'word': '损失', 'pinyin': 'sǔn shī', 'trans': 'loss'}, {'word': '表示', 'pinyin': 'biǎo shì', 'trans': 'representation'}, {'word': '学习', 'pinyin': 'xué xí', 'trans': 'learning'}, {'word': '大批量', 'pinyin': 'dà pī liàng', 'trans': 'large-scale'}, {'word': '性能', 'pinyin': 'xìng néng', 'trans': 'performance'}, {'word': '受限于', 'pinyin': 'shòu xiàn yú', 'trans': 'limited by'}, {'word': 'GPU', 'pinyin': 'GPU', 'trans': 'GPU'}, {'word': '内存', 'pinyin': 'nèi cún', 'trans': 'memory'}, {'word': '消耗', 'pinyin': 'xiāo hào', 'trans': 'consumption'}, {'word': '提出', 'pinyin': 'tí chū', 'trans': 'propose'}, {'word': '基于', 'pinyin': 'jī yú', 'trans': 'based on'}, {'word': '块', 'pinyin': 'kuài', 'trans': 'block'}, {'word': '计算', 'pinyin': 'jì suàn', 'trans': 'computation'}, {'word': '策略', 'pinyin': 'cè lüè', 'trans': 'strategy'}, {'word': '避免', 'pinyin': 'bì miǎn', 'trans': 'avoid'}, {'word': '全部', 'pinyin': 'quán bù', 'trans': 'entire'}, {'word': '实例化', 'pinyin': 'shí lì huà', 'trans': 'instantiate'}, {'word': '相似度', 'pinyin': 'xiāng sì dù', 'trans': 'similarity'}, {'word': '矩阵', 'pinyin': 'jǔ zhèn', 'trans': 'matrix'}, {'word': '此外', 'pinyin': 'cǐ wài', 'trans': 'moreover'}, {'word': '引入', 'pinyin': 'yǐn rù', 'trans': 'introduce'}, {'word': '多级', 'pinyin': 'duō jí', 'trans': 'multi-level'}, {'word': '分布式', 'pinyin': 'fēn bù shì', 'trans': 'distributed'}, {'word': '系统', 'pinyin': 'xì tǒng', 'trans': 'system'}, {'word': '层次', 'pinyin': 'céng cì', 'trans': 'hierarchy'}, {'word': '结构', 'pinyin': 'jié gòu', 'trans': 'structure'}, {'word': '实验', 'pinyin': 'shí yàn', 'trans': 'experiment'}, {'word': '结果', 'pinyin': 'jié guǒ', 'trans': 'result'}, {'word': '显示', 'pinyin': 'xiǎn shì', 'trans': 'show'}, {'word': '方法', 'pinyin': 'fāng fǎ', 'trans': 'method'}, {'word': '扩展', 'pinyin': 'kuò zhǎn', 'trans': 'scale'}, {'word': '前所未有', 'pinyin': 'qián suǒ wèi yǒu', 'trans': 'unprecedented'}, {'word': '批量', 'pinyin': 'pī liàng', 'trans': 'batch'}, {'word': '大小', 'pinyin': 'dà xiǎo', 'trans': 'size'}, {'word': '保持', 'pinyin': 'bǎo chí', 'trans': 'maintain'}, {'word': '精度', 'pinyin': 'jīng dù', 'trans': 'accuracy'}, {'word': '例如', 'pinyin': 'lì rú', 'trans': 'for example'}, {'word': '使用', 'pinyin': 'shǐ yòng', 'trans': 'use'}, {'word': 'A800', 'pinyin': 'A800', 'trans': 'A800'}, {'word': '80GB', 'pinyin': '80GB', 'trans': '80GB'}, {'word': '训练', 'pinyin': 'xùn liàn', 'trans': 'train'}, {'word': 'CLIP-ViT-L/14', 'pinyin': 'CLIP-ViT-L/14', 'trans': 'CLIP-ViT-L/14'}, {'word': '模型', 'pinyin': 'mó xíng', 'trans': 'model'}, {'word': '与', 'pinyin': 'yǔ', 'trans': 'with'}, {'word': '最先进', 'pinyin': 'zuì xiān jìn', 'trans': 'most advanced'}, {'word': '内存高效', 'pinyin': 'nèi cún gāo xiào', 'trans': 'memory-efficient'}, {'word': '解决方案', 'pinyin': 'jiě jué fāng àn', 'trans': 'solution'}, {'word': '相比', 'pinyin': 'xiāng bǐ', 'trans': 'compared to'}, {'word': '相当', 'pinyin': 'xiāng dāng', 'trans': 'comparable'}, {'word': '速度', 'pinyin': 'sù dù', 'trans': 'speed'}, {'word': '同时', 'pinyin': 'tóng shí', 'trans': 'simultaneously'}, {'word': '实现', 'pinyin': 'shí xiàn', 'trans': 'achieve'}, {'word': '数量级', 'pinyin': 'shù liàng jí', 'trans': 'order of magnitude'}, {'word': '减少', 'pinyin': 'jiǎn shǎo', 'trans': 'reduce'}, {'word': '代码', 'pinyin': 'dài mǎ', 'trans': 'code'}, {'word': '将', 'pinyin': 'jiāng', 'trans': 'will'}, {'word': '公开', 'pinyin': 'gōng kāi', 'trans': 'public'}, {'word': '发布', 'pinyin': 'fā bù', 'trans': 'release'}]
[25.10.2024 22:11] Renaming previous Chinese page.
[25.10.2024 22:11] Renaming previous data. zh.html to ./d/2024-10-24_zh_reading_task.html
[25.10.2024 22:11] Writing result.
[25.10.2024 22:11] Writing Chinese reading task.
[25.10.2024 22:11] Renaming log file.
[25.10.2024 22:11] Renaming previous data. log.txt to ./logs/2024-10-25_last_log.txt