Posts

Notes for ICML Physics of LLM Talk

 Source:  https://youtu.be/yBL7J0kgldU?si=koiBhKpq3Cp1M8G7 research methodology deconstruct into building blocks, structure, knowledge, reasoning etc.. study in controlled way, idealized environment, control the data, tweak the params highly repeatable experiments 100m size model, universal laws 1xH100 within a day probe inner working knowledge extraction 2 types of data biography of N individuals QA data to extract the fact of the N individuals based on Biography Training data: N biographies, + N/2 QA data Test data: the other N/2 QA data If the model can perform well on the other N/2 individuals’ biography questions, then it has knowledge extraction capability Option 1: Pre train with both N biographies and N/2 QA result: good knowledge extraction Option 2: Pre train with biography data only, fine tune with QA result: bad knowledge extraction Option 3: augment the biography data for each person, pretrain with biography and fine tune with QA result:

MIT Efficient ML Course Notes and Highlights

  Personal highlights Memory movement is more expensive than computation Network latency is more significant than computation with same memory consumption, we want the network to have as much computation as possible to increase accuracy Common technique: Pruning, Quantization, Distillation different level of grouping and granularity used in pruning, quantization, parallel execution Common evaluation and optimization criteria weight significance, activation significance, tensor wise, channel wise, batch wise … l2 loss, KL divergence, accuracy, latency, number of computation, memory usage Common ideas to optimize a neural network structure using above techniques architecture option as a trainable parameter and additional loss or KD divergence Optimize the architecture params with regular weights either together or freeze one and optimize the other iteratively iteratively prune/ quantize / distill and evaluate after fine tune in each round abrasion study, delete one

拉美500年,荆棘丛生的自由繁荣之路

  缘起 最近对拉美的政治经济历史感兴趣,所以读了一些相关书籍,看了一些相关视频,感觉拉美还是一个很有趣的地区:资源丰富,悠久的被殖民的历史,灾难性的通货膨胀,贫民窟,贫富差距大etc。 所以把阅读的笔记和思考重新整理如下。 注 :下面的很多内容都是来自读书笔记,如有雷同,那是真的在抄书 lol 参考材料: 從「已開發」倒退回「發展中水準」的國家,經濟學家眼中最離奇的案例 (视频) 阿根廷国家崩溃报告 (视频) 《掉队的拉美》 [智]塞巴斯蒂安.爱德华兹 (书)  《拉丁美洲被切开的血管》 [乌拉圭] 爱德华多·加莱亚诺 (书) 正文 拉美的问题 相比其他国家,拉美有很多优势,比如资源丰富,有丰富的矿产资源,气候也很适合农业发展;比如比亚洲和非洲国家更早实现独立和民主制度;比如没有直接卷入一战和二战,二战期间由于欧州陷入战乱无暇输出工业品,拉美的民族工业从而获得了更多市场,并得到了长足发展。但是二战之后拉美的发展速度却远远落后于一片废墟的欧洲,还被东亚诸国后发超车。 《掉队的拉美》中把经济的增长转型分为三个阶段: 第一个阶段 ,产量增加和收入提高主要是由生产率增长驱动的。简单来说,第一个阶段的经济增长不是由于使用了更多机器或雇用了更多工人,而是由于做事的效率提高了。 第二个阶段 ,效率的提高和生产率的增长仍然强劲,整体经济持续快速发展。与第一个阶段不同的是,第二个阶段对机器、建筑物、公路和港口的投资成为增长的另一重要来源。 第三个阶段 ,包括实物资本和人力资本在内的资本积累成为增长最主要的来源,有助于维持相对较快的经济扩张。有时第三个阶段会引起新的结构或技术变革,使生产率有新的跃升,于是上述过程进入一个层次更高的新周期。 作者认为绝大多数拉美国家并没有跨越增长转型的第一个阶段。从各项经济、社会指标上,拉美的各个国家也很落后。比如拉美的贫困人口多。1970年,在实施进口替代发展战略整整30年之后,所有拉美家庭中仍有40%生活在贫困线以下,农村地区的贫困发生率达到令人震惊的62%。还比如拉美的人均收入低。1975年拉美平均人均收入相当于美国的24%,至2006年,这一数值跌至19%。再比如拉美的贫富差距很大,受教育程度普遍偏低,失业率高企,通胀失控等等。 根据经济学研究,一个国家的自由繁荣主要取决于以下几个因素: 首先,在解释长期增