This is because:Athena does not support using avro. schema. url to specify table schema. Athena requires you to explicitly specify…
Continue Readingtable
PostgreSQL at Scale: Database Schema Changes Without Downtime
PostgreSQL at Scale: Database Schema Changes Without DowntimeJames ColemanBlockedUnblockFollowFollowingFeb 1Braintree Payments uses PostgreSQL as its primary datastore. We rely heavily on…
Continue ReadingWeb Scraping Google Sheets with RSelenium
We can check this use this via length(webElems). There is actually 49 tables in total but since we started on…
Continue Reading學習計劃|帶你10周入門資料分析
學習計劃|帶你10周入門資料分析數據分析那些事BlockedUnblockFollowFollowingJan 24「我是文科生出身,可以學習資料分析嗎?」「我沒有編程基礎,可以成為資料分析師嗎?」「學習資料分析必須學習R和Python嗎?」… …其實,資料分析沒有想像中那麼難,入門也沒有那麼多條條框框。我認識的HR轉資料分析,市場行銷轉資料營運的,大有人在。資料分析重要的是問題的理解、分析的思路、分析的流程及結果的解讀,工具和編程都是實現這些分析思路的手段之一。不過優秀的資料分析師也並非幾日能速成,但入門也有入門的捷徑。盤算了一下資料分析的入門知識,大體分為以下這些,只要拿出你大學時啃高數的狀態,每周夯實一個基礎,基本能學成。學習大綱:資料分析的思維和方法Excel進階資料庫理解和SQL入門數理統計學資料分析軟體應用資料視覺化常見的業務分析模型Python/R語言掌握業務理解和指標設計增長黑客:資料驅動增長接下來,我將花一段時間在專欄里詳細講述每一塊教程,學習地址 — — 拉到文章末尾。第一周:培養資料分析思維為什麼資料分析思維很重要?如果我們在分析一個問題前,思維缺失就像下面圖中所表達的一樣,往往不知道問題從哪裡下手,即使拿到資料也是一臉懵逼。所以我們要通過訓練資料分析思維,幫助在遇到問題時,大家腦中能快速梳理出分析的切入點,甚至是分析的思路,這一點很重要。常用的一些思維方式:1、金字塔/結構化思維把待分析問題按不同方向去分類,然後不斷拆分細化,能全方位的思考問題,一般是先把所有能想到的一些論點先寫出來,然後在進行整理歸納成金字塔模型。主要通過思維導圖來寫我們的分析思維。2、公式化思維在結構化的基礎上,這些論點往往會存在一些數量關係,使其能進行+、-、×、÷的計算,將這些論點進行量化分析,從而驗證論點。所謂指標體系,就是這麼梳理得來的。業務化思維業務化即是深入了解業務情況,結合該項目的具體業務進行分析,並且能讓分析結果進行落地執行。用結構化思考+公式化拆解得出的最終分析論點再很多時候表示的是一種現象,不能體現產生結果的原因。所以需要繼續去用業務思維去思考,站在業務人員或分析對象的角度思考問題,深究出現這種現象的原因或者通過資料推動業務。增加業務思維方法:貼近業務,換位思考,積累經驗。同時,這樣的思維模式在一些特定業務場景下,還衍生出一些基礎的分析方法,比如象限法、多維法、假設法、指數法、二八法、對比法、漏鬥法,這個對未來構建分析模型都有幫助。思維模型的好處是他能提供一種視角或思維框架,從而幫助你建立起觀察事物和分析問題的視角。通過對思維模型的學習和訓練,能提高你成功的可能性。第二周:Excel技能進階學習Excel是一個循序漸進的過程基礎的:簡單的表格資料處理、篩選、排序函數和公式:常用函數、高級資料計算、數組公式、多維引用、function視覺化圖表:圖形圖示展示、高級圖表、圖表插件資料透視表、VBA程序開發按照我習慣的方法,先過一遍基礎,知道什麼是什麼,然後找幾個case練習。多逛逛excelhome論壇,平常多思考如何用excel來解決問題,善用插件。函數和資料透視表是兩個重點,結合業務場景來學習,可參考《誰說菜鳥不會資料分析》。製作資料模板必須掌握的excel函數日期函數:day,month,year,date,today,weekday,weeknum。日期函數是做分析模板的必備,可以用日期函數來控制資料的展示,查詢指定時間段的資料。數學函數:product,rand,randbetween,round,sum,sumif,sumifs,sumproduct統計函數:large,small,max,min,median,mode,rank,count,countif,countifs,average,averageif,averageifs。統計函數在資料分析中具有舉足輕重的作用,求平均值,最大值,中位數,眾位數都用得到。查找和引用函數:choose,match,index,indirect,column,row,vlookup,hlookup,lookup,offset,getpivotdata。這幾個函數的作用不用多說,特別是vlookup,不會這個函數基本上複雜一點的報表寸步難行。文本函數:find,search,text,value,concatenate,left,right,mid,len。這幾個函數多半用在資料整理階段使用。邏輯函數:and,or,false,true,if,iferror。資料透視表資料透視表的作用是把大量資料生成可交互的報表,資料透視表具有這樣一些重要功能:分類匯總、取平均、最大最小值、自動排序、自動篩選、自動分組;可分析佔比、同比、環比、定比、自定義公式。第三周:學習資料庫原理和SQL做資料分析,資料從哪裡來?資料庫!怎麼取資料?寫SQL!做資料分析,取數、清洗資料,基本都要依賴SQL。初入門階段,對於資料庫不必精通,只需了解常用的資料庫類型,能夠在現有的表格裡面查詢出資料,能夠更新資料對資料進行重編碼,知道怎麼增加添加資料,把資料變得規整就行。理解主鍵,索引等含義和用處。匯入匯出資料可以使用工具,分析資料可以使用ODBC或者其他的介面對資料庫進行連接。取數的排序,做數資料交集並集,資料轉換,資料表合并等這些,最好也能掌握。這裡我總結了幾個核心技能:技能一:學會用select語句添加欄位和找出需要的資料直接給一個隨時可以套用的萬金油模板吧:select cola,colb,colc into newtable from oldtable wherecola=’x’ and colb is not null;基本上,學會這個就可以完全的查出大部分的資料了。select後面是一個個的欄位,要哪個選哪個。有into意味著放到一張新表裡面,沒有就是查詢出來。where之後的就是我們的條件,等於某個值,或者是不是空值,是最常用的幾種查詢方式吧。還有一種select也用的非常多:select cola from oldtable group by cola;這個語句是看看cola有多少種值的可能性。select進階學習,可能要講講join,union,以及多個查詢組合成的嵌套查詢,或者是子查詢的模式,以及模糊查詢。這個後面我會再花篇幅寫出來給大家參考。技能二:學會alter學會增加,減少欄位alter可以做的事情很多,增加欄位,減少欄位,增加主鍵減少主鍵等等,非常常用。1.…
Continue ReadingPython for Pdf
Python for PdfUmer FarooqBlockedUnblockFollowFollowingJan 22Table of contentIntroductionWhy Python for PDF processingCommon Python LibrariesExtracting Text from pdfReading the Table data from pdfExport…
Continue ReadingThe easy way to use Maxmind GeoIP with Redshift
The easy way to use Maxmind GeoIP with RedshiftTJ MurphyBlockedUnblockFollowFollowingJan 18Photo by Westley Ferguson on UnsplashIt always starts with an innocent observation.…
Continue ReadingHow to transfer BigQuery table to Cloud SQL using Cloud Dataflow
How to transfer BigQuery table to Cloud SQL using Cloud DataflowJose Miguel ArrietaBlockedUnblockFollowFollowingJan 6Cloud Dataflow is an excellent solution to move…
Continue ReadingLogic Theory — Equivalency
in order to drive home the point that it’s not required. The process for creating a truth table does not…
Continue ReadingSQL 101: Interacting with the Memories in your Pensieve
You can accomplish this with the following SQL query:This will delete all records from the convos_with_dark_wizards table where the convo_with…
Continue ReadingDispatch Tables in Python
We are assigning each function to a key we find convenient, in this case the result of the weekday() method…
Continue ReadingImplementing Hash Table Algorithms in Swift
Since the requirement to create a hashindex is specific to Keyable types, this action can be accessed through a protocol…
Continue ReadingDynamoDB: Data Modeling
However you can switch between the two – so, in the example above you would use Provisioned capacity normally, but…
Continue ReadingHow to Remove Single Table Inheritance from Your Rails Monolith
The word “content” is unfortunately super generic, so it was impossible to do a simple, global search and replace, so…
Continue ReadingA step-by-step guide to getting started with HTML tables
For the table, we have <thead> for the head and <tbody> for the body.<thead> — The table head element (not to be…
Continue ReadingInteresting packages taken from R/Pharma
Additionally also things that did not change are mentioned, with can be really helpful, in case you do not check…
Continue ReadingHow to Create a BI Dashboard Using a Pivot Table and a Charting Library
How to Create a BI Dashboard Using a Pivot Table and a Charting LibraryA step-by-step tutorial for creative business intelligence data…
Continue Reading